Plateforme CoLabIA

Présentation du projet 

Le projet Colab.IA a pour objectif de mettre en place une plateforme expérimentale d’ingénierie, basée sur des problématiques autour du Deep Learning, ouverte et accessibles aux équipes, membres des CATI INRAE. Cette plateforme technique s’adresse plus particulièrement aux personnes et équipes qui ont des besoins ponctuels en puissance de calcul ou des questionnements techniques autour du Deep Learning en général. Il n’a pas vocation à se substituer aux différentes offres de calcul mis en place à INRAE ou au sein des mésocentres, mais en tant que « preuve de concept » il souhaite évaluer l’utilité que pourrait apporter une offre intermédiaire et complémentaire. 

Cette plateforme s’articule autour de 3 composants principaux : 

  • La mise à disposition de ressources de calcul GPU suffisamment dimensionnées pour les besoins en Deep Learning
  • Un fonctionnement flexible, basé sur l’utilisation de conteneurs Docker et de Notbooks Jupyter accessibles depuis un navigateur Web
  • Une animation communautaire structurée

Architecture matérielle

La plateforme CoLab.IA reposera sur une architecture matérielle composée d’un serveur équipé de deux cartes GPU de type NVIDIA A40. Ce GPU de dernière génération (Ampere) a été choisi car il représente à l’heure actuelle le meilleur compromis (performance / prix) pour les taches de Deep Learning avec des quantités de mémoires vidéo permettant de pouvoir travailler à partir de jeux de données composés de plusieurs dizaines de millier d’images.

Concernant sa localisation physique, ce serveur sera basé au sein du Data Center INRAE de Toulouse.

Au niveau de son architecture logicielle, la plateforme CoLab.IA s’appuiera sur une architecture logicielle Open Source et classique, ce qui facilitera les taches d’administration. Elle sera basée sur la distribution Linux Ubuntu Server, le système de conteneurisation Docker et l’interface Web de programmation Jupyter, ce qui permettra une grande flexibilité. Concernant son utilisation, il sera possible d’interagir directement avec des conteneurs via des connexions SSH, ou via l’interface Web proposée par Jupyter et avoir un mode de fonctionnement à l’image de Google Colab. En fonctions des possibilités techniques, il pourrait être envisagé de pouvoir connecter la plateforme avec des espaces de stockages existants via des montages NFS, SMB ou CEPH/NextCloud.

Administration et maintenance

Durant la phase expérimentale, l’administration et la gestion de cette infrastructure sera réalisée par une équipe inter-CATI composée de membres des CATI impliqués, en collaboration avec les équipes d’infrastructure de la DSI, dans le cadre de l’offre de service d’hébergement sec du Data Center Toulousain. Elle pourra s’effectuer à distance, via le système iDRAC Enterprise inclut avec les serveurs Dell. En cas de nécessité, plusieurs agents du Cati Sicpa, rattachés à l’équipe « Informatique et Automatismes » de l’UMR GenPhySE pourront intervenir localement pour effectuer les gestes de proximité. Cette phase opérationnelle pourra être mise à profit pour étudier conjointement avec la DSI, la faisabilité d’une montée en offre de service structurée.

Création et animation d’une communauté

La création et l’animation d’une communauté autour du Deep Learning sera sans doute la partie la plus importante de la plateforme CoLab.IA. Nous pensons qu’elle pourrait devenir un lieu de partage de techniques, d’expériences, de jeux de données, de modèles finalisés et plus généralement de résultats scientifiques. Dans le domaine du Deep Learning, le partage de modèles s’avère une chose capitale et permet notamment via des techniques de Transfert Learning, de pouvoir réutiliser des modèles déjà entraîné et de ne réaliser que les phases de spécialisation, permettant ainsi d’importants gains de temps. De même, la mise en place d’un système de partages de jeux de données annotées est une chose qui pourra être envisagé, notamment dans le cadre des plateformes Open INRAE ou DATA-INRAE. De façon générale, les initiatives de partage resteront à la seule décision des utilisateurs de la plateforme. En contrepartie, il sera demandé aux utilisateurs de CoLab.IA, de participer d’une façon ou d’une autre à la vie de la communauté.

Dans un premier temps, nous envisageons une animation de type communautaire avec une équipe co-gestionnaire composée des différents porteurs de ce projet ainsi que des responsables des CATI IMOTEP et Sicpa.
Après une phase de mise en place techniques, les CATI IMOTEP et Sicpa organiseront un webinaire de présentation à l’ensemble des CATI durant le mois de décembre 2021. Ce webinaire contiendra une session de présentation et de formation aux techniques d’intelligence artificielle et une session de présentation des services offerts par la plateforme, permettant au public intéressé, de s’approprier ce nouvel outil.

La plateforme CoLab.IA est le fruit d’une nouvelle collaboration entre le CATI IMOTEP et le CATI Sicpa qui rencontrent des problématiques communes autour du thème du Deep Learning, depuis la mise au point de modèles jusqu’à leur intégration et utilisation au sein d’applications finalisés ou d’architectures décentralisées de type Edge Computing. Elle a été financé à hauteur de 20 000€ par la DipSO, dans le cadre de son AAP "Soutien à projets innovants et structurants".

Composition du COPIL

  • Jocelyn DE GOËR – CATI IMOTEP – jocelyn.degoer@inrae.fr
  • Bernard BENET – Dpt. MathNum – bernard.benet@inrae.fr
  • Nicolas PARISEY – CATI IMOTEP – nicolas.parisey@inrae.fr
  • Bernadette URBAN – CATI Sicpa - bernadette.urban@inrae.fr
  • François LAPERRUQUE – CATI Sicpa – francois.laperruque@inrae.fr
  • Éric MALDONADO – Direction des Systèmes d’Information - eric.maldonado@inrae.fr
  • Yann LABRUNE - CATI Sicpa - yann.labrune@inrae.fr
  • Thierry HOCH - CATI IMOTEP - thierry.hoch@inrae.fr
  • Hervé RICHARD - CATI IMOTEP - herve.richard@inrae.fr

 

Étiquettes