Résumé :
Organisée dans le cadre de l’objectif stratégique OSD1, Accroître l’appropriation des nouvelles approches en science des données par nos communautés scientifiques du Plan Données pour la Science, l’école thématique ETLMIC (29 septembre – 2 octobre) a réuni 41 participants de 14 départements. Elle était centrée sur une compétence scientifique et technologique majeure en Intelligence Artificielle et science des données : articulation entre modèles de langue et graphes de connaissances nécessaire au partage et à la réutilisation d’informations par le traitement sémantique de documents textuels et l’intégration des connaissances et données. Sur le plan pédagogique, ETLMIC a relevé le défi de la grande diversité des profils des participants en adoptant une pédagogie de projet. L’école pose ainsi les fondations d’une communauté interdisciplinaire fédérant sciences du numérique et disciplines métiers, au service de la sécurité alimentaire, de la santé des écosystèmes et de l’aide à la décision publique.
Contexte et enjeux :
L’objectif OSD1 Accroître l’appropriation des nouvelles approches en science des données par nos communautés scientifiques du Plan Données pour la Science INRAE est un axe stratégique de la politique de transformation des usages des données de recherche. Les ateliers OSD1 ont mis en évidence la nécessité de l’évolution des compétences et des pratiques des scientifiques qui conjuguent l’utilisation et l’adaptation avancées des modèles de langue, des technologies du web sémantique, et la maîtrise des principes FAIR. Ce couplage constitue un point clé, car il conditionne la capacité à intégrer et exploiter conjointement les résultats des modèles d’IA avec d’autres sources d’information. En effet, la formalisation et la standardisation des sorties des modèles de langue sont essentielles pour garantir la qualité, la traçabilité et la fiabilité des résultats produits. Réciproquement, l’injection de connaissances qualifiées dans les modèles améliore la précision, la pertinence et la robustesse de leurs prédictions. La grande technicité de ces approches, à l’interface entre intelligence artificielle, linguistique et ingénierie des connaissances, a renforcé l’importance d’un cadre collectif d’apprentissage et d’expérimentation partagé. L’école thématique interdisciplinaire ETLMIC s’inscrit dans un défi majeur de la recherche contemporaine : transformer un flux massif d’informations textuelles dispersées, souvent redondantes, parfois contradictoires, en connaissances stabilisées, traçables, explicables et objectivées par la mise en œuvre de méthodes de traitement automatique du langage et de représentation des connaissances pour structurer, relier et valoriser les contenus des textes.
Résultats :
Le conseil scientifique et l’équipe pédagogique de l’école mobilisés par les deux animateurs ont relevé le défi de la diversité des métiers et des compétences en concevant un programme exigeant qui a placé les participants dans une expérience intensive durant quatre jours. Les plateformes Collab.IA à INRAE et IFB Core ont mis à disposition des ressources GPU permettant l’expérimentation sécurisée avec des modèles de langue de grande taille (LLM) appliqués aux textes. La Forge INRAE a accueilli les données, scripts, logiciels et documents computationnels (Jupyter Notebook) qui ont facilité la prise en main des outils par les non informaticiens Les modules « Extraction d’Information & Modèles de Langue », « Ressources sémantiques & graphes de connaissances », « Couplage et Applications » et « mini-projets » transversaux ont alterné apports conceptuels et travaux pratiques regroupant des chercheurs et ingénieurs de 14 départements et directions d’INRAE. Les quatre mini-projets ont proposé des questions de recherche ouvertes et ancrées dans des problématiques concrètes d’intérêt pour INRAE. Les participants en équipes pluri-compétences et pluridisciplinaires ont traité les mini-projets en mode hackathon, mobilisant les acquis et stimulant de nouveaux apprentissages. Ont été abordés, la conception de corpus annotés partageables, la mobilisation de modèles de langue adaptés aux besoins métiers et la représentation des connaissances par des graphes et ontologies.
Perspectives :
L’organisation de l’école a mis en évidence l’existence d’un large vivier à INRAE de personnels à former pour renforcer les compétences des équipes du numérique et des équipes métiers, dont les besoins convergent autour de la valorisation et de la réutilisation de l’information scientifique.
Valorisation :
L’ensemble des productions d’ETLMIC (programme, supports, TD, projets) est mis à disposition sur le site web (https://etlmic.pages-forge.inrae.fr/web/). ETLMIC a initié une dynamique fondée sur la compréhension mutuelle des concepts que les participants souhaitent amplifier par des instruments croisant numérique et métiers tels que l’organisation d’écoles d’approfondissement, la co-construction de ressources communes et le développement par des équipes mixtes, de technologies progressivement ajustées aux réalités agronomiques, environnementales et socio-économiques d’INRAE en lien avec les réseaux, CATI, PEPI existants.