Generative AI and Large Language Models for biological sequence characterization

Durée
6 mois
Date de début
Date limite de candidature

Contexte :
Le stage s’effectuera au sein du l’équipe Data Sciences du Pôle d’Activité « Data Sciences And Data Management » et du laboratoire de recherche en Mathématiques et Informatique Appliquées du Génome à l'Environnement (MaIAGE) du centre INRAE de Jouy-en-Josas. La mission principale du département est de guider les phases primaires de recherche de nouveaux médicaments en développant des méthodes computationnelles novatrices soutenues par des capacités expérimentales, et ce, afin de maximiser les chances de succès des candidats-médicaments tout en réduisant les coûts et les délais d’obtention d’une autorisation de mise sur le marché. Nos activités reposent sur 4 grandes expertises interconnectées :

  • La conception de sĂ©quences comme des oligonuclĂ©otides antisens afin de moduler l’activitĂ© de cibles thĂ©rapeutiques en minimisant leurs effets hors cibles ;

  • La fĂ©dĂ©ration de donnĂ©es pharmaco-biologiques hĂ©tĂ©rogènes et volumineuses en dĂ©veloppant des graphes de connaissances afin d’accĂ©lĂ©rer l’identification de perturbateurs (mĂ©dicaments, petites molĂ©cules, oligonuclĂ©otides antisens) et de supporter la prise de dĂ©cision ;

  • Le profilage de perturbateurs et de modèles en utilisant des modalitĂ©s expĂ©rimentales (p. ex. criblage Ă  haut contenu phĂ©notypiques) ou computationnelles (p. ex. large language models) afin d’extraire des caractĂ©ristiques variĂ©es et exploitables dans diffĂ©rentes conditions ;

  • La modĂ©lisation mathĂ©matique pour Ă©tudier les processus biologiques quantitativement et rĂ©aliser des prĂ©dictions in silico confrontĂ©es aux rĂ©sultats d’expĂ©riences ou d’hypothèses expertes

Missions :

Le stage proposé se positionne dans un contexte de recherche exploratoire et s’intègre dans la volonté de la recherche Servier de créer une plateforme de design et de mise sur le marché d’antisense oligonucléotides. Les activités et responsabilités de ce stage sont :

  • Travailler en Ă©troite collaboration avec notre Ă©quipe de chercheurs (experts en IA et en biologie) pour comprendre les enjeux et les besoins liĂ©s au design de sĂ©quences biologiques, notamment des antisense oligonuclĂ©otides et de l’ARN messager et prĂ©-messager ;

  • Explorer et adapter des algorithmes d’IA gĂ©nĂ©ratives dont des LLM de grande envergure pour traiter des donnĂ©es multi-omiques et structurales, dont des donnĂ©es gĂ©nomiques et transcriptomiques ;

  • DĂ©velopper et mettre en Ĺ“uvre des algorithmes et des pipelines de traitement de donnĂ©es standardisĂ©es pour appliquer ces modèles et exposer des rĂ©sultats scientifiquement afin de rĂ©aliser des validations expĂ©rimentales ;

  • Documenter les mĂ©thodes dĂ©ployĂ©es, les rĂ©sultats et les analyses rĂ©alisĂ©es, et prĂ©senter rĂ©gulièrement les progrès Ă  l'Ă©quipe de recherche.

Compétences :

Formation : dernière année de Grandes Écoles, dernière année d’écoles d’ingénieurs, dernière année de Master 2 à l’Université

Compétences techniques :

  • Apprentissage automatique, profond et des LLMs ;

  • MathĂ©matiques appliquĂ©es ;

  • DĂ©veloppement informatique (Python) ;

  • Science des donnĂ©es ;

  • AppĂ©tence pour la biologie et le domaine pharmaceutique

Compétences humaines :

  • Autonomie ;

  • ProactivitĂ© ;

  • Esprit d’initiative ;

  • Travail en Ă©quipe ;

  • Curiosité  ;

  • Communication (Français, Anglais)

 

Pour plus d'information : https://www.dataia.eu/offres/generative-ai-and-large-language-models-bi…

Contact
Kon Kam King Guillaume, guillaume.konkamking@inrae.fr
Ferré Arnaud, arnaud.ferre@inrae.fr