Abstraction de lignes lumineuses bleues sur fond sombre
Offre d’emploi Probayes

Doctorant thèse CIFRE (TAL)

Poste en
CDD
Grenoble

En tant que doctorant, vous faites de la recherche en traitement automatique des langues (TAL/NLP) pour développer de nouvelles connaissances et ouvrir la possibilité de nouvelles applications industrielles. Votre sujet de recherche est l’amélioration des systèmes RAG (retrieval-augmented generation) grâce aux connaissances structurées. Vous travaillez avec les chercheurs des équipes Getalp et MRIM, ainsi qu’au sein de l’équipe de data scientists de Probayes.

Description du poste :

Vous êtes encadré(e) par un chercheur de l’équipe Getalp ou MRIM (Laboratoire d’Informatique de Grenoble), ainsi que par le Directeur Scientifique Traitement Automatique des Langues de Probayes.

Vous travaillez à l’extension des méthodes de RAG (retrieval-augmented generation) grâce aux données structurées.

Un système RAG permet l’interrogation en langage naturel d’une base de documents :

  • Les documents sont découpés et indexés dans une base de données vectorielles
  • La requête utilisateur est rapprochée des passages indexés, et les passages les plus proches sont remontés
  • Un LLM (grand modèle de langue) génère la réponse à la question à partir des passages pertinents.

Plusieurs structures peuvent être extraites d’une base documentaire :

  • La structure inter-documents
  • La structure intra-document
  • Des structure sémantiques, entre concepts présents dans les documents

Dans cette thèse, nous proposons d’exploiter ces structures pour améliorer :

  • La compréhension et le nettoyage de la base documentaire
  • La récupération des passages pertinents
  • La génération de réponses pertinentes et leur justification

La recherche pourra s’appuyer sur :

  • Des déploiement industriels de RAG existant chez Probayes, incluant des jeux de données, bancs d’essais, tests utilisateurs et moyens de calcul
  • L’état de l’art de la recherche d’information et de l’exploitation de structure parmi les travaux récents de Getalp et MRIM.

La thèse se déroulera à Grenoble, en alternance dans les bureaux de Probayes (Montbonnot) et au sein du LIG (Campus de Saint Martin d’Hères).

Profil recherché :

  • Vous êtes autonome, curieux(se), rigoureux(se), organisé(e)
  • Vous aimez travailler en équipe
  • Vous avez une bonne communication orale et écrite

Qualifications :

  • Master, avec une formation en traitement automatique des langues

Compétences Souhaitées :

  • Culture scientifique et pratique de l’apprentissage automatique et du traitement automatique des langues
  • Programmation en Python
  • Anglais et Français  

Pourquoi nous rejoindre ? :

  • Vous souhaitez travailler dans un environnement stimulant, avec des experts en Data Science et des chercheurs experts en Traitement Automatique des Langues.
  • Vous voulez développer les connaissances scientifiques, et vous êtes motivé(e) par la possibilité d’applications industrielles à la frontière des possibilités en intelligence artificielle.

 

 

Conformément aux engagements pris par Probayes, en faveur de l'accueil et de l'intégration des personnes en situation de handicap, une priorité sera donnée, à compétences égales aux personnes en situation de handicap.

Postulez pour ce poste

Utilisez notre formulaire :

Types de fichiers acceptés : .doc, .docx, .pdf, image/*
Types de fichiers acceptés : .doc, .docx, .pdf, image/*
Types de fichiers acceptés : .doc, .docx, .pdf
Types de fichiers acceptés : .doc, .docx, .pdf
* Champs obligatoires
Veuillez remplir les champs obligatoires !!

Infos sur sur vos données personnelles :

Les données vous concernant font l’objet d’un traitement informatique destiné à la gestion des candidatures soumises à Probayes. Ces données sont traitées de manière confidentielle. Seules les personnes habilitées de notre société ...

Les données vous concernant font l’objet d’un traitement informatique destiné à la gestion des candidatures soumises à Probayes. Ces données sont traitées de manière confidentielle. Seules les personnes habilitées de notre société pourront accéder à vos données à des fins strictement internes. Vos données sont conservées pour une durée maximale de 24 mois après la date de notre dernier contact. Conformément à la réglementation applicable en matière de protection des données personnelles, entrée en application le 25 mai 2018, vous disposez d’un droit d’accès, de rectification, d’opposition, de limitation du traitement, de portabilité et d’effacement. Ces droits peuvent être exercés aux adresses suivantes (veillez à préciser vos nom, prénom, adresse postale en justifiant de votre identifié) :

Dans le cadre de la politique de protection des données personnelles de La Poste, vous pouvez contacter Madame la Déléguée à la Protection des Données, CP C703, 9 rue du Colonel Pierre Avia 75015 PARIS. En cas de difficulté dans la gestion de vos données personnelles, vous pouvez introduire une réclamation auprès de la CNIL.