Default title header
Offre d’emploi Probayes

Développement d'un outil d'annotation de données avancé F/H

Poste en
Stage
Paris

Date de début de contrat : dès que possible

Le/la stagiaire développera un outil d’annotation de données multiformats (texte, image, PDF), en s’appuyant sur des solutions open-source. Il/elle concevra une interface intuitive d’annotation manuelle, explorera l’intégration de modèles de langage (LLM) pour l’annotation semi-automatique, et évaluera leurs performances pour accélérer et fiabiliser le processus.

Durée du contrat : 4 à 6 mois

Description du poste :

Nous vous proposons d’effectuer votre stage de fin d’étude de 4 à 6 mois au sein de l’équipe  Probayes Paris où nous traitons de nombreux sujets tels que : la détection et classification d’anomalies, la maintenance prédictive, le Traitement Automatique des Langues ainsi que différents cas d’usage industriels mêlant problématiques de vision ou de calcul embarqué.

Face aux besoins croissants en traitement et exploitation de données, l’annotation manuelle reste une étape cruciale mais chronophage qui devient une contrainte en termes de temps et de coûts. Nous recherchons donc une solution qui pourrait accélérer et améliorer ce processus d’annotation.

Ce stage vise à développer un outil d’annotation de données avancé capable de gérer plusieurs formats de données (PDF, images, textes, etc.). L’outil s’appuiera sur des bases open-source, en y intégrant des fonctionnalités d’automatisation pour simplifier et réduire le temps d’annotation. Il permettra également d’explorer des pistes innovantes d’annotation semi-automatique via des modèles de langage (LLM), afin de limiter le besoin d’interventions humaines.

Le/la stagiaire aura pour mission principale de développer cet outil d’annotation de données en suivant plusieurs phases. Voici les grandes lignes du projet :

État de l’art et choix technologiques

Objectif : Étudier les outils open-source d’annotation existants pour évaluer leurs avantages, inconvénients et limites par rapport aux besoins identifiés.

Tâches :

  • Dans un premier temps, le/la stagiaire se familiarisera avec les outils open-source existants pour évaluer leur capacité à répondre aux exigences du projet et déterminer dans quelle mesure ils peuvent être adaptés aux besoins spécifiques de l’équipe. Cette étude comprendra une analyse approfondie de solutions comme Doccano, pour le texte, et CVAT, pour les images, avec une identification des points d’amélioration potentiels.

Développement d’une interface d’annotation manuelle

Objectif : Développement d’une interface intuitive pour faciliter l’annotation des données.

Tâches :

  • Annotation de texte : Développer une interface simple permettant de classer du texte via des boutons de sélection (ex. « Classe 1 », « Classe 2 », « OK », « Not OK »).
  • Annotation de texte dans une image : Permettre à l’utilisateur de positionner des boîtes de délimitation (bounding boxes) autour des zones d’intérêt et annoter le contenu de ces zones.
  • Validation des annotations : Intégrer une interface de validation des annotations, avec des options de correction pour vérifier les champs annotés.

Exploration de l’annotation assistée par LLM

Objectif : Analyser et intégrer les capacités des modèles de langage (LLM) pour l’annotation semi-automatique.

Tâches :

  • Réaliser une recherche d’état de l’art sur l’utilisation des modèles de langage et vision (LLM/VLM) pour des tâches d’annotation.
  • Explorer l’intégration de modèles LLM pour assister l’annotation.
  • Effectuer des tests sur des cas d’usage spécifiques (par exemple, lecture et annotation automatique de textes contenus dans des images, ou validation d’annotations faites par les LLM).
  • Évaluation de la performance des modèles de langage sur des cas d’annotation, avec des statistiques sur la précision et les gains de temps observés.

Profil recherché :

  • Vous êtes autonomes, curieux(se) et rigoureux(se)
  • Vous aimez travailler en équipe
  • Qualité de communication écrite et orale

Qualifications :

Étudiant(e) en 3ème année d’école d’ingénieurs, en informatique, ou en Master spécialisé en Intelligence Artificielle / Big Data.

Compétences Souhaitées :

Compétences requises

  • Savoir-faire socle en Informatique : Linux, Bash, Git
  • Maitrise de Python pour le Machine Learning (Pytorch/sk-learn)
  • Expérience en développement Python (la connaissance de Frameworks comme Flask ou similaire est un plus).
  • Expérience avec les modèles de traitement de données textuelles et visuelles (par ex., BERT, GPT).

Compétences appréciées

  • Bon niveau d’anglais (capable de lire de la documentation logicielle et des articles de recherche en anglais)
  • Motivation, polyvalence, rigueur & autonomie
  • Travail en équipe
  • Capacité à mener une étude d’état de l’art et à documenter ses choix et analyses techniques.

Pourquoi nous rejoindre ? :

  • Vous appréciez l’esprit Start-up ou souhaitez le découvrir
  • Vous souhaitez travailler sur des missions à forte valeur ajoutée et découvrir des environnements et secteurs d’activité différents
  • Vous recherchez un poste vous permettant de mettre à profit vos compétences techniques et personnelles sur des missions variées





Conformément aux engagements pris par Probayes, en faveur de l'accueil et de l'intégration des personnes en situation de handicap, une priorité sera donnée, à compétences égales aux personnes en situation de handicap.

Postulez pour ce poste

Utilisez notre formulaire :

Types de fichiers acceptés : .doc, .docx, .pdf, image/*
Types de fichiers acceptés : .doc, .docx, .pdf, image/*
Types de fichiers acceptés : .doc, .docx, .pdf
Types de fichiers acceptés : .doc, .docx, .pdf
* Champs obligatoires
Veuillez remplir les champs obligatoires !!

Infos sur sur vos données personnelles :

Les données vous concernant font l’objet d’un traitement informatique destiné à la gestion des candidatures soumises à Probayes. Ces données sont traitées de manière confidentielle. Seules les personnes habilitées de notre société ...

Les données vous concernant font l’objet d’un traitement informatique destiné à la gestion des candidatures soumises à Probayes. Ces données sont traitées de manière confidentielle. Seules les personnes habilitées de notre société pourront accéder à vos données à des fins strictement internes. Vos données sont conservées pour une durée maximale de 24 mois après la date de notre dernier contact. Conformément à la réglementation applicable en matière de protection des données personnelles, entrée en application le 25 mai 2018, vous disposez d’un droit d’accès, de rectification, d’opposition, de limitation du traitement, de portabilité et d’effacement. Ces droits peuvent être exercés aux adresses suivantes (veillez à préciser vos nom, prénom, adresse postale en justifiant de votre identifié) :

Dans le cadre de la politique de protection des données personnelles de La Poste, vous pouvez contacter Madame la Déléguée à la Protection des Données, CP C703, 9 rue du Colonel Pierre Avia 75015 PARIS. En cas de difficulté dans la gestion de vos données personnelles, vous pouvez introduire une réclamation auprès de la CNIL.