Accueil > Emplois et stages > Stage : Développement d’un outil d’annotation de données avancé
Emplois & stages
Nos offres d'emploi
Probayes a pour vocation de proposer à ses clients les solutions d’intelligence Artificielle les plus performantes possibles.
Vous souhaitez nous rejoindre, consultez nos offres !
Stage : Développement d'un outil d'annotation de données avancé
À propos de Probayes
Spin-off de l’INRIA et du CNRS, Probayes est né de la volonté d’être le chainon manquant entre la recherche et l’industrie.
Créé en 2003, Probayes est un des leaders français dans le développement de solutions en Intelligence Artificielle. Nos Data Scientists, architectes et développeurs travaillent avec les plus grands groupes pour développer des solutions IA sur mesure, à l’état de l’art de la littérature scientifique, et à fort ROI.
Avec des expertises en apprentissage automatique, en optimisation, en fusion de capteurs, en vision par ordinateur, et en traitement automatique des langues (NLP), en IA Générative complétées par des compétences de conception et de développement, Probayes développe, pour ses clients, des modèles comme moteur d’innovation, d’optimisation et d’aide à la décision.
Probayes adresse ses solutions auprès de secteurs divers comme l’automobile, la défense, l’énergie et l’environnement, la finance et l’assurance, l’industrie, la Supply Chain, la santé, etc. Nous souhaitons poursuivre notre développement à travers ces thématiques, mais également développer des collaborations sur des nouveaux secteurs stratégiques. Probayes a rejoint le groupe La Poste en mai 2016 et en est devenu le centre de compétence en Intelligence Artificielle. Probayes bénéficie aussi de cette collaboration dans le domaine des infrastructures « Big Data » et de la sécurité informatique.
Basée à Montbonnot (38), Probayes a ouvert en 2017 une antenne à Paris.
Descriptif du poste
Contexte et objectifs
Nous vous proposons d’effectuer votre stage de fin d’étude de 4 à 6 mois au sein de l’équipe Probayes Paris où nous traitons de nombreux sujets tels que : la détection et classification d’anomalies, la maintenance prédictive, le Traitement Automatique des Langues ainsi que différents cas d’usage industriels mêlant problématiques de vision ou de calcul embarqué.
Face aux besoins croissants en traitement et exploitation de données, l’annotation manuelle reste une étape cruciale mais chronophage qui devient une contrainte en termes de temps et de coûts. Nous recherchons donc une solution qui pourrait accélérer et améliorer ce processus d’annotation.
Ce stage vise à développer un outil d’annotation de données avancé capable de gérer plusieurs formats de données (PDF, images, textes, etc.). L’outil s’appuiera sur des bases open-source, en y intégrant des fonctionnalités d’automatisation pour simplifier et réduire le temps d’annotation. Il permettra également d’explorer des pistes innovantes d’annotation semi-automatique via des modèles de langage (LLM), afin de limiter le besoin d’interventions humaines.
Missions du stage
Le/la stagiaire aura pour mission principale de développer cet outil d’annotation de données en suivant plusieurs phases. Voici les grandes lignes du projet :
1. État de l’art et choix technologiques
- Objectif : Étudier les outils open-source d’annotation existants pour évaluer leurs avantages, inconvénients et limites par rapport aux besoins identifiés.
- Tâches :
- Dans un premier temps, le/la stagiaire se familiarisera avec les outils open-source existants pour évaluer leur capacité à répondre aux exigences du projet et déterminer dans quelle mesure ils peuvent être adaptés aux besoins spécifiques de l’équipe. Cette étude comprendra une analyse approfondie de solutions comme Doccano, pour le texte, et CVAT, pour les images, avec une identification des points d’amélioration potentiels.
2. Développement d’une interface d’annotation manuelle
- Objectif : Développement d’une interface intuitive pour faciliter l’annotation des données.
- Tâches :
- Annotation de texte : Développer une interface simple permettant de classer du texte via des boutons de sélection (ex. « Classe 1 », « Classe 2 », « OK », « Not OK »).
- Annotation de texte dans une image : Permettre à l’utilisateur de positionner des boîtes de délimitation (bounding boxes) autour des zones d’intérêt et annoter le contenu de ces zones.
- Validation des annotations : Intégrer une interface de validation des annotations, avec des options de correction pour vérifier les champs annotés.
3. Exploration de l’annotation assistée par LLM
- Objectif : Analyser et intégrer les capacités des modèles de langage (LLM) pour l’annotation semi-automatique.
- Tâches :
- Réaliser une recherche d’état de l’art sur l’utilisation des modèles de langage et vision (LLM/VLM) pour des tâches d’annotation.
- Explorer l’intégration de modèles LLM pour assister l’annotation.
- Effectuer des tests sur des cas d’usage spécifiques (par exemple, lecture et annotation automatique de textes contenus dans des images, ou validation d’annotations faites par les LLM).
- Évaluation de la performance des modèles de langage sur des cas d’annotation, avec des statistiques sur la précision et les gains de temps observés.
Qualifications
Étudiant(e) en 3ème année d’école d’ingénieurs, en informatique, ou en Master spécialisé en intelligence artificielle / big data.
Compétences souhaitées
Compétences requises
- Savoir-faire socle en Informatique : linux, bash, git
- Maitrise de Python pour le machine learning (Pytorch/sk-learn)
- Expérience en développement Python (la connaissance de frameworks comme Flask ou similaire est un plus).
- Expérience avec les modèles de traitement de données textuelles et visuelles (par ex., BERT, GPT).
Compétences appréciées
Bon niveau d’anglais (capable de lire de la documentation logicielle et des articles de recherche en anglais)
Motivation, polyvalence, rigueur & autonomie
Travail en équipe
- Capacité à mener une étude d’état de l’art et à documenter ses choix et analyses techniques.
Qualités requises
Vous êtes autonomes, curieux(se) et rigoureux(se)
Vous aimez travailler en équipe
Qualité de communication écrite et orale
Expérience
- Une expérience de 3 ans minimum est demandée pour ce poste
Pourquoi nous rejoindre ?
- Vous souhaitez travailler dans un environnement stimulant, avec des experts en Data Science
- Vous souhaitez travailler sur des missions à forte valeur ajoutée et découvrir des environnements et secteurs d’activité différents
- Vous recherchez un poste vous permettant de mettre à profit vos compétences techniques et personnelles sur des missions variées
Valeur ajoutée pour le/la stagiaire :
- Acquérir une expérience pratique en intégration de modèles de langage dans des cas d’usage d’annotation semi-automatique, en explorant des technologies avancées d’IA
- Développer des compétences en développement d’applications web et API, avec un focus sur la gestion et l’intégration de processus de traitement de données.
- Approfondir la gestion de formats de données multiples (texte, image, PDF)
Informations complémentaires
- Formation : 3 ème année d’école d’ingénieur
- Poste : Stage de 4 à 6 mois
- Lieu : Paris
- Date de début de contrat : dès que possible
- Candidature : Lettre de motivation + CV
- Candidature à adresser à : camille.bignet@probayes.com
Conformément aux engagements pris par Probayes, en faveur de l’accueil et de l’intégration des personnes en situation de handicap, une priorité sera donnée, à compétences égales aux personnes en situation de handicap.
Les données vous concernant font l’objet d’un traitement informatique destiné à la gestion des candidatures soumises à Probayes. Ces données sont traitées de manière confidentielle. Seules les personnes habilitées de notre société pourront accéder à vos données à des fins strictement internes. Vos données sont conservées pour une durée maximale de 24 mois après la date de notre dernier contact. Conformément à la réglementation applicable en matière de protection des données personnelles, entrée en application le 25 mai 2018, vous disposez d’un droit d’accès, de rectification, d’opposition, de limitation du traitement, de portabilité et d’effacement. Ces droits peuvent être exercés aux adresses suivantes (veillez à préciser vos nom, prénom, adresse postale en justifiant votre identité) :
– rgpd@probayes.com
– Probayes – 53 Avenue Kuntzmann – 38330 Montbonnot
Dans le cadre de la politique de protection des données personnelles de La Poste, vous pouvez contacter Madame la Déléguée à la Protection des Données, CP C703, 9 rue du Colonel Pierre Avia 75015 PARIS. En cas de difficulté dans la gestion de vos données personnelles, vous pouvez introduire une réclamation auprès de la CNIL.
Copyright 2019 – Probayes – 53 avenue Jean Kuntzmann – 38330 Montbonnot – France – Tel: +33 (0)4 76 42 64 13
Mentions légales et conditions générales d’utilisations – Politique de protection des données du site internet de Probayes – Politique Cookies