Natural Language Processing et IA Générative – TAL1

Durée de la formation

3 jours – 21 heures

Effectifs

6 à 15 personnes

Objectifs de la formation

• Connaître les outils basiques de manipulation de données textuelles en Python (dont gestion de l’encodage et regex)
• Connaître les principales méthodes de prétraitement du texte (dont tokenisation, lemmatisation, racinisation)
• Connaître les principales méthodes d’analyse de données textuelles
• Comprendre les méthodes de représentations vectorielles de type Bag-of-Word (TF-IDF)
• Comprendre le principe des représentations vectorielles “context-free” (word embedding avec word2vec)
• Comprendre le mécanisme d’attention
• Comprendre les caractéristiques principales de l’architecture Transformer et de ses variantes (GPT, BERT)
• IA Générative, comprendre ce qu’est un LLM
• Application sur un jeu de données : développement d’un système RAG (“Retrieval-Augmented Generation”)

Atouts - Bénéfices de la formation

Non renseigné

Parcours de formation possible

Traitement Automatique des Langues pour les Chatbots – TAL2

Moyens pédagogiques

Alternance entre exposés théoriques et mises en pratique

Études de plusieurs cas pratiques « Fil rouge »

Utilisation des cahiers (notebooks) Jupyter pour rassembler explications et exercices pratiques dans un même document

Dispositif de suivi et d'évaluation de la formation

Feuille de présence

Mise en situation

Formulaire d’évaluation de la formation

Formateur

Marie-Caroline est docteur en informatique spécialisé en vision par ordinateur et apprentissage automatique. Il travaille depuis 2013 chez Probayes en tant qu’ingénieur recherche et développement et chef de projet sur des sujets d’apprentissage automatique. Il utilise Python dans le cadre de son travail et de ses projets personnels depuis plus de 15 ans.

Programme détaillé

  • Généralités :
    • Extraction de texte (dont OCR)
    • Encodage de caractères (Unicode, UTF-8, normalisation)
    • Méthodes de la classe string
    • Regex
  • Prétraitement de texte :
    • Tokenisation (dont WordPiece)
    • Lemmatisation et racinisation (stemming)
  • Représentation vectorielle pré-Deep Learning
    • Bag-of-Word
    • TF-IDF
    • Métriques de similarités
  • Représentations vectorielles neuronales context-free
    • Rappels sur les réseaux de neurones
    • Word2vec
    • Application à la classification
  • Introduction de contexte dans les représentations vectorielles neuronales
    • RNN
    • Mécanisme d’attention
  • Architecture Transformer
    • Description
    • Les Transformers avec HuggingFace
  • GPT et BERT :
    • Spécificités de GPT et BERT
    • Méthodes d’apprentissage (transfert learning)
    • Modèle encoder-only vs. decoder-only
  • Application : développement d’un système RAG (“Retrieval-Augmented Generation”)
    • Retriever avec BM25 puis BERT
    • Génération de réponse avec un LLM

Publics

Toute personne ayant un profil technique et souhaitant s’initier à la manipulation et à l’exploration de données textuelles en Python

Prérequis

Niveau intermédiaire Python / Formation « Machine Learning Tronc commun 1 – MLTC1 » validée

Notions en apprentissage automatique (apprentissage / test)

Notions mathématiques de base : statistiques, algèbre linéaire (notion de vecteur, produit scalaire, multiplication matrice-vecteur)

Méthode d'évaluation

Exercices d’auto-évaluation
Exercices d’auto-évaluation
Non renseigné
Inter : 2 990€HT* / Intra : sur devis *Prix HT par stagiaire. Repas non compris

Prix par stagiaire. Repas du midi non inclus.

Non renseigné

Téléchargez le détail de la formation en PDF

Cette formation vous intéresse ?

Cette formation n’est actuellement pas ouverte aux inscriptions

Les données vous concernant font l’objet d’un traitement informatique destiné à la gestion des candidatures soumises à Probayes. Ces données sont traitées de manière confidentielle. Seules les personnes habilitées de notre société pourront accéder à vos données à des fins strictement internes. Vos données sont conservées pour une durée maximale de 24 mois après la date de notre dernier contact. Conformément à la réglementation applicable en matière de protection des données personnelles, entrée en application le 25 mai 2018, vous disposez d’un droit d’accès, de rectification, d’opposition, de limitation du traitement, de portabilité et d’effacement. Ces droits peuvent être exercés aux adresses suivantes (veillez à préciser vos nom, prénom, adresse postale et à joindre une copie recto-verso de votre pièce d’identité à votre demande) :

– rgpd@probayes.com– Probayes – 53 Avenue Kuntzmann – 38330 Montbonnot

Dans le cadre de la politique de protection des données personnelles de La Poste, vous pouvez contacter Madame la Déléguée à la Protection des Données, CP C703, 9 rue du Colonel Pierre Avia 75015 PARIS. En cas de difficulté dans la gestion de vos données personnelles, vous pouvez introduire une réclamation auprès de la CNIL.

Contactez-nous

Logo Probayes

N° SIRET : 45053883000073
Code NAF : 6202A
TVA : FR72 450 538 830
Déclaration d’activité enregistrée sous le numéro 84 38 06761 38 auprès du préfet de la région Auvergne-Rhône-Alpes. Cet enregistrement ne vaut pas agrément de l’Etat.

Ces formations peuvent également vous intéresser

Pas de prochaines sessions à venir
Cette formation est la troisième d’une série de formations autour de la data science et du langage Python. Alors que la précédente formation présentait la manipulation de données en Python, cette formation présente les principaux outils et concepts utilisés en apprentissage automatique. Elle s’articule autour de deux projets d’apprentissage automatique ou toutes les étapes habituelles sont abordées : • Analyse exploratoire des données • Préparation des données • Modélisation (apprentissage automatique) • DéploiementLes supports de formation sont rédigés en anglais, toutefois les sessions sont données en français.
Pas de prochaines sessions à venir
Cette formation est la première d’une série de formations autour de la data science et du langage Python. Cette première formation a pour but de présenter les bases du langage Python.Les supports de formation sont rédigés en anglais, toutefois les sessions sont données en français.Cette formation n’est pas une initiation à la programmation (nous supposons que les participants connaissent déjà les concepts de base de la programmation), ni une formation au développement en Python (nous n’aborderons pas les notions de tests unitaires, tests fonctionnels, intégrations continue, etc.).