Python pour la data science Initiation au Big Data avec PySpark – PY3

Durée de la formation

1 jour – 7 heures

Effectifs

5 à 15 personnes

Objectifs de la formation

  • Reconnaître les spécificités du traitement de données en environnement Big Data.
  • Comprendre les notions principales liées au traitement de données distribué sur un cluster de calcul Spark :
    • Driver, master, exécuteur
    • Partitionnement, shuffle
  • Appliquer les principaux types de manipulation de données avec la bibliothèque PySpark

Atouts - Bénéfices de la formation

  • Formation articulée autour de jeux de données réalistes
  • Un parcours complet pour pouvoir mener des analyses sur des données volumineuses

Un support de cours exploitable et personnalisé

Parcours de formation possible

  • Machine Learning – Tronc commun 1 – MLTC1
  • Machine Learning – Tronc commun 2 – MLTC2

Moyens pédagogiques

  • Alternances entre exposés théoriques et mises en pratique
  • Etude d’un jeu de données fil rouge
  • Utilisation des notebooks Jupyter pour rassembler explications et exercices pratiques dans un même document

 

 

  • Un ordinateur individuel avec une connexion internet
  • En distanciel :
    • Double écran (recommandé)
    • Micro

Dispositif de suivi et d'évaluation de la formation

  • Feuille de présence
  • Formulaire d’évaluation de la formation

 

Critères auto-évaluation :

  • Connaitre les bases de l’architecture d’un cluster Spark (driver, master, exécuteurs)
  • Comprendre les spécificités du traitement de données distribué (partitionnement des données, shuffle)
  • Savoir réaliser les principaux types de manipulation de données avec PySpark

 

Formateur

Jessica est Data Scientist à Probayes depuis 2017, dans le domaine du Machine Learning. En tant que Tech Lead, elle gère des projets dans des thématiques variées, comme la maintenance prédictive pour l’industrie, la prédiction de séries temporelles pour la logistique, la finance, ou encore l’ontologie dans la défense. Dans son travail, elle utilise quotidiennement Python et ses diverses librairies de machine learning. 

 

Ann’Sophie est docteur en physique atmosphérique. Depuis 2019, elle travaille en tant que Data Scientist et chef de projet à Probayes. Elle travaille sur des projets variés, principalement sur des sujets d’apprentissage automatique, comme la maintenance prédictive, la prédiction de séries temporelles, l’analyse sémantique de conversations. Elle utilise quotidiennement Python pour l’analyse de données, l’apprentissage automatique et la mise en production des solutions. 

 

Alexis est docteur en informatique spécialisé en vision par ordinateur et apprentissage automatique. Il travaille depuis 2013 chez Probayes en tant que Directeur Scientifique et chef de projet sur des sujets d’apprentissage automatique. Il utilise Python dans le cadre de son travail et de ses projets personnels depuis plus de 20 ans. 

 

David est Data Scientist et travaille à Probayes depuis 2004. En tant que Tech Lead, il gère de nombreux projets de R&D et d’industrialisation. Il utilise quotidiennement Python pour l’analyse de données, l’apprentissage automatique ainsi que la mise en production des solutions développées. 

 

Gaétan est ingénieur spécialisé en vision par ordinateur et Deep Learning. Depuis 2020, en tant que Data Scientist chez Probayes, il réalise des projets R&D innovants autour de sujets comme la voiture autonome ou la maintenance prédictive. Il utilise quotidiennement Python pour l’analyse de données, l’apprentissage automatique ainsi que la mise en production des solutions développées. 

Programme détaillé

 

  • Big Data & Spark clusters
  • Lecture et écriture de données (partitionnement)
  • Exécution paresseuse et récupération de données
  • Spark Dataframes et Manipulation de données de base
  • Structure d’une application Spark (Jobs, Stages, Tasks) + notion de shuffle
  • Spark UI
  • Group by et Jointure
  • Spark et SQL

Publics

Toute personne ayant déjà manipulé des données en Python notamment avec la bibliothèque Pandas et désirant transposer ces traitements avec PySpark.

Prérequis

  • Lecture de l’anglais technique
  • Utilisation de Python, des Notebooks Jupyter et de la bibliothèque Pandas ou avoir suivi la formation « Python pour data science : L’exploration de données en Python – PY2 »

Méthode d'évaluation

Non renseigné
Non renseigné
Non renseigné
Inter : 990€* / Intra : sur devis *Prix HT par stagiaire. Repas non compris

Prix par stagiaire. Repas du midi non inclus.

Non renseigné

Téléchargez le détail de la formation en PDF

Cette formation vous intéresse ?

Cette formation n’est actuellement pas ouverte aux inscriptions

Les données vous concernant font l’objet d’un traitement informatique destiné à la gestion des candidatures soumises à Probayes. Ces données sont traitées de manière confidentielle. Seules les personnes habilitées de notre société pourront accéder à vos données à des fins strictement internes. Vos données sont conservées pour une durée maximale de 24 mois après la date de notre dernier contact. Conformément à la réglementation applicable en matière de protection des données personnelles, entrée en application le 25 mai 2018, vous disposez d’un droit d’accès, de rectification, d’opposition, de limitation du traitement, de portabilité et d’effacement. Ces droits peuvent être exercés aux adresses suivantes (veillez à préciser vos nom, prénom, adresse postale et à joindre une copie recto-verso de votre pièce d’identité à votre demande) :

– rgpd@probayes.com– Probayes – 53 Avenue Kuntzmann – 38330 Montbonnot

Dans le cadre de la politique de protection des données personnelles de La Poste, vous pouvez contacter Madame la Déléguée à la Protection des Données, CP C703, 9 rue du Colonel Pierre Avia 75015 PARIS. En cas de difficulté dans la gestion de vos données personnelles, vous pouvez introduire une réclamation auprès de la CNIL.

Contactez-nous

Logo Probayes

N° SIRET : 45053883000073
Code NAF : 6202A
TVA : FR72 450 538 830
Déclaration d’activité enregistrée sous le numéro 84 38 06761 38 auprès du préfet de la région Auvergne-Rhône-Alpes. Cet enregistrement ne vaut pas agrément de l’Etat.

Ces formations peuvent également vous intéresser

Pas de prochaines sessions à venir
Cette formation est la troisième d’une série de formations autour de la data science et du langage Python. Alors que la précédente formation présentait la manipulation de données en Python, cette formation présente les principaux outils et concepts utilisés en apprentissage automatique. Elle s’articule autour de deux projets d’apprentissage automatique ou toutes les étapes habituelles sont abordées : • Analyse exploratoire des données • Préparation des données • Modélisation (apprentissage automatique) • DéploiementLes supports de formation sont rédigés en anglais, toutefois les sessions sont données en français.
Pas de prochaines sessions à venir
Cette formation est la première d’une série de formations autour de la data science et du langage Python. Cette première formation a pour but de présenter les bases du langage Python.Les supports de formation sont rédigés en anglais, toutefois les sessions sont données en français.Cette formation n’est pas une initiation à la programmation (nous supposons que les participants connaissent déjà les concepts de base de la programmation), ni une formation au développement en Python (nous n’aborderons pas les notions de tests unitaires, tests fonctionnels, intégrations continue, etc.).