Pas de prochaines sessions à venir
Spark est un des principaux frameworks d’analyse de données Big Data. Il est massivement déployé sur les infrastructures de type Data Lake, soit directement, soit au travers d’autres outils tels que Dataiku DSS.
PySpark est une bibliothèque permettant d’utiliser ce framework en Python.Cette formation est un prolongement de la formation « PY2 – Exploration de données en Python ». Elle aborde principalement la manipulation de données dans un contexte Big Data, et plus spécifiquement le traitement de données distribuées sur un cluster de calcul avec la bibliothèque PySpark. Elle s’adresse donc à des personnes ayant suivi la formation PY2 ou ayant déjà une bonne compréhension des bases de la manipulation de données en Python avec Pandas.Les supports de formation sont rédigés en anglais, toutefois les sessions sont données en français.