Analyser des Données Massives Structurées et Non-Structurées

Cette formation couvre l’analyse des données massives, Structurées et Non-Structurées (deux aspects principaux du type d’une donnée à l’aide des outils d’analyse des framework Hadoop et Spark, tels que Hive, Pig, Impala et Spark SQL

Nous explorons en détail les caractéristiques des données Structurées et celles des données Non-Strtucturées avec des exercices pratiques afin de vous permettre de bien comprendre et de maîtriser les concepts et les technologies.

Au terme de cette formation vous serez en mesure de :

Expliquer le fonctionnement de Pig, Hive et de Impala
Lire des données Structurées (stockées sur HDFS ou en local) à l’aide de Hive, Impala et Spark SQL
Lire des données Non-Structurées (stockées sur HDFS ou en local) à l’aide de Pig
Créer des partitions statiques et dynamiques des données massives
Optimiser l’organisation des données massives dans Hive avec le Bucketing
Ecrire et lancer du code Spark SQL pour lire et analyser les données
Comprendre les différents formats de fichiers de données (Avro, Parquet et ORC)
Choisir le meilleur format de fichiers pour optimiser le stockage te l’analyse de vos données

Parcours