Cet atelier de travaux pratiques regroupe quatre projets complets. Ils visent à vous donner l’occasion de réaliser des cas d’usage de bout en bout; depuis l’acquisition des données jusqu’à l’affichage des résultats. Ces projets vous permettrons de monter d’avantage en compétence en maîtrisant et manipulant de façon approfondie les outils couverts dans le cours.
Les données sont des données réelles, libres et disponibles sur internet. Le fait de travailler avec des données réelles permet de simuler des projets dans un environnement d’entreprise.
Dans cet atelier vous apprendrez à vaincre plusieurs défis tels que la collecte de données à haute vitesse, la manipulation de données complexes, le filtrage, le nettoyage et le routage des données. Tout comme l’interaction avec des outils externes et la création de graphes.
Plusieurs technologies sont mises en avant telles que: HDFS, Hive, Impala, Nifi, Flume, Parquet, Kafka, SparkSQL et Zeppelin.