
Les données non structurées rendent le travail des scientifiques des données beaucoup plus difficile. Outre les difficultés de stockage et d’analyse, elles peuvent avoir un impact négatif sur le flux de travail et les performances si elles étaient mal gérées. De nos jours les données sont le pouvoir.
Pour simplifier la lecture et l’analyse des données non structurées, Apache Pig voit tout son utilité. Il s’agit d’une plateforme haut niveau pour la création de programme MapReduce utilisé avec Hadoop.
Pig s’appuie sur son propre langage script le Pig Latin. Ainsi les différentes étapes de transformations sont exprimées dans le langage procédural Pig Latin.
Pig Latin s’abstrait du langage de programmation Java MapReduce et se place à un niveau d’abstraction supérieur, similaire à celui du langage SQL pour les systèmes de bases de données relationnelles.
Pig se rapproche plus d’un ETL et représente un outil de traitement de données de l’écosystème Hadoop.
Pig Latin peut être étendue en utilisant des ‘fonctions définies par l’utilisateur’ (ou UDF pour User Defined Functions) que l’utilisateur peut écrire en Java, en Python, en JavaScript, en Ruby ou en Groovy pour être ensuite utilisé directement au sein du langage.