
Il est souvent nécessaire de se connecter à un système de données pour en extraire une partie ou la totalité des données dans le but de les manipuler et de les transformer. Pour simplifier cette tâche, Apache Sqoop (ou SQL-to-Hadoop) est un outil open-source écrit en Java qui permet de transférer les données d’une base de données relationnelle tels que MySQL, Oracle, ou SQL Server vers HDFS, l’espace de stockage distribué de Hadoop, et vice-versa.
Sqoop est intégré à l’écosystème Hadoop et fait partie des outils d’ingestion des données de Hadoop. Il est généralement utilisé pour importer des données des systèmes de gestion de bases de données relationnelles (SGBDR) dans Hadoop pour être transformées via MapReduce ou un autre modèle de calcul, puis les exporter en retour vers le SGBDR.
Avec Sqoop nous pouvons automatiser ce processus d’Import/Export et de planifier le moment d’exécution. Pour effectuer le transfert des données, Sqoop, utilise MapReduce et génère le code Java correspondant à la volée.