Les données structurées font référence à toute information segmentée et stockée de manière prédéfinie. Ce type de données existe dans différentes parties du système d’information d’une entreprise. Chaque élément de la donnée est étiqueté et stocké selon un modèle de données global. Cette phase est la première étape de la science des données, juste après la phase de collecte des données brutes.
Analyser des données massives est un gros défis. Surtout lorsqu’il s’agit de performances. En effet, analyser un gros volume de données et obtenir les résultats plusieurs heures après voire plusieurs jours risquerait d’impacter négativement l’entreprise.
Apache Hive est considéré comme l’entrepôt de données (DataWarehouse) de Apache Hadoop. C’est un framework extensible, open-source écrit en Java, initialement créé par Facebook.
Il permet d’effectuer facilement et rapidement des requêtes « SQL-like » pour extraire efficacement des données stockées sur HDFS (système fichiers distribués de Apache Hadoop). Contrairement à Hadoop, Hive permet d’effectuer des requêtes SQL sans avoir besoin d’écrire du code MapRreduce Java.
HiveQL (Hive Query Language) est le langage « SQL-like » de Hive. Ce langage est devenu la solution la plus populaire pour effectuer des requêtes et analyser les données stockées dans Hadoop. Il s’agit d’une solution économique et pouvant être mise à l’échelle facilement. Pour cette raison, de nombreuses entreprises comme Netflix et Amazon utilisent et contribuent à améliorer Apache Hive.