
Ingérer des données en continue et à haute vitesse n’est pas une mince affaire. Il y a plusieurs challenges à soulever. Il faut des architectures capable de supporter à la fois la vitesse, le volume et le format des données. Ceci sans oublié la tolérance aux pannes.
L’écosystème Hadoop comporte deux outils incontournables pour ingérer des données à haute vitesse. Il s’agit de Apache Kafka et Apache HBase.
Apache Kafka est une plateforme distribuée de diffusion de données en continu, capable de publier, stocker, traiter et souscrire à des flux d’enregistrement en temps réel. Elle est conçue pour gérer des flux de données provenant de plusieurs sources et les fournir à plusieurs utilisateurs. En bref, elle ne se contente pas de déplacer un volume colossal de données d’un point A à un point B : elle peut le faire depuis n’importe quels points vers n’importe quels autres points, selon vos besoins et même simultanément.
Apache HBase est une base de données non relationnelle (NoSQL) conçue pour les analyses Big Data. Elle permet de traiter très rapidement d’immenses volumes de données de différentes sources et de structures diverses.