Termes Big Data & Hadoop
A
Atomicité, Cohérence, Isolation, Durabilité — propriétés garantissant la fiabilité des transactions de bases de données.
Regroupement et calcul (COUNT, SUM, AVG) sur plusieurs lignes pour produire une valeur synthétique.
B
Volume (grande quantité), Vélocité (vitesse d'arrivée), Variété (types de données). Parfois étendu à 5V avec Véracité et Valeur.
Unité de base de stockage HDFS (128 Mo par défaut). Un fichier est découpé en blocs répartis sur les DataNodes.
Technique Hive pour diviser les données d'une table en fichiers distincts basés sur le hash d'une colonne, optimisant les jointures.
C
Ensemble de machines (nœuds) travaillant ensemble pour former un système distribué.
Stockage des données colonne par colonne (vs ligne par ligne). Optimal pour les analyses (lecture de quelques colonnes sur millions de lignes). Ex: Parquet, ORC, HBase.
Groupe de consommateurs Kafka qui se répartissent la lecture des partitions d'un topic pour un traitement parallèle.
D
Graphe orienté sans cycle utilisé pour représenter des pipelines de traitement. Utilisé par Spark, Tez, Airflow.
Nœud HDFS qui stocke physiquement les blocs de données. Un cluster peut avoir des centaines de DataNodes.
Structure de données Spark (similaire à une table SQL) avec un schéma typé. API de haut niveau pour la manipulation de données.
E
Extract, Transform, Load — processus d'extraction de données depuis des sources, de transformation et de chargement vers une destination (datawarehouse).
Processus JVM sur un nœud du cluster qui exécute les tâches Spark et stocke les données en mémoire ou sur disque.
F
Capacité d'un système à continuer de fonctionner malgré les pannes de composants. Assuré par la réplication dans HDFS et le lineage dans Spark.
Format de stockage en colonnes, compressé et efficace, utilisé par Hive, Spark, Impala. Optimisé pour les analyses.
Optimized Row Columnar — format colonaire d'Apache Hive, avec indexation interne et compression efficace.
H
Haute disponibilité. HDFS HA utilise 2 NameNodes (actif/standby) coordonnés par ZooKeeper pour éviter le SPOF.
Dialect SQL d'Apache Hive, similaire au SQL standard avec des extensions pour les partitions, buckets et UDFs Hadoop.
L
Graphe de dépendances des transformations RDD. Permet de recalculer les partitions perdues sans relire depuis le disque.
Structure de données append-only persistante qui stocke les messages Kafka dans l'ordre d'arrivée par partition.
M
Base de données relationnelle (MySQL/PostgreSQL) qui stocke les métadonnées Hive : schéma des tables, partitions, localisation HDFS.
Architecture d'Impala où chaque nœud traite une portion des données en parallèle, sans coordination centralisée.
N
Nœud maître HDFS qui gère les métadonnées (quel fichier = quels blocs = quels DataNodes). Point névralgique du cluster.
Famille de bases de données non-relationnelles (clé-valeur, document, colonnes, graphe) optimisées pour la scalabilité horizontale.
P
Division physique d'une table Hive en sous-répertoires HDFS selon les valeurs d'une colonne (ex: year=2024/month=01). Accélère les requêtes par élimination des partitions non lues.
Division d'un topic Kafka permettant le parallélisme. Chaque partition est un log ordonné sur un broker.
1 000 Téraoctets = 1 000 000 Gigaoctets. Unité de mesure caractéristique des clusters Hadoop industriels.
R
Abstraction fondamentale de Spark : collection distribuée, immutable et tolérante aux pannes d'éléments répartis sur le cluster.
Role-Based Access Control — contrôle d'accès basé sur les rôles. Utilisé par Ranger pour gérer les permissions Hadoop.
HDFS copie chaque bloc sur 3 DataNodes par défaut (configurable). La perte d'un nœud n'entraîne pas de perte de données.
S
Phase de redistribution des données entre les nœuds après le Map pour regrouper les clés identiques avant le Reduce. Coûteuse en réseau.
Composant dont la panne arrête tout le système. Le NameNode est le SPOF d'HDFS — d'où l'architecture HA.
Traitement des données en flux continu, en temps quasi-réel. Kafka + Spark Streaming est la combinaison la plus courante.
T
Voir Fault Tolerance. Propriété essentielle des systèmes distribués comme Hadoop.
Catégorie logique dans Kafka. Les producteurs écrivent dans des topics, les consommateurs lisent depuis des topics.
Y
Unité d'allocation de ressources YARN (CPU + RAM). Chaque tâche MapReduce ou Spark s'exécute dans un conteneur.
Z
Nœud dans l'arbre de données ZooKeeper. Peut stocker de petites données de configuration ou servir de verrou distribué.