Apache Atlas
Apache Atlas
Définition
Plateforme de gouvernance et gestion des métadonnées pour l'écosystème Hadoop. Atlas fournit un catalogue de données, le lineage (traçabilité des données), la classification et la découverte des assets de données.
Architecture interne
Atlas Server avec API REST et UI web. Kafka pour l'ingestion des événements de métadonnées. JanusGraph (graphe) pour stocker les entités et leurs relations. Solr pour l'indexation et la recherche de métadonnées.
Objectifs principaux
Cataloguer et découvrir les datasets du cluster
Tracer le lineage des données (origine → transformation → destination)
Classifier les données sensibles (PII, PCI, HIPAA)
Intégration avec Ranger pour la sécurité basée sur les tags
En résumé
Apache Atlas est un outil gouvernance de l'écosystème Hadoop, principalement utilisé pour cataloguer et découvrir les datasets du cluster...
4
Objectifs
1
dans la rubrique
Position dans l'écosystème
Couche de gouvernance au-dessus de tous les services. Atlas capture automatiquement les métadonnées Hive, HBase, Kafka. Les tags Atlas sont utilisés par Ranger pour appliquer des politiques de sécurité basées sur la classification.
Carte de l'écosystème :
Interactions clés
Au-dessus : les outils qui utilisent Apache Atlas comme fondation.
En dessous : les services sur lesquels Apache Atlas s'appuie.
Interactions : les composants qui communiquent directement avec Apache Atlas.
Exemple de code & commandes
# API Atlas - Rechercher et classer des assets
# Rechercher toutes les tables contenant 'customer'
curl http://atlas:21000/api/atlas/v2/search/quick?query=customer&typeName=hive_table
# Créer un tag de classification PII
curl -X POST http://atlas:21000/api/atlas/v2/types/typedefs \
-d '{"classificationDefs": [{"name": "PII",
"description": "Personally Identifiable Information",
"attributeDefs": [{"name": "pii_type"}]}]}'
# Associer le tag PII à une colonne Hive
curl -X POST http://atlas:21000/api/atlas/v2/entity/guid/{column_guid}/classifications \
-d '[{"typeName": "PII", "attributes": {"pii_type": "email"}}]'
# Voir le lineage d'une table
curl http://atlas:21000/api/atlas/v2/lineage/{table_guid}?depth=5
Pour aller plus loin
Consultez la documentation officielle Apache pour des exemples avancés et les options de configuration complètes de Apache Atlas.
Cas d'usage concret
Scénario réel d'entreprise
Un régulateur financier utilise Atlas pour tracer le lineage d'un KPI de risque depuis les données brutes (tables Oracle sources) jusqu'au rapport final (table Hive), en passant par toutes les transformations Spark, assurant la transparence réglementaire.