Apache Atlas

Apache Atlas

Gouvernance Sécurité & Gouvernance
Définition

Plateforme de gouvernance et gestion des métadonnées pour l'écosystème Hadoop. Atlas fournit un catalogue de données, le lineage (traçabilité des données), la classification et la découverte des assets de données.

Architecture interne

Atlas Server avec API REST et UI web. Kafka pour l'ingestion des événements de métadonnées. JanusGraph (graphe) pour stocker les entités et leurs relations. Solr pour l'indexation et la recherche de métadonnées.

Type Gouvernance
Catégorie : Sécurité & Gouvernance
Objectifs principaux
1

Cataloguer et découvrir les datasets du cluster

2

Tracer le lineage des données (origine → transformation → destination)

3

Classifier les données sensibles (PII, PCI, HIPAA)

4

Intégration avec Ranger pour la sécurité basée sur les tags

En résumé

Apache Atlas est un outil gouvernance de l'écosystème Hadoop, principalement utilisé pour cataloguer et découvrir les datasets du cluster...

4

Objectifs

3

dans la rubrique

Position dans l'écosystème

Couche de gouvernance au-dessus de tous les services. Atlas capture automatiquement les métadonnées Hive, HBase, Kafka. Les tags Atlas sont utilisés par Ranger pour appliquer des politiques de sécurité basées sur la classification.

Carte de l'écosystème :
Interactions clés

Au-dessus : les outils qui utilisent Apache Atlas comme fondation.

En dessous : les services sur lesquels Apache Atlas s'appuie.

Interactions : les composants qui communiquent directement avec Apache Atlas.


Couche de gouvernance au-dessus de tous les services. Atlas capture automatiquement les métadonnées Hive, HBase, Kafka. Les tags Atlas sont utilisés par Ranger pour appliquer des politiques de sécurité basées sur la classification.
Exemple de code & commandes
Apache Atlas - Exemples pratiques
# API Atlas - Rechercher et classer des assets

# Rechercher toutes les tables contenant 'customer'
curl http://atlas:21000/api/atlas/v2/search/quick?query=customer&typeName=hive_table

# Créer un tag de classification PII
curl -X POST http://atlas:21000/api/atlas/v2/types/typedefs \
  -d '{"classificationDefs": [{"name": "PII",
       "description": "Personally Identifiable Information",
       "attributeDefs": [{"name": "pii_type"}]}]}'

# Associer le tag PII à une colonne Hive
curl -X POST http://atlas:21000/api/atlas/v2/entity/guid/{column_guid}/classifications \
  -d '[{"typeName": "PII", "attributes": {"pii_type": "email"}}]'

# Voir le lineage d'une table
curl http://atlas:21000/api/atlas/v2/lineage/{table_guid}?depth=5
Pour aller plus loin

Consultez la documentation officielle Apache pour des exemples avancés et les options de configuration complètes de Apache Atlas.

Cas d'usage concret
Scénario réel d'entreprise

Un régulateur financier utilise Atlas pour tracer le lineage d'un KPI de risque depuis les données brutes (tables Oracle sources) jusqu'au rapport final (table Hive), en passant par toutes les transformations Spark, assurant la transparence réglementaire.

Entreprises utilisatrices
Hortonworks
Cloudera
JPMorgan
Autres composants de Sécurité & Gouvernance