Apache Atlas bietet leistungsfähige Funktionalitäten für das Management von Metadaten, unterstützt damit maßgeblich die Aufgaben der Data Governance und wird als Open Source Projekt der Apache Software Foundation unter der Apache Lizenz 2.0 stetig weiterentwickelt. Mit seiner Skalierbarkeit und Erweiterbarkeit lässt sich ein umfassender Datenkatalog aufbauen, der Informationen zu unterschiedlichen Architekturkomponenten in anschaulicher Weise vorhält.
Durch die vielfältigen Funktionen zur Klassifikation und Beschreibung der Datenbestände und in Verbindung mit einfachen, aber auch beliebig komplexen Suchmechanismen begünstigt Atlas einerseits die Zusammenarbeit und hilft andererseits Data Scientists, Analysten und sonstigen Fachanwendern, relevante Datenbestände schnell zu finden. Als typische Vertreter von Klassifikationen lassen sich etwa Datenschutzrelevanz, Sensitivität oder Datenqualität anführen, deren Ausprägungen auch kombiniert den Datenobjekten zugeordnet werden können.
Neben zahlreichen vordefinierten Metadatentypen für datenintensive Plattformen offeriert Atlas auch die Option, neue Typen für zu verwaltende Metadaten mit einfachen oder komplexen Attributen zu definieren. Dadurch kann eine integrierte Metadatenverwaltung über verschiedenste Quellsysteme hinweg erfolgen. Die Anlage neuer Typen oder Instanzen (typisiertes Datenobjekt) erfolgt über die vorhandene REST-API.
Durch eine intuitiv bedienbare Benutzeroberfläche bietet Atlas auch eine grafische Darstellung des Verlaufs der Verarbeitung der Daten, was sich zur Anzeige der Data Lineage (Herkunftsnachweis) und Impact Analysis (Verwendungsnachweis) eignet.
Ein fein abgestuftes Sicherheitskonzept für den Zugriff auf Metadaten überwacht den Zugriff auf Entitätsinstanzen sowie das Hinzufügen, Aktualisieren und Entfernen von Klassifizierungen. Durch die Option zur Kombination von Atlas mit Apache Ranger lässt sich die Kontrolle des Zugriffs auf Metadaten erweitern sowie eine Datenmaskierung auf Grundlage von Klassifizierungen ermöglichen. Beispielsweise kann so eine Überwachung der Verwendung datenschutzrelevanter oder sensitiver Datenbestände erfolgen.
Wie funktioniert die Datenübergabe aus metaBI?
metaBI übergibt die aus diversen Quellsystemen und -technologien (z. B. von Microsoft, Oracle, IBM, SAP oder Teradata) extrahierten Metadaten einmalig, im Bedarfsfall oder periodisch (z. B. im Nachtbetrieb) an Apache Atlas und nutzt dabei die angebotene REST-API. Im Falle neuer Metadateninstanzen oder -typen werden diese automatisch angelegt, ohne die bereits angelegten Klassifizierungen oder Metadatentypen zu verändern (Merge-Mechanismus). Metadateninstanzen können sich ändern, beispielsweise dann, wenn eine Tabelle um zusätzliche Felder erweitert wurde.
Welche Vorteile bietet die Kombination von Atlas und metaBI?
Der Merge-Mechanismus gewährleistet eine hohe Aktualität des Datenkatalogs. Zudem erfolgt die Übergabe aller technischen Metadaten automatisiert, so dass manuelle Tätigkeiten entfallen und eine fehlerfreie Übergabe garantiert ist. Die Funktionalitäten von metaBI zur Aufbereitung der Metadaten vor der Übergabe führen dazu, dass lediglich die benötigten Daten qualitätsgesichert im Katalog erscheinen.
Weiterhin führt das Parsen von metaBI auch komplexer Views, Prozeduren und Skripte (T-SQL, BTEQ, PL-SQL) zu einer ganzheitlichen Data Lineage auch über Systemgrenzen hinweg. So lassen sich die Datenflüsse und Abhängigkeiten sogar in heterogenen Systemumgebungen mit den Werkzeugen unterschiedlicher Hersteller umfassend visualisieren.
Bei Bedarf können auch unterschiedliche Datenkataloge ohne zusätzlichen Aufwand angelegt und aktualisiert werden, z. B. für verschiedene Geschäftsbereiche oder Anwendergruppen.