Moderne Unternehmensdatenarchitektur
Daten sind ein wesentliches Gut, das jedes Unternehmen benötigt, um in der heutigen Wirtschaft effektiv zu konkurrieren. Der Wert von Datenbeständen kann jedoch nur dann realisiert werden, wenn sie strategisch, operativ, konsistent und genau im gesamten Unternehmen eingesetzt werden. Dies war historisch gesehen eine Herausforderung. Heutige Unternehmen setzen im Rahmen ihrer Cloud-Datenstrategie auf Data-as-a-Service (DaaS), um ein hohes Maß an SLA, Data Governance, Genauigkeit und hoher Verfügbarkeit zu gewährleisten, das von Kunden und Geschäftsstrategien gefordert wird. Um einen DaaS-Ansatz voll ausschöpfen zu können, benötigen sie eine moderne Datenarchitektur.
Was ist Datenarchitektur?
Data Architecture wurde von Data Architects entwickelt und standardisiert die Art und Weise, wie Unternehmen Daten sammeln, speichern, transformieren, verteilen und verwenden, um Datenanalysten und Mitarbeitern im Unternehmen zu helfen, bessere Entscheidungen auf der Grundlage von Business Intelligence in Echtzeit zu treffen. Datenarchitektur ist die Grundlage für Datenmodellierung und Informationsarchitektur, die beide Daten im gesamten Unternehmen nutzbar und nützlich machen.
Obwohl die Datenarchitektur nicht neu ist, hat sich die moderne Unternehmensdatenarchitektur (oder moderne Datenarchitektur) weiterentwickelt, da Unternehmen zunehmend in die Cloud wechseln. Nur die Cloud ermöglicht die Geschwindigkeit, Skalierbarkeit und Benutzerfreundlichkeit, die für eine effektive moderne Datenarchitektur erforderlich sind. Da Unternehmen auf Cloud-basierte Infrastrukturen umsteigen, wird auch ihre Datenarchitektur transformiert.
Was ist moderne Datenarchitektur?
Eine moderne Datenarchitektur konzentriert sich auf die Ausrichtung von Daten auf die Funktionen der Cloud. Die traditionelle Datenarchitektur wurde auf lokalen Datenmodellen aufgebaut, die eine Menge Zeit für die Datenverarbeitung und das Datenmanagement in Anspruch nahmen. Da die Infrastruktur von der Cloud abstrahiert wird, konzentriert sich die moderne Datenarchitektur darauf, Daten so einfach wie möglich zugänglich und für Unternehmen und Kunden so nützlich wie möglich zu machen. Es ermöglicht Leichtigkeit, Geschwindigkeit, Zusammenarbeit, Echtzeitanalyse und Konsistenz.
Eine moderne Datenarchitektur:
- Gebaut für Endbenutzer zu konsumieren. Die Cloud ermöglicht es Endbenutzern, zu bestimmen, welche Daten sie für Geschäftsentscheidungen benötigen, und Datenarchitekten, den Datenzugriff so zu gestalten, dass er das liefert, was sie benötigen.
- Automatisiert mit Datenpipelines und Datenflüssen. Niemand hat Zeit, auf langsame Datenverarbeitung zu warten. Mit der Cloud- und Datenintegration können Unternehmen den gesamten Datenverwaltungsprozess automatisieren, sodass Daten reibungslos und frei überall im Unternehmen hinfließen können, während die Datenverwaltung beibehalten wird. Datenintegration ist der Schlüssel, um sicherzustellen, dass jeder Teil des Ganzen miteinander verbunden ist.
- Kuratiert von AI/ML. Moderne Unternehmensdatenarchitektur nutzt die Leistungsfähigkeit von künstlicher Intelligenz (KI) und maschinellem Lernen (ML), um die Datenverarbeitung zu automatisieren, neue Datentypen zu erkennen, Daten zu bereinigen, Datenqualitätsprobleme zu beheben, Data Mining durchzuführen, die Einhaltung von Datenstandards sicherzustellen und Datenanalysen und -erkenntnisse zu ermöglichen. KI/ML ist der Schlüssel zur Geschwindigkeit und Genauigkeit der Automatisierung.
- Skalierbar für unvorhersehbare Anforderungen. Da Unternehmen mit Schwankungen der Verbraucheranforderungen umgehen müssen, müssen sie in der Lage sein, Daten automatisch und kostengünstig nach oben und unten zu skalieren.
- Gemeinsam nutzbar für vertrauenswürdige Zusammenarbeit. Gemeinsame Daten sind entscheidend, um sicherzustellen, dass alle mit derselben Datenquelle arbeiten. Gemeinsame Daten helfen auch dabei, Abteilungssilos aufzubrechen und eine einfachere, vertrauenswürdigere Zusammenarbeit zu fördern.
- Sicherheit durch Design. Für die meisten Unternehmen sind Daten ihr wertvollstes Kapital. Eine moderne Datenarchitektur berücksichtigt die Datensicherheit mit kontrolliertem Datenzugriff und -autorisierung sowie die Einhaltung von Datenschutzgesetzen und -vorschriften wie DSGVO und HIPAA.
Wenn Sie eine Datenarchitektur von Grund auf in der Cloud erstellen, ist es einfach, diese Eigenschaften zu integrieren. Aber die meisten Unternehmen sind spreizen Legacy-On-Premise-Infrastruktur mit Cloud, und oft Multi-Cloud. Ihre Daten befinden sich an mehreren Orten und sind in der Regel stark isoliert. Datenmigrationen in die Cloud und Datenintegrationen haben Priorität.
Zusätzlich zu den sechs Merkmalen einer modernen Datenarchitektur sollten Sie sicherstellen, dass Ihr Design Folgendes ermöglicht:
- Unterstützt die Umstellung auf Self-Service und mehrere Arten von Benutzern (Integratoren, Data Scientists, Branchenführer, Stakeholder)
- Ermöglicht ein hypervernetztes Unternehmen (stellen Sie sich Daten als Nerven vor, die jeden Körperteil verbinden und Informationen bei Bedarf nahtlos übertragen)
- Verlagert das Reporting auf prädiktive und präskriptive Analysen für Echtzeit-Einblicke, KI-gesteuerte Empfehlungen und Entscheidungsfindung im Moment
- Zukunftssicher für neue Datenquellen, Downstream-Anwendungen und Use Cases
3 phasen der modernen Daten enterprise Journey
Da sich Unternehmen digital transformieren und in Richtung Cloud verlagern, durchlaufen sie in der Regel eine schrittweise Reise, um eine moderne Datenarchitektur zu erreichen.
Dies kann in drei Hauptphasen unterteilt werden:
Stufe 1 — Lokal
Die meisten Unternehmen verfügen über lokale Systeme mit den Tools zum Speichern und Verarbeiten großer Datensätze und zum Durchführen komplexer Transformationen. Dieses Umfeld ist aus folgenden Gründen herausfordernd:
- Es erfordert eine große Kapitalinvestition im Voraus, um loszulegen, und eine große Investition in die Betriebskosten (OpEx) für das erforderliche Personal
- Es benötigt eine spezialisierte, dedizierte Kompetenz, um die Big Data-Tools zu verwalten
- Dies führt zu einer langsamen Reaktionszeit, einschließlich der Vorlaufzeit für Einkauf, Versand und Installation der Datenumgebung
Unternehmen arbeiten seit Jahren so viele Jahrzehnte, und haben in der Regel hohe Investitionen in On-Premise-Modelle. Es gibt nicht nur finanzielle Investitionen, sondern auch das Risiko, Daten zu verlieren oder benutzerdefinierte Integrationen zu trennen, kann für eine vollständige Cloud-Migration zu groß sein. Viele Unternehmen verfügen über Daten, von denen sie glauben, dass sie im Zuständigkeitsbereich ihrer eigenen Server bleiben müssen, und wählen daher einen Hybrid-Cloud-Ansatz.
Stufe 2 – Wolke: Virtual Private Cloud (VPC)
Bei der Einführung der Cloud ist die zweite Stufe der Reise “Lift and Shift”, bei der Unternehmen einfach lokale Cluster zu einem Cloud-Anbieter verschieben, der in einem Virtual Private Cloud-Netzwerk ausgeführt wird, und von IaaS-Vorteilen wie niedrigeren Kosten profitieren können. Forrester berichtet, dass Unternehmen, die in der Cloud bereitstellen, 20 bis 60 Prozent der Kosten für die lokale Infrastruktur einsparen, da die meisten ihre Server und Speicher überversorgen und diese Umgebungen dann verwalten müssen.
Diese Phase birgt jedoch noch einige große Herausforderungen, da sie:
- Reagiert nicht auf die Herausforderungen bei der Verwaltung und Wartung der Umgebung
- Hat hohe Betriebskosten
- Behebt nicht die Qualifikationslücke und die Fähigkeiten, die zum Verwalten der in der VPC ausgeführten Dienste erforderlich sind
- Hat eine langsame Reaktionszeit
- Unterstützt keine nativen Cloud-Speicherdienste
Die Verwaltung lokaler und privater Clouds ist komplex, was Unternehmen häufig dazu veranlasst, nach einer besseren Möglichkeit zur Verwaltung der Cloud-Umgebung zu suchen. Dies führt zu einem Wechsel zu verwalteten Cloud-Diensten.
Stufe 3 – Wolke: Big Data as a Service
Zu diesem Zeitpunkt haben Unternehmen die Herausforderungen erkannt und gehen sie an, indem sie auf Cloud-verwaltete Dienste wie IBM, Microsoft und Google umsteigen. Diese Managed Services befreien das Unternehmen von der Komplexität der Verwaltung und Wartung der skalierbaren Verarbeitungsumgebungen und senken wertvolle Betriebskosten.
Weitere Vorteile:
- On-Demand-Funktionen, die Speicher- und Rechenressourcen nur bei Bedarf nutzen und so die Betriebskosten senken
- Eine viel einfachere Möglichkeit, auf Terabyte- / Petabyte-Volumes zu skalieren
- Schnellere Reaktionszeiten für Geschäftsanforderungen
Darüber hinaus sind Cloud-verwaltete Big-Data-Plattformen mit Cloud-Speicherdiensten ausgestattet. Sie verfügen über eine native Integration mit dem Cloud-Speicher, sodass Sie den Cloud-Speicher als verteilte Speicherkomponente verwenden können, die für den Data Lake-Speicher geeignet ist.
Lassen Sie uns ein wenig über die Datenspeicherung sprechen.
Moderne Datenarchitektur braucht Data Lakes
Ein Data Warehouse speichert strukturierte Daten (d.h. aus Transaktionssystemen). Es ist für die Analyse relationaler Daten optimiert, nicht für semi- / unstrukturierte Daten. Vor dem Schreiben von der Datenquelle in das Data Warehouse muss daher die Struktur definiert und die Daten bereinigt und transformiert werden. Dies nimmt Zeit in Anspruch und macht es schwieriger, nutzbare Daten mit der Geschwindigkeit zu erhalten, die ein Unternehmen benötigt. Da so viele neue Daten verfügbar sind, sind die Kosten für Data Warehousing tatsächlich sehr unerschwinglich.
Data Lakes unterstützen eine moderne Datenarchitektur.
Im Gegensatz zu einem Data Warehouse ist ein Data Lake eine Sammlung aller Datentypen: strukturiert, halbstrukturiert und unstrukturiert. Die Daten werden im Rohformat gespeichert, ohne dass eine Struktur oder ein Schema erforderlich ist. Tatsächlich müssen Sie die Datenstruktur nicht definieren, wenn sie erfasst wird, sondern nur, wenn sie gelesen wird. Da Data Lakes hoch skalierbar sind, unterstützen sie größere Datenmengen zu einem günstigeren Preis. Mit einem Data Lake können Sie Daten aus relationalen Quellen (z. B. relationalen Datenbanken) und aus nicht relationalen Quellen (IoT-Geräte / -Maschinen, soziale Medien usw.) speichern.) ohne ETL (extract, transform, load), wodurch Daten viel schneller zur Analyse zur Verfügung stehen.
4 Merkmale einer modernen Unternehmensdatenarchitektur
Es gibt vier Hauptmerkmale einer modernen Unternehmensdatenarchitektur: 1) der Datenzyklus, 2) Datenspeicherung, 3) eine Integrationsplattform und 4) Datenlieferung.
Datenzyklus
Unternehmen stoßen ständig auf neue Datenquellen und müssen Daten erfassen, bevor sie den eventuellen Anwendungsfall kennen. Erfasste Daten werden extrahiert, um bekannte Anwendungsfälle zu füllen, und für zukünftige undefinierte Anwendungsfälle gespeichert. Dann müssen die eingehenden Daten an Unternehmensstandards angepasst werden, um Governance, Qualität, Konsistenz, Einhaltung gesetzlicher Vorschriften und Genauigkeit für nachgelagerte Verbraucher sicherzustellen, unabhängig von deren Geschäftsanforderungen, Fähigkeiten oder Verständnis der Datenarchitektur. Sobald die Daten erfasst und den Unternehmensstandards angepasst wurden, bereiten die Refinement Services die Daten für die spätere nachgelagerte Anwendung und / oder Anwendungsfälle vor.
Datenspeicherung
Daten werden im Data Lake gespeichert. Stellen Sie sich den Data Lake als moderne Datenfabrik vor, und innerhalb des Sees befinden sich “Container” für verschiedene Phasen der Datenverarbeitung. Der erste Container ist der Landecontainer, in dem eingehende Rohdaten unabhängig von Form, Transport oder Quelle empfangen werden. Dies ist, wo unreine Daten gehen. Entscheidungen darüber, welche Rohdaten aufbewahrt werden sollen, werden hier getroffen. Gespeicherte Daten werden in den angepassten Container verschoben.
Im konformen Container werden Rohdaten bereinigt und die Datenqualität sichergestellt. Der conform Container stellt sicher, dass das Unternehmen mit einem konsistenten Datensatz arbeitet, der den Standards entspricht.
Als nächstes haben wir den raffinierten Container, der Daten für sein eventuelles Lieferziel vorbereitet, und abhängig von den Anwendungsfällen kann es Teilmengen von Raffinerien geben. Sobald die Daten verfeinert sind, werden sie für die Lieferung an ihren Bestimmungsort bereitgestellt. Nach der Auslieferung kann es in einen Arbeitsbereich für Data Scientists verschoben, zur Langzeitspeicherung archiviert oder gelöscht werden.
Datenintegrationsplattform
Die Integrationsplattform nimmt Daten aus verschiedenen Quellen und kombiniert sie zu einer einheitlichen Ansicht. In einer modernen Datenarchitektur muss die Integrationsplattform flexibel genug sein, um alle erforderlichen Datenquellen und -ziele sowie die Datendienste in jeder Phase des Datenzyklus zu unterstützen. Es muss in der Lage sein, Daten mit und ohne Schema zu unterstützen und Metadaten zu verwalten. Darüber hinaus muss es in der Lage sein, die Integration und Verarbeitung zu bewältigen, die für:
- Datenerfassung mit hoher Geschwindigkeit, Vielfalt und Volumen
- Anwendungsintegration mit geringer Latenz
- Verarbeitung von Daten mit hohem Volumen
- Datenintegration von der Lieferung bis zum Ziel
- API-Verbrauch (unerlässlich für B2B-Ökosysteme)
Darüber hinaus müssen die oben genannten Szenarien einer breiten Benutzergemeinschaft zugänglich gemacht werden, die von hochqualifizierten IT-Fachleuten bis hin zu Geschäftsanwendern reicht, die ein Branchenprojekt als Reaktion auf ein sich schnell änderndes Geschäftsumfeld beschleunigen müssen. Im modernen Unternehmen sind Analysten und Datenwissenschaftler gefordert, strategische Fragen zu beantworten und Innovationen in einem beispiellosen Tempo freizusetzen, und haben einfach nicht den Luxus, von einer IT-Organisation abhängig zu sein, um die kritisch notwendigen Informationen zur Verfügung zu stellen. Self-Service ist kein Luxus oder Komfort mehr, sondern eine geschäftskritische Anforderung. Die Fähigkeit, schnell Datenpipelines aufzubauen, ist unerlässlich, um das Geschäft in der Geschwindigkeit zu halten, die es im digitalen Zeitalter benötigt.
Datenlieferung
Schließlich müssen Daten an die entsprechenden Ziele geliefert werden. Sicherer Datenzugriff ist ein integraler Bestandteil einer modernen Datenarchitektur. Governance, Sicherheit, rollenbasierte Zugriffskontrolle (Role-Based Access Control, RBAC), SLA, Drosselung und Nutzungsanalysen sind entscheidend für die Bereitstellung von Daten an die beabsichtigten Benutzer, unabhängig davon, ob es sich um interne Mitarbeiter oder externe Partner handelt.
Unternehmen, die einen Data-as-a-Service-Delivery-Ansatz verfolgen, stellen ein Höchstmaß an Verfügbarkeit, Zugänglichkeit und Kundenerfahrung sicher, ohne die Kosten ständiger IT-Brandübungen oder Kompromisse bei der Sicherheit oder dem internen geistigen Eigentum eingehen zu müssen. Die Daten werden an ihre endgültigen Bestimmungsorte geliefert, zu denen Data Marts, Anwendungen, Dateien, Data Ponds, Data Science Workbenches, KI-fähige Lösungen und API-Ökosysteme gehören.
Aufbau einer robusten modernen Datenarchitektur
Eine robuste moderne Unternehmensdatenarchitektur stellt sicher, dass Unternehmen über die Zugänglichkeit, Geschwindigkeit, Flexibilität und Zuverlässigkeit verfügen, um jede Datenquelle zu optimieren und bessere Geschäftsentscheidungen zu treffen. SnapLogic bietet Datenintegration über seine intelligente Integrationsplattform als Service und hilft Unternehmen beim Aufbau moderner Datenarchitekturen, um ihre Datenanforderungen zukunftssicher zu erfüllen.
Leave a Reply