Modern Enterprise Data Architecture
I dati sono una risorsa essenziale richiesta da ogni impresa per competere efficacemente nell’economia di oggi. Tuttavia, il valore delle risorse di dati può essere realizzato solo quando vengono utilizzate in modo strategico, operativo, coerente e accurato in tutta l’azienda. Farlo è stato storicamente impegnativo. Le aziende di oggi si stanno rivolgendo a data-as-a-service (DaaS) come parte della loro strategia di dati cloud per garantire elevati livelli di SLA, governance dei dati, accuratezza e alta disponibilità richieste dai clienti e dalla strategia aziendale. Per sfruttare appieno un approccio DaaS, è necessario disporre di un’architettura dati moderna.
Che cos’è l’architettura dei dati?
Progettata da data architecture, data architecture standardizza il modo in cui le aziende raccolgono, archiviano, trasformano, distribuiscono e utilizzano i dati allo scopo di aiutare gli analisti di dati e le persone nell’organizzazione a prendere decisioni migliori basate sulla business intelligence in tempo reale. L’architettura dei dati è la base per la modellazione dei dati e l’architettura delle informazioni, entrambe le quali rendono i dati utilizzabili e utili in tutta l’organizzazione.
Mentre l’architettura dei dati non è nuova, la moderna architettura dei dati aziendali (o modern data architecture) è e si è evoluta man mano che le aziende si spostano sempre più verso il cloud. Solo il cloud consente la velocità, la scalabilità e la facilità d’uso necessarie per rendere efficace la moderna architettura dei dati. Mentre le aziende si stanno spostando verso infrastrutture basate su cloud, anche la loro architettura dei dati viene trasformata.
Che cos’è l’architettura dati moderna?
Un’architettura dati moderna si concentra sull’allineamento dei dati alle funzionalità alimentate dal cloud. L’architettura dei dati tradizionale è stata costruita su modelli di dati on-premise che hanno impiegato un sacco di tempo per l’elaborazione e la gestione dei dati. Con l’infrastruttura sottratta dal cloud, la moderna architettura dei dati si concentra sul rendere i dati il più facili da accedere e il più utili possibile per l’azienda e il cliente. Facilita facilità, velocità, collaborazione, analisi in tempo reale e coerenza.
Una moderna architettura dati è:
- Costruito per gli utenti finali di consumare. Il cloud consente agli utenti finali di determinare i dati di cui hanno bisogno per le decisioni aziendali e ai data architect di progettare l’accesso ai dati che fornisce ciò di cui hanno bisogno.
- Automatizzato con pipeline di dati e flussi di dati. Nessuno ha il tempo di aspettare l’elaborazione lenta dei dati. Con il cloud e l’integrazione dei dati, le aziende possono automatizzare l’intero processo di gestione dei dati in modo che i dati fluiscano in modo fluido e libero ovunque debba andare nell’organizzazione, pur mantenendo la governance dei dati. L’integrazione dei dati è la chiave per fare in modo che ogni parte del tutto si connette.
- A cura di AI / ML. La moderna architettura dei dati aziendali sfrutta la potenza dell’intelligenza artificiale (AI) e del machine learning (ML) per automatizzare l’elaborazione dei dati, riconoscere nuovi tipi di dati, pulire i dati, risolvere i problemi di qualità dei dati, eseguire il data mining, garantire il mantenimento degli standard dei dati e fornire analisi e approfondimenti dei dati. AI / ML è la chiave per la velocità e la precisione dietro l’automazione.
- Scalabile per soddisfare esigenze imprevedibili. I dati vengono generati e consumati a ritmi straordinari e, man mano che le aziende affrontano le fluttuazioni delle richieste dei consumatori, devono essere in grado di scalare i dati su e giù, in modo automatico e conveniente.
- Condivisibile per una collaborazione affidabile. I dati condivisi sono fondamentali per garantire che tutti lavorino dalla stessa fonte di dati della verità. I dati condivisi aiutano anche a suddividere i silos dipartimentali e a favorire una collaborazione più semplice e affidabile.
- Sicuro dalla progettazione. Per la maggior parte delle imprese, i dati sono il loro bene più prezioso. La moderna architettura dei dati tiene conto della sicurezza dei dati con accesso e autorizzazione ai dati controllati, nonché della conformità alle leggi e ai regolamenti sulla privacy dei dati come GDPR e HIPAA.
Se stai creando un’architettura dati da zero nel cloud, è facile creare queste caratteristiche. Ma la maggior parte delle aziende sono a cavallo legacy infrastruttura on-premise con il cloud, e spesso multi-cloud. I loro dati risiedono in più luoghi ed è in genere fortemente silos. Le migrazioni dei dati verso il cloud e le integrazioni dei dati sono una priorità.
Oltre alle sei caratteristiche di una moderna architettura dati, è anche necessario assicurarsi che la progettazione faciliti quanto segue:
- Supporta una mossa a self-service e più tipi di utenti (integratori, dati gli scienziati, la linea di business leader, stakeholder)
- Consente a un iper-connesso impresa (si pensi dati come i nervi che collega ogni parte del corpo, senza soluzione di continuità la trasmissione di informazioni)
- Turni di reporting predittiva e prescrittivo analytics per insight in tempo reale, AI-guidato raccomandazioni, e nel momento decisionale
- Futuro-prove di nuove fonti di dati, applicazioni a valle, e i casi d’uso
3 fasi del moderno dati enterprise journey
Poiché le aziende si stanno trasformando e spostando digitalmente verso il cloud, in genere subiscono un percorso graduale per ottenere un’architettura dati moderna.
Questo può essere suddiviso in tre fasi principali:
Fase 1 — On-Premise
La maggior parte delle aziende dispone di sistemi on-premise, con gli strumenti per archiviare ed elaborare set di Big data ed eseguire trasformazioni complesse. Questo ambiente è impegnativo per i seguenti motivi:
- richiede un grande investimento di capitale per iniziare e un grande investimento in spese operative (OpEx) per il personale necessario
- ha bisogno di un servizio specializzato, dedicato set di abilità per gestire i big data tools
- È il risultato di un lento tempo di risposta, tra cui il lead time di acquisto, di spedizione, e l’installazione dell’ambiente di dati
Imprese che hanno operato come questo, per molti decenni, e in genere sono pesanti investimenti in premessa modelli. Non solo ci sono investimenti finanziari, ma il rischio di perdere dati o disconnettere integrazioni personalizzate può essere troppo grande per una migrazione completa del cloud. Molte aziende dispongono di dati che ritengono debbano rimanere nella sfera di competenza dei propri server e quindi adottano un approccio cloud ibrido.
Fase 2-Cloud: Virtual Private Cloud (VPC)
Mentre adottano il cloud, la seconda fase del percorso è “lift and shift”, in cui le aziende trasferiscono semplicemente cluster on-premise a un provider cloud in esecuzione in una rete cloud privata virtuale e possono usufruire dei vantaggi IaaS, come il costo inferiore. Forrester riferisce che le organizzazioni che distribuiscono nel cloud risparmiano il 20-60% rispetto ai costi dell’infrastruttura on-premise, poiché la maggior parte dei server e dello storage è sovralimentata e quindi devono gestire questi ambienti.
Tuttavia, questa fase presenta ancora alcune sfide importanti, in quanto:
- non Fa nulla per affrontare i problemi di gestione e manutenzione dell’ambiente
- Ha alta OpEx
- non affrontare le skill gap, e le competenze necessarie per gestire i servizi in esecuzione nel VPC
- Ha un tempo di risposta lenta
- non supporta in modo nativo i servizi di cloud storage
Gestione on-premise e cloud privati è complesso, che spesso porta le imprese a cercare un modo migliore per gestire l’ambiente cloud. Ciò porta al passaggio a servizi cloud gestiti.
Fase 3-Nuvola: Big Data as a Service
In questa fase, le aziende hanno riconosciuto le sfide e le stanno affrontando passando a servizi gestiti dal cloud come IBM, Microsoft e Google. Questi servizi gestiti liberano l’azienda dalla complessità della gestione e della manutenzione degli ambienti di elaborazione su larga scala e riducono la spesa OpEx di valore.
Altri vantaggi includono:
- Funzionalità on-demand che utilizzano risorse di storage e di calcolo solo quando necessario, riducendo così OpEx
- Un modo molto più semplice per scalare su e giù per volumi Terabyte/petabyte
- Tempi di risposta più rapidi per le esigenze aziendali
Inoltre, le piattaforme big data gestite dal cloud sono progettate con servizi di cloud storage. Essi hanno l’integrazione nativa con il cloud storage, in modo da poter utilizzare il cloud storage come un componente di storage distribuito adatto per l’archiviazione lago di dati.
Parliamo un po ‘ di archiviazione dei dati.
L’architettura dati moderna necessita di data lake
Un data warehouse memorizza dati strutturati (ad esempio, da sistemi transazionali). È ottimizzato per analizzare dati relazionali, non dati semi / non strutturati. Quindi, prima di scrivere dall’origine dati al data warehouse, la struttura deve essere definita e i dati devono essere puliti e trasformati. Ciò richiede tempo e rende più difficile ottenere dati utilizzabili alla velocità di cui un’azienda ha bisogno. Inoltre, con così tanti nuovi dati disponibili, il costo del data warehousing è in realtà molto proibitivo.
I data lake supportano l’architettura dati moderna.
A differenza di un data warehouse, un data lake è una raccolta di tutti i tipi di dati: strutturati, semi-strutturati e non strutturati. I dati vengono memorizzati nel loro formato raw senza la necessità di alcuna struttura o schema. In effetti, non è necessario definire la struttura dei dati quando viene acquisita, solo quando viene letta. Poiché i data lake sono altamente scalabili, supportano volumi di dati maggiori a un prezzo più conveniente. E, con un data lake, è possibile memorizzare i dati da fonti relazionali (come database relazionali) e da fonti non relazionali (dispositivi/ macchine IoT, social media, ecc.) senza ETL (extract, transform, load), che rende i dati disponibili per l’analisi molto più velocemente.
4 caratteristiche di una moderna enterprise data architecture
Ci sono quattro caratteristiche principali di una moderna enterprise data architecture: 1) il ciclo dei dati, 2) memorizzazione dei dati, 3) una piattaforma di integrazione, e 4) la consegna dei dati.
Data cycle
Le aziende incontrano costantemente nuove origini dati e devono acquisire i dati prima di conoscere l’eventuale caso d’uso. I dati acquisiti vengono estratti per popolare casi d’uso noti e conservati per casi d’uso futuri non definiti. Quindi i dati in entrata devono essere conformi agli standard aziendali per garantire governance, qualità, coerenza, conformità normativa e accuratezza per i consumatori downstream, indipendentemente dalle loro esigenze aziendali, dal set di competenze o dalla comprensione dell’architettura dei dati. Una volta che i dati sono stati acquisiti e conformi agli standard aziendali, i servizi di perfezionamento preparano i dati per la loro eventuale applicazione a valle e/o casi d’uso.
Memorizzazione dei dati
I dati vengono memorizzati nel data lake. Pensate al data lake come a una moderna data factory, e all’interno del lago ci sono “contenitori” per varie fasi di elaborazione dei dati. Il primo contenitore è il contenitore di atterraggio, in cui vengono ricevuti i dati grezzi in entrata indipendentemente dalla forma, dal trasporto o dall’origine. Questo è dove vanno i dati impuri. Qui vengono prese le decisioni su quali dati grezzi conservare. I dati conservati vengono spostati nel contenitore conforme.
Il contenitore conforme è dove i dati grezzi vengono puliti e la qualità dei dati è garantita. Il contenitore conforme garantisce che l’azienda stia lavorando con un set di dati coerente e conforme agli standard.
Successivamente, abbiamo il contenitore raffinato che prepara i dati per il suo eventuale obiettivo di consegna e potrebbero esserci sottoinsiemi di raffinerie a seconda dei casi d’uso. Una volta che i dati vengono perfezionati, vengono messi in scena per la consegna a destinazione. Dopo la consegna, può essere spostato in un’area di lavoro da utilizzare per gli scienziati dei dati, archiviato per l’archiviazione a lungo termine o eliminato.
Data integration platform
La piattaforma di integrazione prende i dati da diverse fonti e li combina per fornire una vista unificata. In una moderna architettura di dati, la piattaforma di integrazione deve essere abbastanza flessibile da supportare tutte le fonti e i target di dati richiesti, nonché i servizi di dati in ogni fase del ciclo di dati. Deve essere in grado di supportare i dati con e senza schema e gestire i metadati. Inoltre, deve essere in grado di gestire l’integrazione e l’elaborazione necessarie per:
- Alta velocità, varietà, e il volume dei dati di cattura
- Bassa latenza integrazione di applicazioni
- Alto volume di dati in conformità elaborazione
- integrazione dei Dati dal momento della consegna al target
- API di consumo (essenziale per il B2B ecosistemi)
Inoltre, gli scenari di cui sopra devono essere rese accessibili ad una vasta comunità di utenti che vanno da professionisti informatici altamente qualificati per gli utenti business che necessitano di accelerare una linea di business di progetto in risposta a una veloce evoluzione dell’ambiente economico. Nell’impresa moderna, analisti e data scientist sono chiamati a rispondere a domande strategiche e sbloccare l’innovazione a un ritmo senza precedenti e semplicemente non hanno il lusso di essere dipendenti da un’organizzazione IT per rendere disponibili le informazioni criticamente necessarie. Self-service non è più un lusso o convenienza, ma è ora un requisito mission-critical. Essere in grado di creare rapidamente pipeline di dati è essenziale per mantenere il business in movimento alla velocità di cui ha bisogno in un’era digitale.
Consegna dei dati
Infine, i dati devono essere consegnati ai suoi obiettivi appropriati. L’accessibilità sicura dei dati è parte integrante della moderna architettura dei dati. Governance, sicurezza, RBAC (Role-Based Access Control), SLA, throttling e analisi di utilizzo sono tutti fondamentali per la distribuzione dei dati agli utenti previsti, dipendenti interni o partner esterni.
Le aziende che adottano un approccio data-as-a-service delivery garantiscono i più alti livelli di disponibilità, accessibilità e customer experience senza spese di esercitazioni IT costanti o dover compromettere la sicurezza o la proprietà intellettuale interna. I dati vengono consegnati alle sue destinazioni finali che includeranno data mart, applicazioni, file, stagni di dati, ambienti di lavoro di data science, soluzioni abilitate all’IA e ecosistemi API.
Costruire una robusta architettura dati moderna
Una robusta architettura dati aziendale moderna garantirà alle aziende l’accessibilità, la velocità, la flessibilità e l’affidabilità necessarie per ottimizzare ogni origine dati e utilizzarla per prendere decisioni aziendali migliori. SnapLogic fornisce l’integrazione dei dati attraverso la sua intelligent integration platform as a service, aiutando le aziende a creare architetture di dati moderne per le loro esigenze di dati a prova di futuro.
Leave a Reply