Introduzione di Servizi di Qualità dei Dati
- Articolo
- 08/17/2020
- 7 minuti a leggere
-
- s
- M
- r
- c
- d
Si applica a: SQL Server (tutte le versioni supportate)
La soluzione di qualità dei dati fornita da Data Quality Services (DQS) consente a un data steward o a un professionista IT di mantenere la qualità dei propri dati e garantire che i dati siano adatti all’utilizzo aziendale. DQS è una soluzione basata sulla conoscenza che fornisce modalità sia assistite da computer che interattive per gestire l’integrità e la qualità delle origini dati. DQS ti consente di scoprire, creare e gestire la conoscenza dei tuoi dati. È quindi possibile utilizzare tale conoscenza per eseguire la pulizia dei dati, la corrispondenza e la profilazione. È inoltre possibile sfruttare i servizi basati su cloud dei provider di dati di riferimento in un progetto di qualità dei dati DQS.
La necessità aziendale di DQS
Dati errati può derivare da errori di inserimento dell’utente, corruzione nella trasmissione o archiviazione, definizioni del dizionario dei dati non corrispondenti e altri problemi di qualità dei dati e di processo. L’aggregazione di dati provenienti da fonti diverse che utilizzano standard di dati diversi può comportare dati incoerenti, così come l’applicazione di una regola arbitraria o la sovrascrittura di dati storici. I dati errati influiscono sulla capacità di un’azienda di svolgere le proprie funzioni aziendali e di fornire servizi ai propri clienti, con conseguente perdita di credibilità e entrate, insoddisfazione del cliente e problemi di conformità. I sistemi automatizzati spesso non funzionano con dati errati e dati errati sprecano il tempo e l’energia delle persone che eseguono processi manuali. I dati errati possono devastare l’analisi dei dati, il reporting, il data mining e il warehousing.
I dati di alta qualità sono fondamentali per l’efficienza delle imprese e delle istituzioni. Un’organizzazione di qualsiasi dimensione può utilizzare DQS per migliorare il valore informativo dei propri dati, rendendo i dati più adatti all’uso previsto. Una soluzione di qualità dei dati può rendere i dati più affidabili, accessibili e riutilizzabili. Può migliorare la completezza, l’accuratezza, la conformità e la coerenza dei dati, risolvendo i problemi causati da dati errati nei carichi di lavoro di business intelligence o data warehouse, nonché nei sistemi OLTP operativi.
DQS consente a un utente aziendale, a un information worker o a un professionista IT che non è né un esperto di database né un programmatore di creare, mantenere ed eseguire le operazioni di qualità dei dati della propria organizzazione con tempi di configurazione o preparazione minimi.
Rispondere a tale esigenza con DQS
La qualità dei dati non è definita in termini assoluti. Dipende dal fatto che i dati siano appropriati per lo scopo a cui sono destinati. DQS identifica i dati potenzialmente errati e fornisce una valutazione della probabilità che i dati siano effettivamente errati. DQS fornisce una comprensione semantica dei dati in modo da poter decidere la sua adeguatezza. DQS consente di risolvere problemi di incompletezza, difetto di conformità, incoerenza, inesattezza, invalidità e duplicazione dei dati.
DQS fornisce le seguenti funzionalità per risolvere i problemi di qualità dei dati.
-
Pulizia dei dati: la modifica, la rimozione o l’arricchimento di dati non corretti o incompleti, utilizzando processi sia assistiti da computer che interattivi. Per ulteriori informazioni, vedere Pulizia dei dati.
-
Corrispondenza: l’identificazione di duplicati semantici in un processo basato su regole che consente di determinare ciò che costituisce una corrispondenza ed eseguire la de-duplicazione. Per ulteriori informazioni, vedere Corrispondenza dei dati.
-
Servizi di dati di riferimento: verifica della qualità dei tuoi dati utilizzando i servizi di un fornitore di dati di riferimento. È possibile utilizzare i servizi dati di riferimento di Microsoft Azure Marketplace per pulire, convalidare, abbinare e arricchire i dati. Per ulteriori informazioni, vedere Servizi dati di riferimento in DQS.
-
Profilazione: l’analisi di un’origine dati per fornire informazioni sulla qualità dei dati in ogni fase dei processi di scoperta della conoscenza, gestione del dominio, corrispondenza e pulizia dei dati. Profiling è un potente strumento in una soluzione di qualità dei dati DQS. È possibile creare una soluzione di qualità dei dati in cui la profilazione è importante quanto la gestione della conoscenza, la corrispondenza o la pulizia dei dati. Per ulteriori informazioni, vedere Profilazione dei dati e notifiche in DQS.
-
Monitoraggio: il monitoraggio e la determinazione dello stato delle attività di qualità dei dati. Il monitoraggio consente di verificare che la soluzione Data Quality stia facendo ciò per cui è stata progettata. Per ulteriori informazioni, vedere Amministrazione DQS.
-
Knowledge Base: Data Quality Services è una soluzione basata sulla conoscenza che analizza i dati in base alle conoscenze create con DQS. Ciò consente di creare processi di qualità dei dati che migliorano continuamente la conoscenza dei dati e, in tal modo, migliorano continuamente la qualità dei dati.
L’illustrazione seguente mostra il processo DQS:
Una soluzione basata sulla conoscenza
La knowledge base DQS è un repository di tre tipi di conoscenza: conoscenza immediata, conoscenza generata da Data Quality Server e conoscenza generata dall’utente. DQS consente di memorizzare le conoscenze sui dati nella knowledge base, aggiungere regole aziendali e modificare le conoscenze come meglio credi, quindi applicarle per verificare l’integrità e la correttezza dei dati. Dopo aver creato la knowledge base, è possibile migliorarla continuamente e riutilizzarla in più processi di miglioramento della qualità dei dati.
Knowledge in a knowledge base identifica dati potenzialmente errati e propone modifiche ai dati. Può trovare corrispondenze di dati, consentendo di eseguire la deduplicazione dei dati. Può confrontare i dati di origine con i dati di riferimento basati su cloud mantenuti e garantiti dai fornitori di qualità dei dati. Il data steward o il professionista IT verifica sia le conoscenze nella knowledge base che le modifiche da apportare ai dati ed esegue i servizi di pulizia, deduplicazione e dati di riferimento.
Una knowledge base memorizza tutte le conoscenze relative a un tipo specifico di origine dati. Ad esempio, è possibile mantenere una knowledge base per un database clienti e un’altra knowledge base per un database dei dipendenti. La conoscenza è contenuta in uno o più domini di dati, ognuno dei quali è una rappresentazione semantica di un tipo di dati in un campo di dati. Una knowledge base per un database clienti può avere domini per nomi di società, indirizzi, contatti, informazioni di contatto e così via. Un dominio contiene un elenco di valori attendibili, valori non validi e dati errati. La conoscenza del dominio include associazioni di sinonimi, relazioni di termine, regole di convalida e di business e politiche di corrispondenza. Armato di questa conoscenza, il data steward può prendere una decisione informata sull’opportunità di correggere istanze specifiche dei valori in un dominio.
DQS consente di eseguire operazioni di importazione ed esportazione con una knowledge base. È possibile importare o esportare domini o basi di conoscenza utilizzando un file DQS. È possibile importare valori o domini da un file Excel. È inoltre possibile importare in un dominio i valori rilevati da un processo di pulizia basato sulla knowledge base. Queste operazioni consentono di migliorare continuamente una knowledge base, assicurandosi che le conoscenze acquisite attraverso decisioni e scoperte vengano reindirizzate nella knowledge base.
La soluzione basata sulla conoscenza di DQS utilizza due passaggi fondamentali per pulire i dati:
-
Un processo di gestione della conoscenza che costruisce la knowledge base
-
Un progetto di qualità dei dati che propone modifiche ai dati di origine in base alle conoscenze nella knowledge base.
Per ulteriori informazioni, vedere DQS Knowledge Bases and Domains and Data Quality Projects (DQS).
Componenti DQS
Servizi di qualità dei dati è costituito da Data Quality Server e Data Quality Client. Questi componenti consentono di eseguire servizi di qualità dei dati separatamente dalle altre operazioni di SQL Server. Entrambi sono installati all’interno del programma di installazione di SQL Server.
Data Quality Server è implementato come tre cataloghi SQL Server che è possibile gestire e monitorare in SQL Server Management Studio (DQS_MAIN, DQS_PROJECTS e DQS_STAGING_DATA). DQS_MAIN include le stored procedure DQS, il motore DQS e le knowledge base pubblicate. DQS_PROJECTS include i dati necessari per la gestione della knowledge base e le attività del progetto DQS. DQS_STAGING_DATA fornisce un database di staging intermedio in cui è possibile copiare i dati di origine per eseguire operazioni DQS e quindi esportare i dati elaborati.
Data Quality Client è un’applicazione standalone che consente di eseguire la gestione della conoscenza, progetti di qualità dei dati, e l’amministrazione in un’unica interfaccia utente. L’applicazione è progettata sia per i data steward che per gli amministratori DQS. Si tratta di un file eseguibile autonomo che esegue la scoperta della conoscenza, la gestione del dominio, la creazione di criteri di corrispondenza, la pulizia dei dati, la corrispondenza, la profilazione, il monitoraggio e l’amministrazione del server. Data Quality Client può essere installato ed eseguito sullo stesso computer di Data Quality Server o in remoto su un computer separato. Molte operazioni in Data Quality Client sono guidate da wizard per facilità d’uso.
Funzionalità di qualità dei dati in Integration Services e Master Data Services
La funzionalità di qualità dei dati fornita da Data Quality Services è integrata in un componente di SQL Server Integration Services (SSIS) e in funzionalità di Master Data Services (MDS) per consentire all’utente di eseguire processi di qualità dei dati all’interno di tali servizi.
Componente di pulizia DQS nei servizi di integrazione
Il componente di pulizia DQS nei servizi di integrazione consente di eseguire la pulizia dei dati come parte di un pacchetto di servizi di integrazione. Quando il pacchetto viene eseguito, la pulizia dei dati viene eseguita come file batch. Questa è un’alternativa all’esecuzione di un progetto di pulizia nell’applicazione Client Data Quality. Puoi garantire automaticamente la qualità dei tuoi dati. Non è necessario eseguire i passaggi interattivi di un progetto di pulizia dei dati all’interno dell’applicazione client Data Quality. È possibile includere il processo di pulizia dei dati all’interno di un flusso di dati che contiene altri componenti dei servizi di integrazione. Per ulteriori informazioni, vedere DQS Cleansing Transformation.
Processi di qualità dei dati in Master Data Services
La funzionalità Data Quality Services è stata integrata in Master Data Services (MDS), in modo da poter eseguire la de-duplicazione dei dati di origine e dei dati master all’interno del componente aggiuntivo Microsoft SQL Server 2014 Master Data Services per Microsoft Excel. Per eseguire la corrispondenza, caricare i dati gestiti da MDS in un foglio di lavoro Excel, combinarli con i dati non gestiti da MDS e quindi eseguire la corrispondenza in Excel. I componenti del Server Data Quality devono essere installati con MDS. Per ulteriori informazioni, vedere Corrispondenza della qualità dei dati nel componente aggiuntivo MDS per Excel.
Leave a Reply