Introducción a Servicios de Calidad de Datos
- Artículo
- 08/17/2020
- 7 minutos para leer
-
- s
- M
- r
- c
- d
se Aplica a: SQL Server (todas las versiones compatibles)
La solución de calidad de datos proporcionada por Data Quality Services (DQS) permite a un administrador de datos o profesional de TI mantener la calidad de sus datos y garantizar que los datos sean adecuados para su uso comercial. DQS es una solución basada en el conocimiento que proporciona formas interactivas y asistidas por computadora para administrar la integridad y la calidad de sus fuentes de datos. DQS le permite descubrir, crear y administrar el conocimiento sobre sus datos. A continuación, puede utilizar ese conocimiento para realizar la limpieza de datos, la correspondencia y la creación de perfiles. También puede aprovechar los servicios basados en la nube de proveedores de datos de referencia en un proyecto de calidad de datos de DQS.
La necesidad empresarial de DQS
Los datos incorrectos pueden deberse a errores de entrada de usuario, corrupción en la transmisión o el almacenamiento, definiciones de diccionario de datos no coincidentes y otros problemas de calidad de datos y procesos. Agregar datos de diferentes fuentes que utilizan diferentes estándares de datos puede resultar en datos inconsistentes, al igual que aplicar una regla arbitraria o sobrescribir datos históricos. Los datos incorrectos afectan la capacidad de una empresa para realizar sus funciones comerciales y proporcionar servicios a sus clientes, lo que resulta en una pérdida de credibilidad e ingresos, insatisfacción de los clientes y problemas de cumplimiento. Los sistemas automatizados a menudo no funcionan con datos incorrectos, y los datos incorrectos desperdician el tiempo y la energía de las personas que realizan procesos manuales. Los datos incorrectos pueden causar estragos con el análisis de datos, los informes, la minería de datos y el almacenamiento.
Los datos de alta calidad son fundamentales para la eficiencia de las empresas y las instituciones. Una organización de cualquier tamaño puede usar DQS para mejorar el valor de la información de sus datos, haciendo que los datos sean más adecuados para su uso previsto. Una solución de calidad de datos puede hacer que los datos sean más fiables, accesibles y reutilizables. Puede mejorar la integridad, precisión, conformidad y consistencia de sus datos, resolviendo problemas causados por datos incorrectos en cargas de trabajo de inteligencia de negocios o almacenamiento de datos, así como en sistemas OLTP operativos.
DQS permite a un usuario empresarial, trabajador de la información o profesional de TI que no es un experto en bases de datos ni un programador crear, mantener y ejecutar las operaciones de calidad de datos de su organización con un tiempo de configuración o preparación mínimo.
Responder a esa necesidad con DQS
La calidad de los datos no se define en términos absolutos. Depende de si los datos son adecuados para el propósito para el que están destinados. DQS identifica datos potencialmente incorrectos y le proporciona una evaluación de la probabilidad de que los datos sean de hecho incorrectos. DQS le proporciona una comprensión semántica de los datos para que pueda decidir si son apropiados. DQS le permite resolver problemas relacionados con la incompletitud, la falta de conformidad, la inconsistencia, la inexactitud, la invalidez y la duplicación de datos.
DQS proporciona las siguientes funciones para resolver problemas de calidad de datos.
-
Limpieza de datos: la modificación, eliminación o enriquecimiento de datos que son incorrectos o incompletos, utilizando procesos interactivos y asistidos por computadora. Para obtener más información, consulte Limpieza de datos.
-
Coincidencia: la identificación de duplicados semánticos en un proceso basado en reglas que le permite determinar qué constituye una coincidencia y realizar la desduplicación. Para obtener más información, consulte Coincidencia de datos.
-
Servicios de Datos de referencia: verificación de la calidad de sus datos utilizando los servicios de un proveedor de datos de referencia. Puede utilizar los servicios de datos de referencia de Microsoft Azure Marketplace para limpiar, validar, comparar y enriquecer los datos. Para obtener más información, consulte Servicios de datos de referencia en DQS.
-
Perfiles: el análisis de una fuente de datos para proporcionar información sobre la calidad de los datos en cada etapa de los procesos de descubrimiento de conocimiento, administración de dominios, emparejamiento y limpieza de datos. El perfilado es una herramienta poderosa en una solución de calidad de datos DQS. Puede crear una solución de calidad de datos en la que la elaboración de perfiles sea tan importante como la gestión del conocimiento, la correspondencia o la limpieza de datos. Para obtener más información, consulte Generación de perfiles de datos y Notificaciones en DQS.
-
Seguimiento: seguimiento y determinación del estado de las actividades de calidad de los datos. El monitoreo le permite verificar que su solución de calidad de datos está haciendo lo que fue diseñada para hacer. Para obtener más información, consulte Administración de DQS.
-
Base de conocimientos: Data Quality Services es una solución basada en el conocimiento que analiza los datos en función del conocimiento que se genera con DQS. Esto le permite crear procesos de calidad de datos que mejoran continuamente el conocimiento sobre sus datos y, al hacerlo, mejoran continuamente la calidad de sus datos.
La siguiente ilustración muestra el proceso de DQS:
Una solución basada en el conocimiento
La base de conocimiento DQS es un repositorio de tres tipos de conocimiento: conocimiento listo para usar, conocimiento generado por el Servidor de Calidad de Datos y conocimiento generado por el usuario. DQS le permite almacenar el conocimiento sobre sus datos en la base de conocimientos, agregar reglas de negocio y modificar el conocimiento como mejor le parezca, y luego aplicarlo para probar la integridad y corrección de los datos. Después de crear la base de conocimientos, puede mejorarla continuamente y, a continuación, reutilizarla en múltiples procesos de mejora de la calidad de los datos.
El conocimiento en una base de conocimientos identifica datos potencialmente incorrectos y propone cambios en los datos. Puede encontrar coincidencias de datos, lo que le permite realizar la deduplicación de datos. Puede comparar datos de origen con datos de referencia basados en la nube mantenidos y garantizados por proveedores de calidad de datos. El administrador de datos o profesional de TI verifica tanto el conocimiento en la base de conocimientos como los cambios que se deben realizar en los datos, y ejecuta los servicios de limpieza, deduplicación y datos de referencia.
Una base de conocimientos almacena todo el conocimiento relacionado con un tipo específico de fuente de datos. Por ejemplo, puede mantener una base de conocimientos para una base de datos de clientes y otra base de conocimientos para una base de datos de empleados. El conocimiento está contenido en uno o más dominios de datos, cada uno de los cuales es una representación semántica de un tipo de datos en un campo de datos. Una base de conocimientos para una base de datos de clientes puede tener dominios para nombres de empresas, direcciones, contactos, información de contacto, etc. Un dominio contiene una lista de valores de confianza, valores no válidos y datos erróneos. El conocimiento del dominio incluye asociaciones de sinónimos, relaciones de términos, reglas de validación y de negocio, y políticas de coincidencia. Armado con este conocimiento, el administrador de datos puede tomar una decisión informada sobre si corregir instancias específicas de los valores en un dominio.
DQS le permite realizar operaciones de importación y exportación con una base de conocimientos. Puede importar o exportar dominios o bases de conocimiento mediante un archivo DQS. Puede importar valores o dominios desde un archivo de Excel. También puede importar valores que se hayan encontrado mediante un proceso de limpieza basado en la base de conocimientos a un dominio. Estas operaciones le permiten mejorar continuamente una base de conocimientos, asegurándose de que el conocimiento adquirido a través de decisiones y descubrimientos se reenvíe a la base de conocimientos.
La solución basada en el conocimiento de DQS utiliza dos pasos fundamentales para limpiar los datos:
-
Un proceso de gestión del conocimiento que construye la base de conocimientos
-
Un proyecto de calidad de datos que propone cambios en los datos de origen basados en el conocimiento de la base de conocimientos.
Para obtener más información, consulte Bases de Conocimiento y Dominios de DQS y Proyectos de Calidad de Datos (DQS).
Componentes DQS
Los Servicios de Calidad de datos consisten en un Servidor de Calidad de Datos y un Cliente de Calidad de Datos. Estos componentes le permiten realizar servicios de calidad de datos por separado de otras operaciones de SQL Server. Ambos se instalan desde el programa de instalación de SQL Server.
Data Quality Server se implementa como tres catálogos de SQL Server que puede administrar y supervisar en SQL Server Management Studio (DQS_MAIN, DQS_PROJECTS y DQS_STAGING_DATA). DQS_MAIN incluye los procedimientos almacenados DQS, el motor DQS y las bases de conocimiento publicadas. DQS_PROJECTS incluye los datos necesarios para la gestión de la base de conocimientos y las actividades de proyectos de DQS. DQS_STAGING_DATA proporciona una base de datos provisional intermedia en la que puede copiar los datos de origen para realizar operaciones de DQS y, a continuación, exportar los datos procesados.
Data Quality Client es una aplicación independiente que le permite realizar la gestión del conocimiento, los proyectos de calidad de datos y la administración en una interfaz de usuario. La aplicación está diseñada tanto para administradores de datos como para administradores de DQS. Es un archivo ejecutable independiente que realiza el descubrimiento de conocimientos, la administración de dominios, la creación de políticas de coincidencia, la limpieza de datos, la coincidencia, la creación de perfiles, la supervisión y la administración del servidor. El Cliente de calidad de datos se puede instalar y ejecutar en el mismo equipo que el Servidor de Calidad de datos o de forma remota en un equipo separado. Muchas operaciones en el Cliente de calidad de datos están controladas por asistentes para facilitar su uso.
Funcionalidad de calidad de datos en Servicios de Integración y Servicios de Datos Maestros
La funcionalidad de calidad de datos proporcionada por Servicios de calidad de datos está integrada en un componente de SQL Server Integration Services (SSIS) y en características de Servicios de Datos Maestros (MDS) para permitirle realizar procesos de calidad de datos dentro de esos servicios.
Componente de limpieza de DQS en Servicios de Integración
El componente de limpieza de DQS en Servicios de Integración le permite realizar una limpieza de datos como parte de un paquete de Servicios de integración. Cuando se ejecuta el paquete, la limpieza de datos se ejecuta como un archivo por lotes. Esta es una alternativa a ejecutar un proyecto de limpieza en la aplicación Cliente de Calidad de datos. Puede garantizar la calidad de sus datos automáticamente. No es necesario realizar los pasos interactivos de un proyecto de limpieza de datos dentro de la aplicación Cliente de Calidad de datos. Puede incluir el proceso de limpieza de datos dentro de un flujo de datos que contenga otros componentes de Servicios de integración. Para obtener más información, consulte Transformación de limpieza de DQS.
Procesos de calidad de datos en Servicios de Datos Maestros
La funcionalidad de Servicios de calidad de datos se ha integrado en Servicios de Datos Maestros (MDS), para que pueda realizar la duplicación de datos de origen y datos maestros dentro del complemento de Servicios de Datos Maestros de Microsoft SQL Server 2014 para Microsoft Excel. Para realizar coincidencias, cargue los datos administrados por MDS en una hoja de cálculo de Excel, combínelos con datos no administrados por MDS y, a continuación, realice coincidencias dentro de Excel. Los componentes del servidor de calidad de datos deben instalarse con MDS. Para obtener más información, consulte Coincidencia de calidad de datos en el complemento MDS para Excel.
Leave a Reply