Introdução a Serviços de Qualidade de Dados
- Artigo
- 08/17/2020
- 7 minutos de leitura
-
- s
- M
- r
- c
- d
aplica-se a: SQL Server(todas as versões suportadas)
a solução de qualidade de dados fornecida pelo Data Quality Services (DQS) permite a um administrador de dados ou profissional de TI manter a qualidade de seus dados e garantir que os dados sejam adequados para seu uso comercial. O DQS é uma solução orientada pelo conhecimento que fornece formas interativas e assistidas por computador para gerenciar a integridade e a qualidade de suas fontes de dados. O DQS permite que você descubra, crie e gerencie conhecimento sobre seus dados. Em seguida, você pode usar esse conhecimento para realizar limpeza, correspondência e criação de perfil de dados. Você também pode aproveitar os serviços baseados em nuvem de provedores de dados de referência em um projeto de qualidade de dados DQS.
a necessidade de negócios para DQS
dados incorretos podem resultar de erros de entrada do Usuário, corrupção na transmissão ou armazenamento, definições de dicionário de dados incompatíveis e outros problemas de qualidade e processo de dados. A agregação de dados de diferentes fontes que usam padrões de dados diferentes pode resultar em dados inconsistentes, assim como a aplicação de uma regra arbitrária ou a substituição de dados históricos. Dados incorretos afetam a capacidade de uma empresa desempenhar suas funções de negócios e prestar serviços aos seus clientes, resultando em perda de credibilidade e receita, insatisfação do cliente e problemas de Conformidade. Os sistemas automatizados geralmente não funcionam com dados incorretos, e os dados ruins desperdiçam o tempo e a energia das pessoas que executam processos manuais. Dados incorretos podem causar estragos com análise de dados, relatórios, mineração de dados e armazenamento.
dados de alta qualidade são fundamentais para a eficiência das empresas e instituições. Uma organização de qualquer tamanho pode usar o DQS para melhorar o valor da informação de seus dados, tornando os dados mais adequados para o uso pretendido. Uma solução de qualidade de dados pode tornar os dados mais confiáveis, acessíveis e reutilizáveis. Ele pode melhorar a integridade, precisão, conformidade e consistência de seus dados, resolvendo problemas causados por dados ruins em cargas de trabalho de business intelligence ou data warehouse, bem como em sistemas operacionais OLTP.
o DQS permite que um usuário de negócios, trabalhador de informação ou profissional de TI que não seja um especialista em banco de dados nem um programador crie, mantenha e execute as operações de qualidade de dados de sua organização com configuração mínima ou tempo de preparação.
responder a essa necessidade com DQS
a qualidade dos dados não é definida em termos absolutos. Depende se os dados são apropriados para a finalidade para a qual se destinam. O DQS identifica dados potencialmente incorretos e fornece uma avaliação da probabilidade de que os dados estejam de fato incorretos. O DQS fornece uma compreensão semântica dos dados para que você possa decidir sua adequação. O DQS permite que você resolva problemas envolvendo incompletude, falta de Conformidade, inconsistência, imprecisão, invalidade e duplicação de dados.
o DQS fornece os seguintes recursos para resolver problemas de qualidade de dados.
-
limpeza de dados: a modificação, remoção ou enriquecimento de dados incorretos ou incompletos, usando processos assistidos por computador e interativos. Para obter mais informações, consulte Limpeza de dados.
-
correspondência: a identificação de duplicatas semânticas em um processo baseado em regras que permite determinar o que constitui uma correspondência e realizar a desduplicação. Para obter mais informações, consulte correspondência de dados.
-
Serviços de dados de referência: verificação da qualidade dos seus dados usando os Serviços de um provedor de dados de referência. Você pode usar serviços de dados de referência do Microsoft Azure Marketplace para limpar, validar, combinar e enriquecer dados. Para obter mais informações, consulte Serviços de dados de referência no DQS.
-
criação de perfis: a análise de uma fonte de dados para fornecer informações sobre a qualidade dos dados em todas as etapas dos processos de descoberta de conhecimento, gerenciamento de domínio, correspondência e limpeza de dados. A criação de perfil é uma ferramenta poderosa em uma solução de qualidade de dados DQS. Você pode criar uma solução de qualidade de dados na qual o perfil é tão importante quanto o gerenciamento de conhecimento, correspondência ou limpeza de dados. Para obter mais informações, consulte Criação de perfil de dados e notificações no DQS.
-
Monitoramento: o rastreamento e determinação do estado das atividades de qualidade de dados. O monitoramento permite que você verifique se sua solução de qualidade de dados está fazendo o que foi projetada para fazer. Para obter mais informações, consulte Administração DQS.
-
base de Conhecimento: Data Quality Services é uma solução orientada a conhecimento que analisa dados com base no conhecimento que você constrói com o DQS. Isso permite que você crie processos de qualidade de dados que aprimoram continuamente o conhecimento sobre seus dados e, ao fazê-lo, melhoram continuamente a qualidade de seus dados.
a ilustração a seguir exibe o processo DQS:
Um Conhecimento Orientado a Solução
DQS knowledge base é um repositório de três tipos de conhecimento: o fora-da-caixa-conhecimento, o conhecimento gerado pelo Servidor de Qualidade de Dados, e o conhecimento gerado pelo usuário. O DQS permite que você armazene conhecimento sobre seus dados na base de conhecimento, adicione regras de negócios e modifique o conhecimento conforme achar melhor e, em seguida, aplique-o para testar a integridade e a correção dos dados. Depois de construir a base de conhecimento, você pode melhorá-la continuamente e reutilizá-la em vários processos de melhoria da qualidade dos dados.
o conhecimento em uma base de conhecimento identifica dados potencialmente incorretos e propõe alterações nos dados. Ele pode encontrar correspondências de dados, permitindo que você execute a desduplicação de dados. Ele pode comparar dados de origem com dados de referência baseados em nuvem mantidos e garantidos por provedores de qualidade de dados. O administrador de dados ou profissional de TI verifica o conhecimento na base de conhecimento e as alterações a serem feitas nos dados e executa os Serviços de limpeza, desduplicação e dados de referência.
uma base de conhecimento armazena todo o conhecimento relacionado a um tipo específico de fonte de dados. Por exemplo, você pode manter uma base de conhecimento para um banco de dados de clientes e outra base de conhecimento para um banco de dados de funcionários. O conhecimento está contido em um ou mais domínios de dados, cada um dos quais é uma representação semântica de um tipo de dados em um campo de dados. Uma base de conhecimento para um banco de dados de clientes pode ter domínios para nomes de empresas, endereços, contatos, informações de contato e assim por diante. Um domínio contém uma lista de valores confiáveis, valores inválidos e dados incorretos. O conhecimento de domínio inclui associações de sinônimos, relações de termos, regras de validação e negócios e políticas de correspondência. Armado com esse conhecimento, o administrador de dados pode tomar uma decisão informada sobre a correção de instâncias específicas dos valores em um domínio.
DQS permite que você execute operações de importação e exportação com uma base de conhecimento. Você pode importar ou exportar domínios ou bases de conhecimento usando um arquivo DQS. Você pode importar valores ou domínios de um arquivo do Excel. Você também pode importar valores encontrados por um processo de limpeza com base na base de conhecimento de volta para um domínio. Essas operações permitem que você melhore continuamente uma base de conhecimento, certificando-se de que o conhecimento adquirido por meio de decisões e descobertas seja encaminhado de volta para a base de conhecimento.
a solução orientada para o conhecimento DQS usa duas etapas fundamentais para limpar dados:
-
Um processo de gestão de conhecimento que se constrói a base de dados de conhecimento
-
Um projeto de qualidade de dados que propõe alterações na fonte de dados com base no conhecimento na base de dados de conhecimento.
para obter mais informações, consulte DQS bases de conhecimento e domínios e projetos de qualidade de dados (DQS).
componentes DQS
os Serviços de qualidade de dados consistem em servidor de qualidade de dados e cliente de qualidade de dados. Esses componentes permitem que você execute serviços de qualidade de dados separadamente de outras operações do SQL Server. Ambos são instalados a partir do programa de configuração do SQL Server.
o Data Quality Server é implementado como três catálogos do SQL Server que você pode gerenciar e monitorar no SQL Server Management Studio (DQS_MAIN, DQS_PROJECTS e DQS_STAGING_DATA). DQS_MAIN inclui procedimentos armazenados DQS, o mecanismo DQS e bases de conhecimento publicadas. DQS_PROJECTS inclui dados necessários para o gerenciamento da base de conhecimento e as atividades do projeto DQS. DQS_STAGING_DATA fornece um banco de dados de teste intermediário onde você pode copiar seus dados de origem para executar operações DQS e, em seguida, exportar seus dados processados.
Data Quality Client é um aplicativo independente que permite executar gerenciamento de conhecimento, projetos de qualidade de dados e administração em uma interface de usuário. O aplicativo foi projetado para administradores de dados e administradores de DQS. É um arquivo executável autônomo que executa descoberta de conhecimento, gerenciamento de domínio, criação de políticas correspondentes, limpeza de dados, correspondência, criação de perfil, monitoramento e administração do servidor. O cliente de qualidade de dados pode ser instalado e executado no mesmo computador que o servidor de qualidade de dados ou remotamente em um computador separado. Muitas operações no cliente de qualidade de dados são orientadas por assistente para facilidade de uso.
Qualidade de Dados a Funcionalidade de Integração de Serviços e Serviços de Dados Mestre
qualidade de Dados funcionalidade fornecida por Serviços de Qualidade de Dados é construído em um componente do SQL Server Integration Services (SSIS) e em recursos do Master Data Services (MDS) para permitir que você executar processos de qualidade nesses serviços.
componente de limpeza DQS em Serviços de integração
o componente de limpeza DQS em Serviços de integração permite que você execute a limpeza de dados como parte de um pacote de Serviços de integração. Quando o pacote é executado, a limpeza de dados é executada como um arquivo em lote. Esta é uma alternativa para executar um projeto de limpeza no aplicativo cliente de qualidade de dados. Você pode garantir a qualidade de seus dados automaticamente. Você não precisa executar as etapas interativas de um projeto de limpeza de dados no aplicativo cliente de qualidade de dados. Você pode incluir o processo de limpeza de dados em um fluxo de dados que contém outros componentes do Integration Services. Para obter mais informações, consulte transformação de limpeza DQS.
processos de qualidade de dados no Master Data Services
a funcionalidade Data Quality Services foi integrada no Master Data Services (MDS), para que você possa realizar a duplicação de dados de origem e dados mestre no Suplemento Microsoft SQL Server 2014 Master Data Services para Microsoft Excel. Para realizar a correspondência, carregue dados gerenciados pelo MDS em uma planilha do Excel, combine-os com dados não gerenciados pelo MDS e, em seguida, execute a correspondência no Excel. Os componentes do servidor de qualidade de dados devem ser instalados com MDS. Para obter mais informações, consulte correspondência de qualidade de dados no suplemento MDS para Excel.
Leave a Reply