Modern Enterprise Data Architecture
os dados são um ativo essencial exigido por todas as empresas para competir efetivamente na economia atual. No entanto, o valor dos ativos de dados só pode ser realizado quando eles são usados estrategicamente, operacionalmente, consistentemente e com precisão em todo o negócio. Fazer isso tem sido historicamente desafiador. As empresas de hoje estão se voltando para data-as-a-service (DAAS) como parte de sua estratégia de dados em nuvem para garantir altos níveis de SLA, governança de dados, precisão e alta disponibilidade exigidos pelos clientes e estratégia de negócios. Para alavancar totalmente uma abordagem DaaS, eles precisam ter uma arquitetura de dados moderna em vigor.
o que é arquitetura de dados?Projetado por arquitetos de dados, a arquitetura de dados padroniza como as empresas coletam, armazenam, transformam, distribuem e usam dados com o objetivo de ajudar analistas de dados e pessoas na organização a tomar melhores decisões com base em Inteligência de negócios em tempo real. A arquitetura de dados é a base para modelagem de dados e arquitetura de informação, que tornam os dados utilizáveis e úteis em toda a organização.Embora a arquitetura de dados não seja nova, a arquitetura moderna de dados corporativos (ou arquitetura de dados moderna) é e evoluiu à medida que as empresas se movem cada vez mais para a nuvem. Somente a nuvem permite a velocidade, escalabilidade e facilidade de uso necessárias para tornar a arquitetura de dados moderna eficaz. À medida que as empresas estão migrando para infraestruturas baseadas em nuvem, sua arquitetura de dados também está sendo transformada.
o que é arquitetura de dados moderna?
uma arquitetura de dados moderna se concentra em alinhar dados aos recursos alimentados pela nuvem. A arquitetura de dados tradicional foi construída em modelos de dados locais que consumiram muito tempo para processamento de dados e gerenciamento de dados. Com a infraestrutura abstraída pela nuvem, a arquitetura de dados moderna se concentra em tornar os dados o mais fácil de acessar e útil possível para o negócio e o cliente. Facilita facilidade, velocidade, colaboração, análise em tempo real e consistência.
uma arquitetura de dados moderna é:
- construído para usuários finais consumirem. A nuvem permite que os usuários finais determinem quais dados precisam para decisões de negócios e arquitetos de dados para projetar o acesso a dados que ofereça o que precisam.
- automatizado com pipelines de dados e fluxos de dados. Ninguém tem tempo para esperar pelo processamento lento de dados. Com a integração de nuvem e dados, as empresas podem automatizar todo o processo de gerenciamento de dados para que os dados fluam sem problemas e livremente em todos os lugares que precisam ir na organização, mantendo a governança de dados. A integração de dados é fundamental para garantir que todas as partes do todo se conectem.
- com curadoria de AI / ML. A arquitetura de dados corporativos moderna aproveita o poder da Inteligência artificial (IA) e do aprendizado de máquina (ML) para automatizar o processamento de dados, reconhecer novos tipos de dados, Limpar dados, corrigir problemas de qualidade de dados, realizar mineração de dados, garantir que os padrões de dados sejam mantidos e análise e insights de dados superficiais. AI / ML é a chave para a velocidade e precisão por trás da automação.
- escalável para atender a demandas imprevisíveis. Os dados são gerados e consumidos a taxas extraordinárias e, à medida que as empresas lidam com as flutuações nas demandas dos consumidores, precisam ser capazes de aumentar e diminuir os dados de forma automática e acessível.
- compartilhável para Colaboração confiável. Os dados compartilhados são essenciais para garantir que todos trabalhem a partir da mesma fonte de dados da verdade. Os dados compartilhados também ajudam a quebrar silos departamentais e promover uma colaboração mais fácil e confiável.
- seguro por design. Para a maioria das empresas, os dados são seu ativo mais valioso. A arquitetura de dados moderna leva em consideração a segurança de dados com acesso e autorização controlados de dados, bem como a conformidade com as leis e regulamentos de privacidade de dados, como GDPR e HIPAA.
se você estiver criando uma arquitetura de dados do zero na nuvem, é fácil criar essas características. Mas a maioria das empresas está abrangendo A infraestrutura local legada com nuvem e, muitas vezes, com várias nuvens. Seus dados residem em vários lugares e normalmente são fortemente isolados. Migrações de dados para a nuvem e integrações de dados são uma prioridade.
além das seis características de uma arquitetura de dados moderna, você também desejará garantir que seu design facilite o seguinte:
- Suporta um movimento self-service e diversos tipos de usuários (integradores, cientistas de dados, linha de líderes empresariais, partes interessadas)
- Permite que um hiper-conectado empresa (pense de dados como os nervos conectando-se a cada parte do corpo, sem problemas de transmissão de informações, conforme necessário)
- Turnos de relatórios para preditiva e prescritiva do google analytics em tempo real insights, AI-impulsionado recomendações, e em um momento de tomada de decisão
- prontas para o Futuro, para as novas fontes de dados, a jusante, aplicações e casos de uso
3 fases do moderno dados como as empresas estão se transformando digitalmente e mudando para a nuvem, elas normalmente passam por uma jornada em fases para alcançar uma arquitetura de dados moderna.
isso pode ser dividido em três etapas principais:
Estágio 1 — no local
a maioria das empresas possui sistemas locais, com as ferramentas para armazenar e processar conjuntos de big data e realizar transformações complexas. Este ambiente é desafiador pelas seguintes razões:
- requer um grande investimento de capital inicial para começar e um grande investimento em despesas operacionais (OpEx) para o pessoal necessário
- Ele precisa de uma empresa especializada, dedicada conjunto de competências para gerir as grandes ferramentas de dados
- resulta em um tempo de resposta lento, incluindo o lead time de compra, transporte, e instalação do ambiente de dados
Empresas têm operado como este, por muitas décadas, e têm normalmente pesados investimentos na premissa de modelos. Não só há investimento financeiro, mas o risco de perder dados ou desconectar integrações personalizadas pode ser ótimo demais para uma migração completa da nuvem. Muitas empresas têm dados que sentem que precisam permanecer no alcance de seus próprios servidores e, portanto, adotar uma abordagem de nuvem híbrida.
Fase 2 — Nuvem: Nuvem Privada Virtual(VPC)
à medida que adotam a nuvem, o segundo estágio da jornada é “lift and shift”, onde as empresas simplesmente movem clusters locais para um provedor de nuvem em execução em uma rede virtual de nuvem privada e podem aproveitar os benefícios do IaaS, como menor custo. A Forrester relata que as organizações que implantam na nuvem economizam 20-60% em relação ao custo da infraestrutura local, já que a maioria superprovisiona seus servidores e armazenamento e precisa gerenciar esses ambientes.
no entanto, esta fase ainda tem alguns grandes desafios, uma vez que:
- não Faz nada para resolver os desafios de gerenciar e manter o ambiente
- Tem alta OpEx
- não aborda o conjunto de habilidades fosso, e as habilidades necessárias para gerenciar os serviços em execução no VPC
- Tem um tempo de resposta lento
- não oferece suporte nativo serviços de armazenamento em nuvem
a Gestão local e nuvens privadas é complexo, o que muitas vezes leva as empresas a procurar uma maneira melhor de gerenciar o ambiente de nuvem. Isso leva à mudança para serviços de nuvem gerenciados.
Estágio 3 — Nuvem: Big Data como um serviço
nesta fase, as empresas reconheceram os desafios e estão abordando-os, movendo-se para serviços gerenciados em nuvem, como IBM, Microsoft e Google. Esses serviços gerenciados liberam a empresa da complexidade de gerenciar e manter os ambientes de processamento em escala e reduzem os gastos valiosos com OpEx.
outras vantagens incluem:
- Sobre-demanda de recursos que utilizam o sistema de armazenamento e recursos de computação apenas quando necessário, reduzindo assim OpEx
- Uma maneira muito mais simples para escalar para cima e para baixo para Terabyte/Petabyte volumes
- tempos de resposta mais rápidos para as necessidades de negócios
Além disso, cloud gerenciado grandes plataformas de dados são projetados com serviços de armazenamento em nuvem. Eles têm integração nativa com o armazenamento em nuvem, para que você possa usar o armazenamento em nuvem como um componente de armazenamento distribuído adequado para armazenamento em Data lake.
vamos falar um pouco sobre armazenamento de dados.
a arquitetura de dados moderna precisa de data lakes
um data warehouse armazena dados estruturados (ou seja, de sistemas transacionais). É otimizado para analisar dados relacionais, não dados semi / não estruturados. Portanto, antes de escrever da fonte de dados para o data warehouse, a estrutura precisa ser definida e os dados precisam ser limpos e transformados. Isso leva tempo e torna mais difícil obter dados utilizáveis na velocidade que uma empresa precisa. Além disso, com tantos dados novos disponíveis, o custo do armazenamento de dados é realmente muito proibitivo.
data lakes suportam arquitetura de dados moderna.Ao contrário de um data warehouse, um Data lake é uma coleção de todos os tipos de dados: estruturados, semiestruturados e não estruturados. Os dados são armazenados em seu formato bruto sem a necessidade de qualquer estrutura ou esquema. Na verdade, você não precisa definir a estrutura de dados quando ela é capturada, apenas quando é lida. Como os data lakes são altamente escaláveis, eles suportam volumes maiores de dados a um preço mais barato. E, com um data lake, você pode armazenar dados de fontes relacionais (como bancos de dados relacionais) e de fontes não relacionais (dispositivos/ máquinas IoT, mídias sociais, etc.) sem ETL (extrair, transformar, carregar), o que torna os dados disponíveis para análise muito mais rápidos.
4 características de uma empresa moderna arquitetura de dados
Existem quatro principais características de uma empresa moderna arquitetura de dados: 1) o ciclo de dados, 2) armazenamento de dados, 3) uma plataforma de integração, e 4) os dados de entrega.
ciclo de dados
as empresas encontram constantemente novas fontes de dados e precisam capturar dados antes de saberem o eventual caso de uso. Os dados capturados são extraídos para preencher casos de uso conhecidos, bem como mantidos para futuros casos de uso indefinidos. Em seguida, os dados de entrada precisam ser conformes aos padrões corporativos para garantir governança, qualidade, consistência, conformidade regulatória e precisão para os consumidores downstream, independentemente de sua necessidade Comercial, Conjunto de habilidades ou compreensão da arquitetura de dados. Uma vez que os dados foram capturados e conformados aos padrões corporativos, os Serviços de refinamento preparam os dados para seus eventuais casos de aplicação e/ou uso a jusante.
armazenamento de dados
os dados são armazenados no data lake. Pense no data lake Como uma fábrica de dados moderna e, dentro do lago, há “contêineres” para vários estágios de processamento de dados. O primeiro contêiner é o contêiner de pouso, onde os dados brutos de entrada são recebidos independentemente de sua forma, transporte ou fonte. É aqui que vão os dados não limpos. Decisões sobre quais dados brutos manter são tomadas aqui. Os dados que são mantidos são movidos para o contêiner conformado.
o recipiente conformado é onde os dados brutos são limpos e a qualidade dos dados é assegurada. O contêiner conform garante que a empresa esteja trabalhando com um conjunto de dados consistente que esteja em conformidade com os padrões.
em seguida, temos o contêiner refinado que prepara os dados para sua eventual meta de entrega, e pode haver subconjuntos de refinarias dependendo dos casos de uso. Uma vez que os dados são refinados, é encenado para entrega ao seu destino. Após a entrega, ele pode ser movido para uma área de trabalho para os cientistas de dados usarem, arquivados para armazenamento de longo prazo ou excluídos.
plataforma de integração de dados
a plataforma de integração coleta dados de diferentes fontes e os combina para fornecer uma visualização unificada. Em uma arquitetura de dados moderna, a plataforma de integração precisa ser flexível o suficiente para suportar todas as fontes e destinos de dados necessários, bem como os Serviços de dados em cada estágio do ciclo de dados. Ele precisa ser capaz de suportar dados com e sem esquema e gerenciar metadados. Além disso, ele precisa ser capaz de lidar com a integração e o processamento necessários para:
- de Alta velocidade, a variedade e o volume de captura de dados
- Baixa latência de integração de aplicações
- Alto volume de dados de conformidade de processamento
- integração de Dados a partir da entrega ao destino
- API de consumo (essencial para o B2B ecossistemas)
além disso, os cenários acima precisam ser acessíveis a uma ampla comunidade de usuários que vão do altamente qualificados profissionais de TI para usuários de negócios que necessitam para acelerar uma linha de negócio do projeto, em resposta a uma rápida mudança de ambiente de negócios. Na empresa moderna, analistas e cientistas de dados estão sendo chamados para responder a questões estratégicas e desbloquear a inovação a um ritmo sem precedentes e simplesmente não têm o luxo de depender de uma organização de TI para fazer o criticamente as informações necessárias disponíveis. O autoatendimento não é mais um luxo ou conveniência, mas agora é um requisito de missão crítica. Ser capaz de construir rapidamente pipelines de dados é essencial para manter os negócios em movimento na velocidade que precisa em uma era digital.
entrega de dados
por último, os dados precisam ser entregues aos seus alvos apropriados. A acessibilidade segura de dados é parte integrante da arquitetura de dados moderna. Governança, Segurança, Controle de acesso baseado em função (RBAC), SLA, estrangulamento e análise de uso são fundamentais para fornecer dados aos usuários pretendidos, sejam funcionários internos ou parceiros externos.As empresas que adotam uma abordagem de entrega de dados como serviço garantem os mais altos níveis de disponibilidade, acessibilidade e experiência do cliente sem a despesa de exercícios constantes de incêndio de TI ou a necessidade de comprometer a segurança ou a propriedade intelectual interna. Os dados são entregues em seus destinos finais, que incluirão data marts, aplicativos, arquivos, Data ponds, Data science workbenches, soluções habilitadas para IA e API-ecossistemas.
construa uma arquitetura de dados moderna e robusta
uma arquitetura de dados corporativa moderna e robusta garantirá que as empresas tenham acessibilidade, velocidade, flexibilidade e confiabilidade para otimizar todas as fontes de dados e usá-las para tomar melhores decisões de negócios. O SnapLogic fornece integração de dados por meio de sua plataforma de integração inteligente como serviço, ajudando as empresas a construir arquiteturas de dados modernas para futuras necessidades de dados.
Leave a Reply