Arquitectura de Datos Empresarial Moderna
Los datos son un activo esencial requerido por todas las empresas para competir de manera efectiva en la economía actual. Sin embargo, el valor de los activos de datos solo se puede obtener cuando se utilizan de forma estratégica, operativa, coherente y precisa en toda la empresa. Hacerlo ha sido un desafío histórico. Las empresas de hoy en día están recurriendo a los datos como servicio (DaaS) como parte de su estrategia de datos en la nube para garantizar altos niveles de SLA, gobernanza de datos, precisión y alta disponibilidad que exigen los clientes y la estrategia empresarial. Para aprovechar al máximo un enfoque DaaS, necesitan contar con una arquitectura de datos moderna.
¿Qué es la arquitectura de datos?
Diseñada por arquitectos de datos, la arquitectura de datos estandariza la forma en que las empresas recopilan, almacenan, transforman, distribuyen y utilizan los datos con el fin de ayudar a los analistas de datos y a las personas de la organización a tomar mejores decisiones basadas en la inteligencia empresarial en tiempo real. La arquitectura de datos es la base para el modelado de datos y la arquitectura de la información, que hacen que los datos sean utilizables y útiles en toda la organización.
Si bien la arquitectura de datos no es nueva, la arquitectura de datos empresarial moderna (o arquitectura de datos moderna) es y ha evolucionado a medida que las empresas se trasladan cada vez más a la nube. Solo la nube permite la velocidad, la escalabilidad y la facilidad de uso necesarias para que la arquitectura de datos moderna sea efectiva. A medida que las empresas se están trasladando a infraestructuras basadas en la nube, su arquitectura de datos también se está transformando.
¿Qué es la arquitectura de datos moderna?
Una arquitectura de datos moderna se centra en alinear los datos con las capacidades impulsadas por la nube. La arquitectura de datos tradicional se construyó a partir de modelos de datos locales que consumían una tonelada de tiempo para el procesamiento y la gestión de datos. Con la infraestructura abstraída por la nube, la arquitectura de datos moderna se centra en hacer que los datos sean tan fáciles de acceder y tan útiles para la empresa y el cliente como sea posible. Facilita la facilidad, la velocidad, la colaboración, el análisis en tiempo real y la consistencia.
Una arquitectura de datos moderna es:
- Diseñado para que los usuarios finales lo consuman. La nube permite a los usuarios finales determinar qué datos necesitan para tomar decisiones empresariales y a los arquitectos de datos diseñar el acceso a los datos que ofrece lo que necesitan.
- Automatizado con canalizaciones de datos y flujos de datos. Nadie tiene tiempo para esperar que el procesamiento de datos sea lento. Con la integración de datos y la nube, las empresas pueden automatizar todo el proceso de gestión de datos para que los datos fluyan de forma fluida y libre en cualquier lugar de la organización que necesiten, al tiempo que mantienen la gobernanza de los datos. La integración de datos es clave para garantizar que cada parte del todo se conecte.
- Curada por AI / ML. La arquitectura de datos empresarial moderna aprovecha el poder de la inteligencia artificial (IA) y el aprendizaje automático (ML) para automatizar el procesamiento de datos, reconocer nuevos tipos de datos, limpiar datos, solucionar problemas de calidad de datos, realizar minería de datos, garantizar el mantenimiento de los estándares de datos y mostrar análisis e información de datos. La IA / ML es clave para la velocidad y precisión de la automatización.
- Escalable para satisfacer demandas impredecibles. Los datos se generan y consumen a tasas extraordinarias, y a medida que las empresas se enfrentan a fluctuaciones en las demandas de los consumidores, necesitan poder escalar los datos hacia arriba y hacia abajo, de forma automática y asequible.
- Compartible para una colaboración de confianza. Los datos compartidos son fundamentales para garantizar que todos trabajen desde la misma fuente de datos de verdad. Los datos compartidos también ayudan a romper los silos departamentales y fomentar una colaboración más fácil y confiable.
- Seguro por diseño. Para la mayoría de las empresas, los datos son su activo más valioso. La arquitectura de datos moderna tiene en cuenta la seguridad de los datos con acceso y autorización de datos controlados, así como el cumplimiento de las leyes y regulaciones de privacidad de datos, como el RGPD y la HIPAA.
Si está creando una arquitectura de datos desde cero en la nube, es fácil crear estas características. Sin embargo, la mayoría de las empresas se encuentran a caballo entre la infraestructura local heredada y la nube y, a menudo, varias nubes. Sus datos residen en varios lugares y, por lo general, están muy aislados. Las migraciones de datos a la nube y las integraciones de datos son una prioridad.
Además de las seis características de una arquitectura de datos moderna, también querrá asegurarse de que su diseño facilite lo siguiente:
- Admite un cambio al autoservicio y múltiples tipos de usuarios (integradores, científicos de datos, líderes de línea de negocio, partes interesadas)
- Permite una empresa hiperconectada (piense en los datos como los nervios que conectan cada parte del cuerpo, transmitiendo información sin problemas según sea necesario)
- Cambia la generación de informes a análisis predictivos y prescriptivos para obtener información en tiempo real, recomendaciones basadas en IA y toma de decisiones en el momento
- A prueba de futuro para nuevas fuentes de datos, aplicaciones posteriores y casos de uso
3 etapas de los datos modernos recorrido empresarial
Debido a que las empresas se están transformando digitalmente y se están desplazando hacia la nube, por lo general se someten a un recorrido por fases para lograr una arquitectura de datos moderna.
Esto se puede dividir en tres etapas principales:
Etapa 1-Local
La mayoría de las empresas tienen sistemas locales, con las herramientas para almacenar y procesar conjuntos de big data y realizar transformaciones complejas. Este entorno es un reto por las siguientes razones:
- Requiere una gran inversión de capital por adelantado para comenzar y una gran inversión en gastos operativos (OpEx) para el personal necesario
- Necesita un conjunto de habilidades especializadas y dedicadas para administrar las herramientas de big data
- Resulta en un tiempo de respuesta lento, incluido el tiempo de espera en la compra, el envío y la instalación del entorno de datos
muchas décadas, y por lo general tienen grandes inversiones en modelos locales. No solo hay inversión financiera, sino que el riesgo de perder datos o desconectar integraciones personalizadas puede ser demasiado grande para una migración completa a la nube. Muchas empresas tienen datos que consideran que deben permanecer en el ámbito de sus propios servidores y, por lo tanto, adoptar un enfoque de nube híbrida.
Etapa 2 — Nube: Nube Privada Virtual (VPC)
A medida que adoptan la nube, la segunda etapa del viaje es “levantar y cambiar”, donde las empresas simplemente trasladan clústeres locales a un proveedor de nube que se ejecuta en una red de nube privada virtual y pueden aprovechar los beneficios de IaaS, como un menor costo. Forrester informa de que las organizaciones que implementan en la nube ahorran entre un 20% y un 60% de los costes de infraestructura en las instalaciones, ya que la mayoría sobreaprovisionan sus servidores y almacenamiento y luego necesitan administrar estos entornos.
Sin embargo, esta etapa todavía tiene algunos desafíos importantes, ya que:
- No hace nada para abordar los desafíos de administrar y mantener el entorno
- Tiene un alto OpEx
- No aborda la brecha del conjunto de habilidades, y las habilidades necesarias para administrar los servicios que se ejecutan en la VPC
- Tiene un tiempo de respuesta lento
- No admite servicios de almacenamiento nativo en la nube
Administrar nubes privadas y locales es complejo, lo que a menudo lleva a las empresas a buscar una mejor manera de administrar el entorno de nube. Esto lleva a migrar a servicios gestionados en la nube.
Etapa 3 — Nube: Big Data as a Service
En esta etapa, las empresas han reconocido los desafíos y los están abordando pasando a servicios administrados en la nube como IBM, Microsoft y Google. Estos servicios gestionados liberan a la empresa de la complejidad de gestionar y mantener los entornos de procesamiento a escala, y reducen el valioso gasto en gastos operativos.
Otras ventajas incluyen:
- Capacidades bajo demanda que utilizan almacenamiento y recursos informáticos solo cuando es necesario, lo que reduce los gastos operativos
- Una forma mucho más sencilla de escalar hacia arriba y hacia abajo a volúmenes de terabytes/Petabytes
- Tiempos de respuesta más rápidos para las necesidades empresariales
Además, las plataformas de big data gestionadas en la nube están diseñadas con servicios de almacenamiento en la nube. Tienen integración nativa con el almacenamiento en la nube, por lo que puede usar el almacenamiento en la nube como un componente de almacenamiento distribuido adecuado para el almacenamiento en lagos de datos.
Hablemos un poco sobre el almacenamiento de datos.
La arquitectura de datos moderna necesita lagos de datos
Un almacén de datos almacena datos estructurados (es decir, de sistemas transaccionales). Está optimizado para analizar datos relacionales, no datos semi / no estructurados. Por lo tanto, antes de escribir desde la fuente de datos al almacén de datos, es necesario definir la estructura y limpiar y transformar los datos. Esto lleva tiempo y hace que sea más difícil obtener datos utilizables a la velocidad que necesita una empresa. Además, con tantos datos nuevos disponibles, el costo del almacenamiento de datos es en realidad muy prohibitivo.
Los data lakes admiten una arquitectura de datos moderna.
A diferencia de un almacén de datos, un lago de datos es una colección de todos los tipos de datos: estructurados, semiestructurados y no estructurados. Los datos se almacenan en su formato raw sin necesidad de ninguna estructura o esquema. De hecho, no es necesario definir la estructura de datos cuando se capturan, solo cuando se leen. Dado que los lagos de datos son altamente escalables, admiten volúmenes de datos más grandes a un precio más barato. Y, con un lago de datos, puede almacenar datos de fuentes relacionales (como bases de datos relacionales) y de fuentes no relacionales (dispositivos/ máquinas de IoT, redes sociales, etc.).) sin ETL (extraer, transformar, cargar), lo que hace que los datos estén disponibles para el análisis mucho más rápido.
4 características de una arquitectura de datos empresarial moderna
Hay cuatro características principales de una arquitectura de datos empresarial moderna: 1) el ciclo de datos, 2) el almacenamiento de datos, 3) una plataforma de integración y 4) la entrega de datos.
Ciclo de datos
Las empresas encuentran constantemente nuevas fuentes de datos y necesitan capturar datos antes de conocer el caso de uso eventual. Los datos capturados se extraen para completar casos de uso conocidos, así como para casos de uso indefinidos futuros. Luego, los datos entrantes deben ajustarse a los estándares corporativos para garantizar la gobernanza, la calidad, la coherencia, el cumplimiento normativo y la precisión para los consumidores descendentes, independientemente de sus necesidades comerciales, su conjunto de habilidades o su comprensión de la arquitectura de datos. Una vez que los datos se han capturado y se han ajustado a los estándares corporativos, los servicios de refinamiento preparan los datos para su eventual aplicación posterior y/o casos de uso.
Almacenamiento de datos
Los datos se almacenan en el lago de datos. Piense en el lago de datos como una fábrica de datos moderna, y dentro del lago hay “contenedores” para varias etapas de procesamiento de datos. El primer contenedor es el contenedor de aterrizaje, donde se reciben datos sin procesar entrantes independientemente de su forma, transporte o fuente. Aquí es donde van los datos sin limpiar. Las decisiones sobre qué datos en bruto conservar se toman aquí. Los datos que se conservan se mueven al contenedor conformado.
El contenedor conformado es donde se limpian los datos en bruto y se garantiza la calidad de los datos. El contenedor conforme garantiza que la empresa esté trabajando con un conjunto de datos coherente que cumpla con los estándares.
A continuación, tenemos el contenedor refinado que prepara los datos para su objetivo de entrega final, y puede haber subconjuntos de refinerías dependiendo de los casos de uso. Una vez que los datos se refinan, se preparan para su entrega a su destino. Después de la entrega, se puede mover a un área de trabajo para que los científicos de datos la utilicen, archivarse para su almacenamiento a largo plazo o eliminarse.
Plataforma de integración de datos
La plataforma de integración toma datos de diferentes fuentes y los combina para proporcionar una vista unificada. En una arquitectura de datos moderna, la plataforma de integración debe ser lo suficientemente flexible para admitir todas las fuentes y objetivos de datos requeridos, así como los servicios de datos en cada etapa del ciclo de datos. Debe ser capaz de admitir datos con y sin esquema y administrar metadatos. Además, debe ser capaz de gestionar la integración y el procesamiento necesarios para:
- Captura de datos de alta velocidad, variedad y volumen
- Integración de aplicaciones de baja latencia
- Procesamiento de conformidad de datos de alto volumen
- Integración de datos desde la entrega hasta el destino
- Consumo de API (esencial para ecosistemas B2B)
Además, los escenarios anteriores deben hacerse accesibles a una amplia comunidad de usuarios, desde profesionales de TI altamente cualificados hasta usuarios empresariales que necesitan acelerar un proyecto de línea de negocio en respuesta a un entorno empresarial que cambia rápidamente. En la empresa moderna, los analistas y científicos de datos están llamados a responder preguntas estratégicas y desbloquear la innovación a un ritmo sin precedentes y simplemente no tienen el lujo de depender de una organización de TI para que la información críticamente necesaria esté disponible. El autoservicio ya no es un lujo o comodidad, sino que ahora es un requisito crítico para la misión. Poder crear canalizaciones de datos rápidamente es esencial para mantener el negocio en movimiento a la velocidad que necesita en una era digital.
Entrega de datos
Por último, los datos deben entregarse a sus objetivos adecuados. La accesibilidad segura de los datos es parte integral de la arquitectura de datos moderna. La gobernanza, la seguridad, el control de acceso basado en roles (RBAC), el SLA, la limitación y el análisis de uso son fundamentales para entregar datos a los usuarios previstos, ya sean empleados internos o socios externos.
Las empresas que adoptan un enfoque de entrega de datos como servicio garantizan los niveles más altos de disponibilidad, accesibilidad y experiencia del cliente sin el gasto de simulacros de incendio de TI constantes o tener que comprometer la seguridad o la propiedad intelectual interna. Los datos se entregan a sus destinos finales, que incluirán data marts, aplicaciones, archivos, estanques de datos, bancos de trabajo de ciencia de datos, soluciones habilitadas para IA y ecosistemas API.
Construya una arquitectura de datos moderna y robusta
Una arquitectura de datos empresarial moderna y robusta garantizará que las empresas tengan la accesibilidad, la velocidad, la flexibilidad y la confiabilidad para optimizar cada fuente de datos y usarla para tomar mejores decisiones comerciales. SnapLogic proporciona integración de datos a través de su plataforma de integración inteligente como servicio, ayudando a las empresas a crear arquitecturas de datos modernas para preparar sus necesidades de datos para el futuro.
Leave a Reply