Architecture de données d’entreprise moderne
Les données sont un atout essentiel dont chaque entreprise a besoin pour être compétitive dans l’économie d’aujourd’hui. Pourtant, la valeur des actifs de données ne peut être réalisée que lorsqu’ils sont utilisés de manière stratégique, opérationnelle, cohérente et précise dans l’ensemble de l’entreprise. Cela a toujours été difficile. Les entreprises d’aujourd’hui se tournent vers les données en tant que service (DaaS) dans le cadre de leur stratégie de données cloud pour garantir des niveaux élevés de SLA, de gouvernance des données, de précision et de haute disponibilité exigés par les clients et la stratégie commerciale. Pour tirer pleinement parti d’une approche DaaS, ils doivent disposer d’une architecture de données moderne.
Qu’est-ce que l’architecture de données ?
Conçue par des architectes de données, l’architecture de données normalise la manière dont les entreprises collectent, stockent, transforment, distribuent et utilisent les données dans le but d’aider les analystes de données et les membres de l’organisation à prendre de meilleures décisions basées sur la business intelligence en temps réel. L’architecture des données est la base de la modélisation des données et de l’architecture de l’information, qui rendent les données utilisables et utiles dans toute l’organisation.
Bien que l’architecture de données ne soit pas nouvelle, l’architecture de données d’entreprise moderne (ou architecture de données moderne) est et a évolué à mesure que les entreprises se déplacent de plus en plus vers le cloud. Seul le cloud offre la vitesse, l’évolutivité et la facilité d’utilisation nécessaires pour rendre l’architecture de données moderne efficace. Alors que les entreprises se tournent vers des infrastructures basées sur le cloud, leur architecture de données est également en train de se transformer.
Qu’est-ce que l’architecture de données moderne ?
Une architecture de données moderne se concentre sur l’alignement des données sur les capacités alimentées par le cloud. L’architecture de données traditionnelle a été construite sur des modèles de données sur site qui ont pris une tonne de temps pour le traitement et la gestion des données. Avec l’infrastructure soustraite par le cloud, l’architecture de données moderne vise à rendre les données aussi faciles d’accès et aussi utiles que possible pour l’entreprise et le client. Il facilite la facilité, la rapidité, la collaboration, l’analyse en temps réel et la cohérence.
Une architecture de données moderne est:
- Conçu pour les utilisateurs finaux à consommer. Le cloud permet aux utilisateurs finaux de déterminer les données dont ils ont besoin pour prendre des décisions commerciales et aux architectes de données de concevoir un accès aux données qui leur fournisse ce dont ils ont besoin.
- Automatisé avec des pipelines de données et des flux de données. Personne n’a le temps d’attendre un traitement lent des données. Grâce à l’intégration du cloud et des données, les entreprises peuvent automatiser l’ensemble du processus de gestion des données afin que les données circulent librement et en douceur partout où elles doivent aller dans l’organisation, tout en maintenant la gouvernance des données. L’intégration des données est essentielle pour s’assurer que chaque partie de l’ensemble se connecte.
- Organisé par AI/ML. L’architecture de données d’entreprise moderne exploite la puissance de l’intelligence artificielle (IA) et de l’apprentissage automatique (ML) pour automatiser le traitement des données, reconnaître de nouveaux types de données, nettoyer les données, résoudre les problèmes de qualité des données, effectuer l’exploration de données, s’assurer que les normes de données sont maintenues et analyser et analyser les données. L’IA/ML est la clé de la rapidité et de la précision de l’automatisation.
- Évolutif pour répondre à des demandes imprévisibles. Les données sont générées et consommées à des taux extraordinaires et, à mesure que les entreprises font face aux fluctuations des demandes des consommateurs, elles doivent être en mesure de faire évoluer les données de manière automatique et abordable.
- Partageable pour une collaboration de confiance. Les données partagées sont essentielles pour garantir que tout le monde travaille à partir de la même source de données véridiques. Les données partagées aident également à briser les silos ministériels et à favoriser une collaboration plus facile et plus fiable.
- Sécurisé par conception. Pour la plupart des entreprises, les données sont leur atout le plus précieux. L’architecture de données moderne prend en compte la sécurité des données avec un accès et une autorisation contrôlés des données, ainsi que le respect des lois et réglementations sur la confidentialité des données telles que GDPR et HIPAA.
Si vous créez une architecture de données à partir de zéro dans le cloud, il est facile de créer ces caractéristiques. Mais la plupart des entreprises chevauchent l’infrastructure sur site héritée avec le cloud, et souvent le multi-cloud. Leurs données résident à plusieurs endroits et sont généralement fortement cloisonnées. Les migrations de données vers le cloud et les intégrations de données sont une priorité.
En plus des six caractéristiques d’une architecture de données moderne, vous voudrez également vous assurer que votre conception facilite les tâches suivantes:
- Prend en charge le passage au libre-service et à plusieurs types d’utilisateurs (intégrateurs, scientifiques des données, chefs d’entreprise, parties prenantes)
- Permet une entreprise hyper-connectée (considérez les données comme les nerfs reliant chaque partie du corps, transmettant de manière transparente les informations selon les besoins)
- Déplace les rapports vers des analyses prédictives et prescriptives pour des informations en temps réel, des recommandations basées sur l’IA et une prise de décision immédiate
- À l’épreuve du temps pour les nouvelles sources de données, les applications en aval et les cas d’utilisation
3 étapes des données modernes parcours de l’entreprise
Étant donné que les entreprises se transforment numériquement et se déplacent vers le cloud, elles effectuent généralement un parcours par étapes pour parvenir à une architecture de données moderne.
Cela peut être divisé en trois étapes principales :
Étape 1 — Sur site
La plupart des entreprises disposent de systèmes sur site, avec les outils nécessaires pour stocker et traiter des ensembles de données volumineuses et effectuer des transformations complexes. Cet environnement est difficile pour les raisons suivantes:
- Cela nécessite un investissement important en capital pour démarrer et un investissement important en dépenses d’exploitation (OpEx) pour le personnel nécessaire
- Cela nécessite un ensemble de compétences spécialisées et dédiées pour gérer les outils Big data
- Cela se traduit par un temps de réponse lent, y compris les délais d’achat, d’expédition et d’installation de l’environnement de données
Les entreprises ont fonctionné comme cela pour plusieurs décennies, et ont généralement de lourds investissements dans des modèles sur site. Non seulement il y a un investissement financier, mais le risque de perdre des données ou de déconnecter des intégrations personnalisées peut être trop important pour une migration complète vers le cloud. De nombreuses entreprises disposent de données dont elles estiment qu’elles ont besoin pour rester dans la compétence de leurs propres serveurs et adoptent donc une approche de cloud hybride.
Étape 2 – Nuage: Cloud privé virtuel (VPC)
À mesure qu’elles adoptent le cloud, la deuxième étape du parcours est ” lift and shift “, où les entreprises déplacent simplement des clusters sur site vers un fournisseur de cloud fonctionnant dans un réseau de cloud privé virtuel et peuvent tirer parti des avantages IaaS, tels que des coûts moindres. Selon Forrester, les organisations qui déploient dans le cloud économisent de 20 à 60 % par rapport aux coûts d’infrastructure sur site, car la plupart surprovisaient leurs serveurs et leur stockage et devaient ensuite gérer ces environnements.
Cependant, cette étape présente encore des défis majeurs, car elle:
- Ne fait rien pour relever les défis de la gestion et de la maintenance de l’environnement
- A une OpEx élevée
- Ne comble pas l’écart de compétences et les compétences requises pour gérer les services exécutés dans le VPC
- A un temps de réponse lent
- Ne prend pas en charge les services de stockage cloud natifs
La gestion des clouds sur site et privés est complexe, ce qui conduit souvent les entreprises à rechercher un meilleur moyen de gérer l’environnement cloud. Cela conduit à passer à des services infonuagiques gérés.
Étape 3 – Nuage: Le Big Data en tant que service
À ce stade, les entreprises ont reconnu les défis et y répondent en passant à des services gérés dans le cloud tels qu’IBM, Microsoft et Google. Ces services gérés libèrent l’entreprise de la complexité de la gestion et de la maintenance des environnements de traitement à grande échelle, et réduisent les dépenses d’exploitation précieuses.
Les autres avantages incluent:
- Capacités à la demande qui utilisent des ressources de stockage et de calcul uniquement en cas de besoin, réduisant ainsi les OpEx
- Un moyen beaucoup plus simple de monter et descendre à des volumes de téraoctets / pétaoctets
- Temps de réponse plus rapides pour les besoins de l’entreprise
De plus, les plates-formes Big Data gérées dans le cloud sont conçues avec des services de stockage en nuage. Ils ont une intégration native avec le stockage en nuage, de sorte que vous pouvez utiliser le stockage en nuage en tant que composant de stockage distribué adapté au stockage de lac de données.
Parlons un peu du stockage de données.
L’architecture de données moderne a besoin de lacs de données
Un entrepôt de données stocke des données structurées (c’est-à-dire provenant de systèmes transactionnels). Il est optimisé pour analyser des données relationnelles, pas des données semi/non structurées. Ainsi, avant d’écrire de la source de données à l’entrepôt de données, la structure doit être définie et les données doivent être nettoyées et transformées. Cela prend du temps et rend plus difficile l’obtention de données utilisables à la vitesse dont une entreprise a besoin. De plus, avec tant de nouvelles données disponibles, le coût de l’entreposage des données est en fait très prohibitif.
Les lacs de données prennent en charge l’architecture de données moderne.
Contrairement à un entrepôt de données, un lac de données est une collection de tous les types de données: structuré, semi-structuré et non structuré. Les données sont stockées dans leur format brut sans avoir besoin de structure ou de schéma. En fait, vous n’avez pas besoin de définir la structure de données lorsqu’elle est capturée, uniquement lorsqu’elle est lue. Parce que les lacs de données sont hautement évolutifs, ils prennent en charge de plus grands volumes de données à un prix moins cher. Et, avec un lac de données, vous pouvez stocker des données provenant de sources relationnelles (comme des bases de données relationnelles) et de sources non relationnelles (appareils / machines IoT, médias sociaux, etc.) sans ETL (extract, transform, load), ce qui rend les données disponibles pour l’analyse beaucoup plus rapides.
4 caractéristiques d’une architecture de données d’entreprise moderne
Il existe quatre caractéristiques principales d’une architecture de données d’entreprise moderne: 1) le cycle de données, 2) le stockage de données, 3) une plate-forme d’intégration et 4) la livraison de données.
Cycle de données
Les entreprises rencontrent constamment de nouvelles sources de données et doivent capturer des données avant de connaître le cas d’utilisation éventuel. Les données capturées sont extraites pour remplir des cas d’utilisation connus et conservées pour de futurs cas d’utilisation non définis. Ensuite, les données entrantes doivent être conformes aux normes de l’entreprise pour garantir la gouvernance, la qualité, la cohérence, la conformité réglementaire et la précision pour les consommateurs en aval, quels que soient leurs besoins commerciaux, leurs compétences ou leur compréhension de l’architecture des données. Une fois que les données ont été saisies et conformes aux normes de l’entreprise, les services de perfectionnement préparent les données pour leur application et / ou cas d’utilisation éventuels en aval.
Stockage des données
Les données sont stockées dans le lac de données. Considérez le lac de données comme une usine de données moderne, et dans le lac se trouvent des “conteneurs” pour différentes étapes du traitement des données. Le premier conteneur est le conteneur d’atterrissage, où les données brutes entrantes sont reçues indépendamment de leur forme, de leur transport ou de leur source. C’est là que vont les données non nettoyées. Les décisions sur les données brutes à conserver sont prises ici. Les données conservées sont déplacées vers le conteneur conforme.
Le conteneur conforme est l’endroit où les données brutes sont nettoyées et où la qualité des données est garantie. Le conteneur conform garantit que l’entreprise travaille avec un ensemble de données cohérent et conforme aux normes.
Ensuite, nous avons le conteneur affiné qui prépare les données pour sa cible de livraison éventuelle, et il peut y avoir des sous-ensembles de raffineries selon les cas d’utilisation. Une fois les données affinées, elles sont mises en scène pour être livrées à leur destination. Après la livraison, il peut être déplacé vers une zone de travail à utiliser par les scientifiques des données, archivé pour un stockage à long terme ou supprimé.
Plate-forme d’intégration de données
La plate-forme d’intégration prend des données provenant de différentes sources et les combine pour fournir une vue unifiée. Dans une architecture de données moderne, la plate-forme d’intégration doit être suffisamment flexible pour prendre en charge toutes les sources et cibles de données requises, ainsi que les services de données à chaque étape du cycle de données. Il doit pouvoir prendre en charge les données avec et sans schéma et gérer les métadonnées. De plus, il doit être capable de gérer l’intégration et le traitement requis pour:
- Capture de données à grande vitesse, variété et volume
- Intégration d’applications à faible latence
- Traitement de conformité de données à grand volume
- Intégration de données de la livraison à la cible
- Consommation d’API (essentielle pour les écosystèmes B2B)
En outre, les scénarios ci-dessus doivent être rendus accessibles à une large communauté d’utilisateurs allant des professionnels de l’informatique hautement qualifiés aux utilisateurs professionnels ayant besoin d’accélérer un projet de secteur d’activité en réponse à un environnement commercial en évolution rapide. Dans l’entreprise moderne, les analystes et les data scientists sont appelés à répondre à des questions stratégiques et à débloquer l’innovation à un rythme sans précédent et n’ont tout simplement pas le luxe de dépendre d’une organisation informatique pour mettre à disposition les informations indispensables. Le libre-service n’est plus un luxe ou une commodité, mais est désormais une exigence essentielle à la mission. Il est essentiel de pouvoir créer rapidement des pipelines de données pour que l’entreprise évolue à la vitesse dont elle a besoin à l’ère numérique.
Livraison des données
Enfin, les données doivent être livrées à leurs cibles appropriées. L’accessibilité sécurisée des données fait partie intégrante de l’architecture de données moderne. La gouvernance, la sécurité, le contrôle d’accès basé sur les rôles (RBAC), le SLA, la limitation et les analyses d’utilisation sont tous essentiels pour fournir des données à ses utilisateurs cibles, qu’il s’agisse d’employés internes ou de partenaires externes.
Les entreprises qui adoptent une approche de fourniture de données en tant que service garantissent les niveaux les plus élevés de disponibilité, d’accessibilité et d’expérience client sans avoir à dépenser des exercices d’incendie informatiques constants ni à compromettre la sécurité ou la propriété intellectuelle interne. Les données sont livrées à leurs destinations finales, qui comprendront des magasins de données, des applications, des fichiers, des bassins de données, des ateliers de science des données, des solutions compatibles avec l’IA et des écosystèmes API.
Construire une architecture de données moderne et robuste
Une architecture de données d’entreprise moderne et robuste garantira aux entreprises l’accessibilité, la rapidité, la flexibilité et la fiabilité nécessaires pour optimiser chaque source de données et l’utiliser pour prendre de meilleures décisions commerciales. SnapLogic fournit l’intégration des données via sa plate-forme d’intégration intelligente en tant que service, aidant les entreprises à créer des architectures de données modernes pour répondre à leurs besoins de données à l’épreuve du temps.
Leave a Reply