Qu'est-ce qu'un lac de données ?
Un lac de donnĂ©es est un rĂ©fĂ©rentiel centralisĂ© qui vous permet de stocker toutes vos donnĂ©es structurĂ©es et non structurĂ©es Ă n'importe quelle Ă©chelle. Vous pouvez stocker vos donnĂ©es telles quelles, sans avoir Ă les structurer au prĂ©alable, et exĂ©cuter diffĂ©rents types d'analyses â tableaux de bord et visualisations, traitement du Big Data, analyse en temps rĂ©el, machine learning, etc. â pour prendre de meilleures dĂ©cisions.
Pourquoi avez-vous besoin d'un lac de données ?
Les organisations qui gĂ©nĂšrent avec succĂšs de la valeur commerciale Ă partir de leurs donnĂ©es surpassent largement leurs pairs. Une enquĂȘte de 451 Research a montrĂ© que plus de la moitiĂ© des entreprises interrogĂ©es ont mis en place un lac de donnĂ©es aujourdâhui, et 22 % dâentre elles ont indiquĂ© quâelles prĂ©voyaient dâen crĂ©er un dans les 36 mois. Les entreprises qui mettent en Ćuvre des architectures de donnĂ©es modernes, y compris des lacs de donnĂ©es, ont dĂ©montrĂ© des avantages mesurables en termes dâefficacitĂ© opĂ©rationnelle et de croissance des revenus. Ces leaders utilisent lâanalytique avancĂ©e, lâintelligence artificielle et de grands modĂšles de langage provenant de diverses sources de donnĂ©es, notamment des flux en temps rĂ©el, des capteurs IoT, des rĂ©seaux sociaux et des donnĂ©es dâinteraction avec les clients. Cette stratĂ©gie de donnĂ©es complĂšte leur permet de prendre plus rapidement des dĂ©cisions fondĂ©es sur les donnĂ©es, de personnaliser lâexpĂ©rience client, dâoptimiser les opĂ©rations grĂące Ă la maintenance prĂ©dictive et dâidentifier de nouvelles opportunitĂ©s de revenus avant leurs concurrents.
Les éléments essentiels d'une solution de lac de données et d'analyse
Lorsque les entreprises créent des lacs de données et une plateforme d'analyse, elles doivent prendre en compte un certain nombre de fonctionnalités clés notamment :
Déplacement de données
Les lacs de données vous permettent d'importer n'importe quelle quantité de données pouvant venir en temps réel. Les données sont collectées à partir de plusieurs sources et déplacées dans le lac de données dans leur format d'origine. Ce processus vous permet de mettre à l'échelle des données de toute taille, tout en gagnant du temps lors de la définition des structures de données, du schéma et des transformations.
Stockage et archivage des données en toute sécurité
Les lacs de donnĂ©es vous permettent de stocker des donnĂ©es relationnelles telles que des bases de donnĂ©es opĂ©rationnelles et des donnĂ©es provenant d'applications mĂ©tier, et des donnĂ©es non relationnelles telles que des applications mobiles, des appareils IoT et des rĂ©seaux sociaux. Ils vous permettent Ă©galement de comprendre quelles sont les donnĂ©es du lac grĂące Ă l'exploration, au catalogage et Ă l'indexation des donnĂ©es. Enfin, les donnĂ©es doivent ĂȘtre sĂ©curisĂ©es pour garantir la protection de vos actifs de donnĂ©es.
Analyse
Les lacs de données permettent à divers rÎles de votre entreprise, tels que les scientifiques des données, les développeurs de données et les analystes métier, d'accéder aux données avec leur choix d'outils et de cadres d'analyse. Cela inclut les frameworks open source tels qu'Apache Hadoop, Presto et Apache Spark, et les offres commerciales des fournisseurs d'entrepÎt de données et d'intelligence d'affaires. Les lacs de données vous permettent d'exécuter des analyses sans avoir à déplacer vos données vers un systÚme d'analyse distinct.
En savoir plus sur l'analyse des données »
Machine Learning
Les lacs de donnĂ©es permettent aux entreprises de gĂ©nĂ©rer diffĂ©rents types d'informations, y compris des rapports sur les donnĂ©es historiques, et de faire du machine learning oĂč des modĂšles sont construits pour prĂ©dire les rĂ©sultats probables et suggĂ©rer une gamme d'actions prescrites pour obtenir le rĂ©sultat optimal.
Comparaison entre les entrepÎts de données et les lacs de données
En fonction des exigences, une organisation typique aura besoin à la fois d'un entrepÎt de données et d'un lac de données car ils répondent à des besoins et des cas d'utilisation différents.
Un entrepĂŽt de donnĂ©es est une base de donnĂ©es optimisĂ©e pour analyser des donnĂ©es relationnelles provenant de systĂšmes transactionnels et d'applications mĂ©tier. La structure des donnĂ©es et le schĂ©ma sont dĂ©finis Ă l'avance pour optimiser les requĂȘtes SQL rapides, oĂč les rĂ©sultats sont gĂ©nĂ©ralement utilisĂ©s pour le reporting opĂ©rationnel et l'analyse. Les donnĂ©es sont nettoyĂ©es, enrichies et transformĂ©es afin de pouvoir agir comme la « source unique de vĂ©ritĂ© » en laquelle les utilisateurs peuvent avoir confiance.
à propos des entrepÎts des données »
Un lac de donnĂ©es est diffĂ©rent car il stocke des donnĂ©es relationnelles provenant d'applications mĂ©tier et des donnĂ©es non relationnelles provenant d'applications mobiles, d'appareils IoT et de mĂ©dias sociaux. La structure des donnĂ©es ou du schĂ©ma n'est pas dĂ©finie lors de la capture des donnĂ©es. Cela signifie que vous pouvez stocker toutes vos donnĂ©es sans une conception minutieuse ou sans avoir besoin de savoir Ă quelles questions vous pourriez avoir besoin de rĂ©ponses Ă l'avenir. DiffĂ©rents types d'analyses sur vos donnĂ©es, comme les requĂȘtes SQL, les analyses Big Data, la recherche en texte intĂ©gral, les analyses en temps rĂ©el et le machine learning, peuvent ĂȘtre utilisĂ©s pour dĂ©couvrir des informations.
Alors que les organisations dotĂ©es d'entrepĂŽts de donnĂ©es voient les avantages des lacs de donnĂ©es, elles font Ă©voluer leur entrepĂŽt pour inclure des lacs de donnĂ©es et activer diverses capacitĂ©s de requĂȘte, des cas d'utilisation de la science des donnĂ©es et des capacitĂ©s avancĂ©es pour dĂ©couvrir de nouveaux modĂšles d'information. Gartner nomme cette Ă©volution la « solution de gestion des donnĂ©es pour l'analyse » ou « DMSA ».
Pour une comparaison détaillée des lacs de données et des entrepÎts de données, consultez notre page relative à la comparaison entre les lacs de données et les entrepÎts de données.
Quelle est la valeur des lacs de données ?
La capacité d'exploiter plus de données, de plus de sources, en moins de temps, et de permettre aux utilisateurs de collaborer et d'analyser les données de différentes maniÚres conduit à une prise de décision meilleure et plus rapide. Exemples de valeur ajoutée des lacs de données :
Amélioration des interactions client
Un lac de données peut combiner les données client d'une plateforme CRM avec des analyses de réseaux sociaux, une plateforme marketing qui comprend l'historique des achats et des tickets d'incident pour permettre à l'entreprise de comprendre la cohorte de clients la plus rentable, la cause de la perte de clients et les promotions ou récompenses, et ainsi mieux fidéliser sa clientÚle.
Améliorer les choix d'innovation en R&D
Un lac de données peut aider vos équipes de R&D à tester leurs hypothÚses, les affiner et évaluer les résultats, par exemple en choisissant les bons matériaux dans la conception de votre produit, ce qui accélÚre les performances, en effectuant des recherches génomiques menant à des médicaments plus efficaces ou en comprenant la volonté des clients de payer pour différents attributs.
Augmenter l'efficacité opérationnelle
L'Internet des objets (IoT) propose davantage de moyens de collecter des données sur des processus tels que la fabrication, avec des données en temps réel provenant d'appareils connectés à Internet. Un lac de données facilite le stockage et l'exécution d'analyses sur les données IoT générées par la machine afin de découvrir des moyens de réduire les coûts opérationnels et d'améliorer la qualité.
Quels sont les défis des lacs de données ?
Le principal défi avec une architecture de lac de données est que les données brutes sont stockées sans surveillance du contenu. Pour qu'un lac de données rende les données utilisables, il doit disposer de mécanismes définis pour cataloguer et sécuriser les données. Sans ces éléments, les données sont introuvables ou ne sont pas fiables, ce qui entraßne un « bourbier de données ». Pour répondre aux besoins d'un public plus large, les lacs de données doivent avoir une gouvernance, une cohérence sémantique et des contrÎles d'accÚs.
Comment déployer des lacs de données dans le cloud ?
Les lacs de donnĂ©es constituent une charge de travail idĂ©ale Ă dĂ©ployer dans le cloud, car le cloud offre des performances, une capacitĂ© de mise Ă l'Ă©chelle, une fiabilitĂ©, une disponibilitĂ©, un ensemble diversifiĂ© de moteurs d'analyse et des Ă©conomies d'Ă©chelle massives. 451 Research a rĂ©vĂ©lĂ© que 66 % des personnes interrogĂ©es affirment que le cloud public est lâenvironnement de stockage dâobjets qui est ou sera utilisĂ© pour leur environnement de lac de donnĂ©es principal. Les principales raisons pour lesquelles les clients perçoivent le cloud comme un avantage pour les lacs de donnĂ©es sont une meilleure sĂ©curitĂ©, un temps de dĂ©ploiement plus rapide, une meilleure disponibilitĂ©, des mises Ă jour de fonctionnalitĂ©s plus frĂ©quentes, une plus grande Ă©lasticitĂ©, une couverture gĂ©ographique plus Ă©tendue et les coĂ»ts liĂ©s Ă lâutilisation rĂ©elle.
Comment AWS peut-il prendre en charge vos besoins en matiÚre de lacs de données ?
AWS fournit le portefeuille de services le plus sécurisé, évolutif, complet et économique qui permet aux clients de créer leur lac de données dans le cloud, d'analyser toutes leurs données, y compris les données d'appareils IoT avec une variété d'approches analytiques notamment le machine learning. En conséquence, il y a plus d'organisations exécutant leurs lacs de données et leurs analyses sur AWS que partout ailleurs, avec des clients comme NETFLIX, Zillow, NASDAQ, Yelp, iRobot et FINRA qui font confiance à AWS pour exécuter leurs charges de travail d'analyse critiques.
Commencez à sauvegarder vos lacs de données sur AWS en créant un compte dÚs aujourd'hui.
Prochaines étapes sur AWS
Démarrez la création dans la console de gestion AWS.

