June 2, 2023

Tech Articles

L'art de la technologie

Databricks ajoute la gouvernance des données et les fonctionnalités du marché

Parallèlement à l’open resource Delta Lake lors de son sommet annuel Facts + AI, le fournisseur de info lake Databricks a lancé mardi un nouveau marché de données ainsi que de nouvelles fonctionnalités d’ingénierie de données.

Le nouveau marché, qui sera disponible dans les mois à venir, permettra aux entreprises de partager des actifs de données et d’analyse tels que des tables, des fichiers, des modèles d’apprentissage automatique, des blocs-notes et des tableaux de bord, a déclaré la société, ajoutant que les données n’ont pas besoin d’être déplacées. ou répliqué à partir du stockage cloud à des fins de partage.

Le marché, selon la société, accélérera l’ingénierie des données et le développement d’applications, auto il permet aux entreprises d’accéder à un ensemble de données au lieu d’en développer un et de s’abonner à un tableau de bord pour l’analyse au lieu d’en créer un nouveau.

La position de marché de Databricks permet aux utilisateurs de partager et de monétiser des données

Databricks a déclaré que le marché permettra aux entreprises partageant des actifs de données de les monétiser plus facilement.

Le nouveau marché ressemble à celui de Snowflake marché des données dans la conception et la stratégie, ont déclaré les analystes.

“Chaque plate-forme d’entreprise majeure (y compris Snowflake) doit disposer d’un écosystème d’applications feasible pour être véritablement une plate-forme et Databricks ne fait pas exception. Il cherche à être un marché central pour les actifs de données et doit être considéré comme une opportunité immédiate pour les ISV et les purposes. développeurs qui cherchent à construire au-dessus du lac Delta », a déclaré Hyoun Park, analyste en chef chez Amalgam Insights.

En comparant le marché de Databricks à celui de Snowflake, Doug Henschen, analyste principal chez Constellation Analysis, a déclaré que, dans sa forme actuelle, Databricks Knowledge Market est très nouveau et ne traite que du partage de données, à la fois en interne et en externe, contrairement à Snowflake qui a ajouté des intégrations et un assist pour monétisation des données.

Dans un energy pour promouvoir la collaboration de données avec d’autres entreprises de manière sécurisée, la société a déclaré qu’elle introduisait un environnement, baptisé Cleanrooms, qui sera disponible dans les mois à venir.

Une salle blanche de données est un environnement sécurisé qui permet à une entreprise d’anonymiser, de traiter et de stocker des informations personnellement identifiables afin de les mettre ultérieurement à disposition pour la transformation des données d’une manière qui ne viole pas les règles de confidentialité.

Les salles blanches de Databricks fourniront un moyen de partager et de joindre des données entre les entreprises sans avoir besoin de réplication, a déclaré la société, ajoutant que ces entreprises pourront collaborer avec des shoppers et des partenaires sur n’importe quel cloud avec la flexibilité d’exécuter des calculs et des rates de travail complexes à l’aide à la fois SQL et science des données outils, y compris Python, R et Scala.

La promesse de se conformer aux normes de confidentialité est une proposition intéressante, a déclaré Park, ajoutant que son check décisif sera son adoption dans les secteurs des services financiers, gouvernementaux, juridiques et de la santé qui ont des directives réglementaires strictes.

Databricks met à jour l’ingénierie des données et les outils de gestion

Databricks a également lancé plusieurs ajouts aux outils d’ingénierie de données.

L’un des nouveaux outils, Enzyme, selon la société, est une nouvelle couche d’optimisation pour accélérer le processus d’extraction, de transformation, de chargement (ETL) dans Delta Live Tables que la société a rendu généralement disponible en avril de cette année.

“La couche d’optimisation est axée sur la prise en cost des pipelines d’intégration de données incrémentielles automatisées à l’aide de Delta Live Tables grâce à une combinaison de plan de requête et d’analyse des exigences de modification des données”, a déclaré Matt Aslett, directeur de recherche chez Ventana Exploration.

Et cette couche, selon Henschen, devrait “cocher un autre ensemble de capacités attendues par les clients qui la rendront furthermore compétitive en tant qu’alternative aux plates-formes d’entrepôt de données et de datamart conventionnelles”.

Databricks a également annoncé la prochaine génération de Spark Structured Streaming, baptisée Venture Lightspeed, sur sa plate-forme Delta Lake qui, selon elle, réduira les coûts et réduira la latence en utilisant un écosystème étendu de connecteurs.

Databricks fait référence à Delta Lake comme un lac de données, construit sur une architecture de données offrant à la fois des capacités de stockage et d’analyse, contrairement à lacs de données, qui stockent les données au format natif, et les entrepôts de données, qui stockent les données structurées (souvent au format SQL) pour une interrogation rapide.

“Les données en streaming sont un domaine dans lequel Databricks se différencie de certains des autres fournisseurs de data lakehouse et attire de additionally en additionally l’attention à mesure que les applications en temps réel basées sur les données et les événements en streaming deviennent in addition courantes”, a déclaré Aslett.

La deuxième itération de Spark, selon Park, montre l’intérêt croissant de Databricks pour la prise en cost de resources de données plus petites pour l’analyse et l’apprentissage automatique.

“L’apprentissage automatique n’est furthermore seulement un outil pour les mégadonnées massives, mais un précieux mécanisme de rétroaction et d’alerte pour les données en temps réel et distribuées”, a déclaré l’analyste.

De in addition, afin d’aider les entreprises dans la gouvernance des données, la société a lancé le Info Lineage for Unity Catalog, qui sera généralement disponible sur AWS et Azure dans les semaines à venir.

« La disponibilité générale de Unity Catalog contribuera à améliorer les elements de sécurité et de gouvernance des actifs Lakehouse, tels que les fichiers, les tables et les modèles ML. C’est essentiel pour protéger les données sensibles », a déclaré Sanjeev Mohan, ancien vice-président de la recherche pour le Big Details et l’analyse. chez Gartner.

La société a également lancé Databricks SQL Serverless (sur AWS) pour offrir un assistance entièrement géré pour maintenir, configurer et faire évoluer l’infrastructure cloud sur le Lakehouse.

Certaines des autres mises à jour incluent une fonctionnalité de fédération de requêtes pour Databricks SQL et une nouvelle fonctionnalité pour SQL CLI, permettant aux utilisateurs d’exécuter des requêtes directement à partir de leurs ordinateurs locaux.

La fonctionnalité de fédération permet aux développeurs et aux scientifiques des données d’interroger des sources de données distantes, notamment PostgreSQL, MySQL, AWS Redshift et d’autres, sans avoir besoin d’extraire et de charger d’abord les données des systèmes resources, a déclaré la société.

Copyright © 2022 IDG Communications, Inc.