Concepts d’Azure Databricks
Cet article présente les concepts fondamentaux que vous avez besoin de comprendre pour pouvoir utiliser Azure Databricks en toute efficacité.
Comptes et espaces de travail
Dans Azure Databricks, un espace de travail est un déploiement Azure Databricks dans le cloud qui fonctionne comme un environnement permettant à votre équipe d’accéder aux ressources Databricks. Votre organization peut choisir d’avoir plusieurs espaces de travail ou un seul, en fonction de ses besoins.
Un compte Azure Databricks représente une seule entité qui peut inclure plusieurs espaces de travail. Les comptes activés pour Unity Catalog peuvent être utilisés pour gérer les utilisateurs et leur accès aux données de manière centralisée dans tous les espaces de travail du compte.
Facturation : Unités Databricks (DTU)
Azure Databricks facture en fonction des unités Databricks (DBU), qui sont des unités de capacité de traitement par heure basées sur le type d’instance de machine virtuelle.
Consultez la page de tarification d’Azure Databricks.
Authentification et autorisation
Cette section décrit les concepts à connaître quand vous gérez des identités Azure Databricks et leur accès à des ressources Azure Databricks.
Utilisateur
Personne unique qui a accès au système. Les identités d’utilisateur sont représentées par des adresses e-mail. ConsultezGérez les utilisateurs.
Principal du service
Une identité de service à utiliser avec des travaux, des outils automatisés et des systèmes tels que des scripts, des applications et des plateformes CI/CD. Les principaux de service sont représentés par un ID d’application. Si vous souhaitez en savoir plus, veuillez consulter la rubrique Gérer les principaux de service.
Groupe
Collection d’identités. Les groupes simplifient la gestion des identités, facilitant l’octroi d’accès à des espaces de travail, des données et d’autres objets sécurisables. Toutes les identités Databricks peuvent être attribuées en tant que membres de groupes. Consultez Gérer les groupes.
Liste de contrôle d’accès (ACL)
Liste d’autorisations attachée à l’espace de travail, au cluster, au travail, à la table ou à l’expérience. Une liste de contrôle d’accès spécifie les utilisateurs ou les processus système autorisés à accéder aux objets, ainsi que les opérations autorisées sur les ressources. Chaque entrée d’une liste de contrôle d’accès standard spécifie un objet et une opération. Consultez Listes de contrôle d’accès.
Jeton d’accès personnel (PAT)
Un jeton d’accès personnel est une chaîne utilisée pour authentifier les appels d’API REST, les connexions des partenaires technologiques et d’autres outils. Consultez Authentification à l’aide de jetons d’accès personnels Azure Databricks.
Les jetons Microsoft Entra ID peuvent également être utilisés pour s’authentifier auprès de l’API REST.
Interfaces Azure Databricks
Cette section décrit les interfaces permettant d’accéder à vos ressources dans Azure Databricks.
UI
L’interface utilisateur Azure Databricks est une interface graphique permettant d’interagir avec des fonctionnalités, telles que les dossiers d’espace de travail et leurs objets contenus, les objets de données et les ressources de calcul.
API REST
L’API REST Databricks fournit des points de terminaison pour modifier ou demander des informations sur les objets de compte et d’espace de travail Azure Databricks. Consultez les références de comptes et les références d’espaces de travail.
API REST SQL
L’API REST SQL vous permet d’automatiser des tâches sur des objets SQL. Consultez API SQL.
INTERFACE DE LIGNE DE COMMANDE
L’interface CLI Databricks est hébergée sur GitHub. L’interface CLI s’appuie sur l’API REST Databricks.
Gestion des données
Cette section décrit les objets logiques qui stockent les données qui alimentent les algorithmes de Machine Learning et sur lesquelles vous effectuez des analyses. Elle décrit également l’interface utilisateur intégrée à la plateforme pour l’exploration et la gestion des objets de données.
Unity Catalog
Unity Catalog est une solution de gouvernance unifiée pour les données et les ressources d’IA sur Azure Databricks qui fournit des fonctionnalités centralisées de contrôle d’accès, d’audit, de traçabilité des données et de découverte des données dans les espaces de travail Databricks. Consultez Qu’est-ce que Unity Catalog ?.
Racine DBFS
Important
Le stockage et l’accès aux données à l’aide de la racine DBFS ou des montages DBFS est un modèle déconseillé et non recommandé par Databricks. Au lieu de cela, Databricks recommande d’utiliser Unity Catalog pour gérer l’accès à toutes les données. Consultez Qu’est-ce que Unity Catalog ?.
La racine DBFS est un emplacement de stockage disponible par défaut pour tous les utilisateurs. Consultez Qu’est-ce que DBFS ?.
Explorateur de catalogues
Catalog Explorer vous permet d’explorer et de gérer les ressources de données et d’IA, notamment les schémas (bases de données), les tables, les modèles, les volumes (données non tabulaires), les fonctions et les modèles ML inscrits. Vous pouvez l’utiliser pour rechercher des objets de données et des propriétaires, comprendre les relations de données entre les tables, et gérer les autorisations et le partage. Consultez Qu’est-ce que l’Explorateur de catalogues ?.
Base de données
Collection d’objets de données, tels que des tables ou des vues et des fonctions, qui est organisée de manière à ce qu’elle puisse être facilement accessible, gérée et mise à jour. Voir En quoi consistent les schémas dans Azure Databricks ?
Table
Représentation de données structurées. Vous interrogez des tables avec les API Apache Spark SQL et Apache Spark. Voir Qu’est-ce que les tables et les vues ?.
Table delta
Par défaut, toutes les tables créées dans Azure Databricks sont des tables Delta. Les tables Delta sont basées sur le projet Delta Lake open source, une infrastructure pour le stockage de tables ACID hautes performances sur des magasins d’objets cloud. Une table Delta stocke les données sous la forme d’un répertoire de fichiers sur le stockage d’objets cloud et enregistre les métadonnées de table dans le metastore au sein d’un catalogue et d’un schéma.
En savoir plus sur les technologies de type Delta.
Metastore
Composant qui stocke toutes les informations de structure des différentes tables et partitions dans l’entrepôt de données, notamment les informations sur les colonnes et les types de colonne, les sérialiseurs et les désérialiseurs nécessaires pour lire et écrire des données, ainsi que les fichiers correspondants dans lesquels les données sont stockées. Voir Metastores
Chaque déploiement Azure Databricks dispose d’un metastore Hive centralisé accessible à tous les clusters dans le but de conserver les métadonnées de table. Vous avez également la possibilité d’utiliser un metastore Hive externe existant.
Gestion des calculs
Cette section décrit les concepts à connaître pour exécuter des calculs dans Azure Databricks.
Cluster
Ensemble de ressources de calcul et de configurations sur lesquelles vous exécutez des notebooks et des travaux. Il existe deux types de clusters : universel et de travail. Voir Calculer.
- Vous créez un cluster universel en utilisant l’interface utilisateur, l’interface CLI ou l’API REST. Vous pouvez arrêter et redémarrer manuellement un cluster universel. Plusieurs utilisateurs peuvent partager ce type de cluster de façon à effectuer une analyse interactive collaborative.
- Le planificateur de projet Azure Databricks crée un groupement de projets lorsque vous exécutez un projet sur un nouveau groupement de projets et arrête le groupement une fois le projet terminé. Vous ne pouvez pas redémarrer un cluster de travail.
pool
Ensemble d’instances inactives et prêtes à l’emploi qui réduisent les temps de démarrage et de mise à l’échelle automatique du cluster. Quand un cluster est attaché à un pool, il alloue ses nœuds de pilote et worker à partir du pool. Consultez Informations de référence sur la configuration de pool.
Si le pool ne dispose pas des ressources inactives suffisantes pour répondre à la demande du cluster, il se développe en allouant de nouvelles instances à partir du fournisseur d’instances. Quand un cluster attaché est arrêté, les instances qu’il utilisait sont retournées au pool et peuvent être réutilisées par un autre cluster.
Runtime Databricks
Ensemble de composants de base qui s’exécutent sur les clusters gérés par Azure Databricks. Voir Calculer. Azure Databricks contient les runtimes suivants :
- Databricks Runtime comprend Apache Spark mais aussi plusieurs composants et mises à jour qui améliorent considérablement la facilité d’utilisation, les performances et la sécurité de l’analytique Big Data.
- Databricks Runtime pour le Machine Learning s’appuie sur Databricks Runtime et fournit une infrastructure de Machine Learning prédéfinie qui est intégrée à toutes les fonctionnalités de l’espace de travail Azure Databricks. Il contient plusieurs bibliothèques populaires, notamment TensorFlow, Keras, PyTorch et XGBoost.
Flux de travail
L’interface utilisateur de l’espace de travail Flux de travail permet d’accéder aux interfaces utilisateur Travaux et Pipelines DLT, qui sont des outils permettant d’orchestrer et de planifier des flux de travail.
Tâches
Mécanisme non interactif permettant d’orchestrer et de planifier des notebooks, des bibliothèques et d’autres tâches. Consultez Planifier et orchestrer des flux de travail
Pipelines
Les pipelines Delta Live Tables fournissent une infrastructure déclarative pour la génération de pipelines de traitement de données fiables, gérables et testables. Consultez l’article Qu’est-ce que Delta Live Tables ?.
Charge de travail
La charge de travail est la quantité de capacité de traitement nécessaire pour effectuer une tâche ou un groupe de tâches. Azure Databricks identifie deux types de charges de travail : engineering données (travail) et analytique données (universel).
- Engineering données Une charge de travail (automatisée) s’exécute sur un cluster de travail créé par le planificateur de travaux Azure Databricks pour chaque charge de travail.
- Analytique données Une charge de travail (interactive) s’exécute sur un cluster universel. Les charges de travail interactives exécutent généralement des commandes dans un notebook Azure Databricks. Toutefois, l’exécution d’un travail sur un cluster universel existant est également traitée comme une charge de travail interactive.
Contexte d’exécution
L'état d'un environnement de boucle lecture-évaluation-impression (REPL) pour chaque langage de programmation pris en charge. Les langages pris en charge sont Python, R, Scala et SQL.
Engineering données
Les outils d’engineering données facilitent la collaboration entre les scientifiques des données, les ingénieurs données, les analystes de données et les ingénieurs Machine Learning.
Espace de travail
Un espace de travail est un environnement qui vous permet d’accéder à l’ensemble de vos ressources Azure Databricks. Un espace de travail organise des objets (notebooks, bibliothèques, tableaux de bord et expériences) en dossiers et donne accès à des objets de données et à des ressources de calcul.
Notebook
Interface web permettant de créer des workflows de science des données et de Machine Learning pouvant contenir des commandes, des visualisations et du texte narratif exécutables. Consultez Présentation des notebooks Databricks.
Bibliothèque
Package de code disponible pour le notebook ou le travail en cours d’exécution sur votre cluster. Les runtimes Databricks comprennent de nombreuses bibliothèques, et vous pouvez également charger vos propres bibliothèques. Consultez Bibliothèques.
Dossier Git (anciennement Repos)
Dossier dont le contenu est co-versionné en le synchronisant avec un dépôt Git distant. Les dossiers Databricks Git s’intègrent à Git afin de fournir le contrôle de code source et la gestion de version pour vos projets.
IA et Machine Learning
Databricks fournit un environnement de bout en bout intégré avec des services managés pour le développement et le déploiement d’applications IA et Machine Learning.
Mosaic AI
Nom officiel des produits et services de Databricks Mosaic AI Research, une équipe de chercheurs et d’ingénieurs responsable des plus grandes percées de Databricks dans le domaine de l’IA générative. Les produits Mosaic AI incluent les fonctionnalités ML et IA dans Databricks. Voir Recherche Mosaic.
Runtime Machine Learning
Pour vous aider à développer des modèles ML et IA, Databricks fournit Databricks Runtime for Machine Learning, qui automatise la création de cluster avec une infrastructure de Machine Learning et de Deep Learning prédéfinie comprenant les bibliothèques ML et DL les plus courantes. Il offre également une prise en charge intégrée des GPU préconfigurés, notamment des pilotes et des bibliothèques de prise en charge. Accédez aux informations sur les dernières versions du runtime dans Notes de publication de Databricks Runtime – Versions et compatibilité.
Expérience
Collection d’exécutions MLflow pour entraîner un modèle Machine Learning. ConsultezOrganiser des exécutions de formation avec des expériences MLflow.
Fonctionnalités
Les caractéristiques sont un composant important des modèles ML. Un magasin de caractéristiques permet le partage et la découverte de caractéristiques au sein de votre organisation, et garantit également que le même code de calcul des caractéristiques est utilisé pour l’entraînement des modèles et l’inférence. Voir Ingénierie et mise en service des caractéristiques.
Modèles GenAI
Databricks prend en charge l’exploration, le développement et le déploiement de modèles d’IA générative, notamment :
- Terrain de jeu IA, un environnement de type conversationnel dans l’espace de travail où vous pouvez tester, soumettre des prompts, et comparer des LLM. Consultez Conversation avec des LLM et prototypage d’applications d’IA générative à l’aide d’AI Playground.
- Ensemble intégré de modèles de fondation préconfigurés que vous pouvez interroger :
- Voir API Foundation Model avec paiement par jeton.
- Consultez la section [Recommandé] Déployer des modèles de fondation à partir d’Unity Catalog pour les modèles de fondation que vous pouvez fournir en un seul clic.
- Modèles LLM hébergés par des tiers, appelés modèles externes. Ces modèles sont destinés à être utilisés tels quels.
- Possibilités de personnaliser un modèle de fondation afin d’optimiser ses performances pour votre application spécifique (souvent appelé fine-tuning). Consultez le réglage précis du modèle Foundation.
Registre de modèles
Databricks fournit une version hébergée du registre de modèles MLflow dans Unity Catalog. Les modèles inscrits dans Unity Catalog héritent du contrôle d’accès centralisé, de la traçabilité, et de la découverte et de l’accès entre espaces de travail. Consultez Gérer le cycle de vie des modèles dans Unity Catalog.
Mise en service de modèles
Le Service de modèles Mosaic AI permet de déployer, de gérer et d’interroger des modèles d’IA à partir d’une interface unifiée. Chaque modèle servi est disponible en tant qu’API REST que vous pouvez intégrer à votre application web ou cliente. Avec le Service de modèles Mosaic AI, vous pouvez déployer vos propres modèles, des modèles de base, ou des modèles tiers hébergés en dehors de Databricks. Consultez Mise en service de modèles avec Azure Databricks.
Entrepôt de données
L’entrepôt de données fait référence à la collecte et au stockage de données à partir de plusieurs sources afin qu’elles soient rapidement accessibles pour la création de rapports et des insights métier. Databricks SQL est une collection de services qui apporte des capacités d’entrepôt de données et des performances dans vos lacs de données. Consultez Qu’est-ce que l’entrepôt de données sur Azure Databricks ?.
Requête
Une requête est une instruction SQL valide qui vous permet d’interagir avec vos données. Vous pouvez créer des requêtes à l’aide de l’éditeur SQL intégré à la plateforme ou vous connecter à l’aide d’un connecteur SQL, d’un pilote ou d’une API. Consultez Accéder à des requêtes enregistrées et les gérer pour en savoir plus sur l’utilisation des requêtes.
Entrepôt SQL
Ressource de calcul sur laquelle vous exécutez des requêtes SQL. Il existe trois types d’entrepôts SQL : Classic, Pro et Serverless. Azure Databricks recommande d’utiliser des entrepôts serverless là où ils sont disponibles. Consultez Types d’entrepôts SQL afin de comparer les fonctionnalités disponibles pour chaque type d’entrepôt.
Historique des requêtes
Liste de requêtes exécutées et de leurs caractéristiques de performance. L’historique des requêtes vous permet de surveiller les performances des requêtes, ce qui vous aide à identifier les goulots d’étranglement et à optimiser les runtimes de requête. Consulter l'Historique des requêtes.
Visualisation
Présentation graphique du résultat de l’exécution d’une requête. Consultez l’article Visualisations dans les notebooks Databricks.
Tableau de bord
Présentation des visualisations de données et des commentaires. Vous pouvez utiliser des tableaux de bord pour envoyer automatiquement des rapports à n’importe qui dans votre compte Azure Databricks. Utilisez l’Assistant Databricks pour vous aider à créer des visualisations basées sur des prompts en langage naturel. Consultez Tableaux de bord. Vous pouvez également créer un tableau de bord à partir d’un notebook. Voir Tableaux de bord dans les bloc-notes.
Pour les tableaux de bord hérités, consultez Tableaux de bord hérités.
Important
- Databricks recommande d’utiliser des tableaux de bord IA/BI (anciennement tableaux de bord Lakeview). Les versions antérieures des tableaux de bord, précédemment appelées tableaux de bord Databricks SQL, sont désormais appelées tableaux de bord hérités. Databricks déconseille de créer des tableaux de bord hérités.
- Convertissez les tableaux de bord hérités en utilisant l’outil de migration ou l’API REST. Consultez Cloner un tableau de bord hérité en tableau de bord AI/BI pour obtenir des instructions sur l’utilisation de l’outil de migration intégré. Consultez Tutoriels sur les tableaux de bord pour obtenir des tutoriels sur la création et la gestion de tableaux de bord en utilisant l’API REST.