Inleiding tot werkruimteobjecten
Dit artikel bevat een inleiding op hoog niveau tot Azure Databricks-werkruimteobjecten. U kunt werkruimteobjecten maken, weergeven en organiseren in de werkruimtebrowser tussen persona's.
Opmerking over naamgeving van werkruimteactiva
De volledige naam van een werkruimteasset bestaat uit de basisnaam en de bestandsextensie. De bestandsextensie van een notitieblok kan bijvoorbeeld , .py
en .sql
.scala
.r
afhankelijk van de taal en indeling van het notitieblok zijn..ipynb
Wanneer u een notebookasset maakt, moeten de basisnaam en de volledige naam (de basisnaam die is samengevoegd met de bestandsextensie) uniek zijn binnen elke werkruimtemap. Wanneer u een asset een naamgeeft, controleert Databricks of deze voldoet aan deze criteria door de bestandsextensie eraan toe te voegen. Als de volledige naam overeenkomt met een bestaand bestand in de map, is die naam niet toegestaan en moet u een nieuwe notitiebloknaam kiezen. Als u bijvoorbeeld probeert een Python-notebook (in Python-bronindeling) te maken met de naam test
in dezelfde map als een Python-bestand met de naam test.py
, is dit niet toegestaan.
Clusters
Azure Databricks Datawetenschap & Engineering- en Databricks Mosaic AI-clusters bieden een geïntegreerd platform voor verschillende gebruiksvoorbeelden, zoals het uitvoeren van productie-ETL-pijplijnen, streaminganalyses, ad-hocanalyses en machine learning. Een cluster is een type Azure Databricks-rekenresource. Andere typen rekenresources zijn Azure Databricks SQL Warehouses.
Zie Compute voor gedetailleerde informatie over het beheren en gebruiken van clusters.
Notebooks
Een notebook is een webinterface voor documenten met een reeks uitvoerbare cellen (opdrachten) die worden uitgevoerd op bestanden, tabellen, visualisaties, en narratieve tekst. Opdrachten kunnen op volgorde worden uitgevoerd, wat verwijst naar de uitvoer van een of meer eerder uitgevoerde opdrachten.
Notebooks zijn één mechanisme voor het uitvoeren van code in Azure Databricks. Het andere mechanisme is taken.
Banen
Taken zijn één mechanisme voor het uitvoeren van code in Azure Databricks. Het andere mechanisme is notebooks.
Bibliotheken
Een bibliotheek maakt externe of lokaal gebouwde code beschikbaar voor notebooks en taken die worden uitgevoerd op uw clusters.
Zie Bibliotheken voor gedetailleerde informatie over het beheren en gebruiken van bibliotheken.
Gegevens
U kunt gegevens importeren in een gedistribueerd bestandssysteem dat is gekoppeld aan een Azure Databricks-werkruimte en ermee werken in Azure Databricks-notebooks en -clusters. U kunt ook een groot aantal Apache Spark-gegevensbronnen gebruiken voor toegang tot gegevens.
Zie Gegevens opnemen in een Databricks Lakehouse voor gedetailleerde informatie over het laden van gegevens.
Archief
Belangrijk
Deze functie is beschikbaar als openbare preview.
In Databricks Runtime 11.3 LTS en hoger kunt u willekeurige bestanden maken en gebruiken in de Databricks-werkruimte. Bestanden kunnen elk bestandstype zijn. Voorbeelden van veelvoorkomende bestandstypen zijn:
-
.py
bestanden die worden gebruikt in aangepaste modules. -
.md
bestanden, zoalsREADME.md
. -
.csv
of andere kleine gegevensbestanden. -
.txt
archief. - Logboekbestanden.
Zie Werken met bestanden in Azure Databricks voor gedetailleerde informatie over het gebruik van bestanden. Zie Code delen tussen Databricks-notebooks voor informatie over het gebruik van bestanden om uw code te modulariseren tijdens het ontwikkelen met Databricks-notebooks
Git-mappen
Git-mappen zijn Azure Databricks-mappen waarvan de inhoud aan elkaar is gekoppeld door ze te synchroniseren met een externe Git-opslagplaats. Met Behulp van Databricks Git-mappen kunt u notebooks ontwikkelen in Azure Databricks en een externe Git-opslagplaats gebruiken voor samenwerking en versiebeheer.
Zie Git-integratie voor Databricks Git-mappen voor gedetailleerde informatie over het gebruik van opslagplaatsen.
Modellen
Het model verwijst naar een model dat is geregistreerd in het MLflow-modelregister. Modelregister is een gecentraliseerd modelarchief waarmee u de volledige levenscyclus van MLflow-modellen kunt beheren. Het biedt chronologische modelherkomst, modelversiebeheer, faseovergangen en aantekeningen en beschrijvingen van model- en modelversies.
Zie Levenscyclus van modellen beheren in Unity Catalogvoor gedetailleerde informatie over het beheren en gebruiken van modellen.
Experimenten
Een MLflow-experiment is de primaire eenheid van de organisatie en toegangsbeheer voor uitvoeringen van MLflow Machine Learning-modellen. Alle MLflow-uitvoeringen behoren tot een experiment. Met elk experiment kunt u uitvoeringen visualiseren, zoeken en vergelijken en artefacten of metagegevens downloaden en uitvoeren voor analyse in andere hulpprogramma's.
Zie Trainingsuitvoeringen organiseren met MLflow-experimenten voor gedetailleerde informatie over het beheren en gebruiken van experimenten.
Query's
Query's zijn SQL-instructies waarmee u kunt communiceren met uw gegevens. Zie Access en opgeslagen query's beheren voor meer informatie.
Dashboards
Dashboards zijn presentaties van queryvisualisaties en commentaar. Zie Dashboards of Verouderde dashboards.
Waarschuwingen
Waarschuwingen zijn meldingen dat een veld dat wordt geretourneerd door een query een drempelwaarde heeft bereikt. Zie Wat zijn Databricks SQL-waarschuwingen? voor meer informatie.
Verwijzingen naar werkruimteobjecten
In het verleden moesten gebruikers het /Workspace
padvoorvoegsel voor sommige Databricks-API's (%sh
) opnemen, maar niet voor andere (%run
rest API-invoer).
Gebruikers kunnen werkruimtepaden overal gebruiken met het /Workspace
voorvoegsel. Oude verwijzingen naar paden zonder het /Workspace
voorvoegsel worden omgeleid en blijven werken. Het is raadzaam dat alle werkruimtepaden het /Workspace
voorvoegsel bevatten om deze te onderscheiden van volume- en DBFS-paden.
De vereiste voor consistent /Workspace
gedrag voor padvoorvoegsel is dit: er kan geen map zijn /Workspace
op het hoofdniveau van de werkruimte. Als u een /Workspace
map op het hoofdniveau hebt en deze UX-verbetering wilt inschakelen, verwijdert of wijzigt u de naam van de /Workspace
map die u hebt gemaakt en neemt u contact op met uw Azure Databricks-accountteam.
Een BESTANDS-, map- of notebook-URL delen
In uw Azure Databricks-werkruimte hebben URL's naar werkruimtebestanden, notebooks en mappen de volgende indelingen:
URL's voor werkruimtebestanden
https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>
Notebook-URL's
https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>
Map-URL's (werkruimte en Git)
https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>
Deze koppelingen kunnen worden verbroken als een map, bestand of notebook in het huidige pad wordt bijgewerkt met een Git-pull-opdracht, of wordt verwijderd en opnieuw gemaakt met dezelfde naam. U kunt echter een koppeling maken op basis van het werkruimtepad om te delen met andere Databricks-gebruikers met de juiste toegangsniveaus door deze te wijzigen in een koppeling in deze indeling:
https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>
Koppelingen naar mappen, notitieblokken en bestanden kunnen worden gedeeld door alles in de URL te vervangen door ?o=<16-digit-workspace-ID>
het pad naar het bestand, de map of het notitieblok uit de hoofdmap van de werkruimte. Als u een URL naar een map deelt, verwijdert u ook /browse/folders/<16-digit-ID>
uit de oorspronkelijke URL.
Om het bestandspad te verkrijgen, opent u het contextmenu door met de rechtermuisknop te klikken op de map, het notitieblok of het bestand in uw werkruimte dat u wilt delen en selecteert u URL/pad kopiëren>Volledig pad.
#workspace
Ga vooraf aan het bestandspad dat u zojuist hebt gekopieerd en voeg de resulterende tekenreeks toe nadat deze ?o=<16-digit-workspace-ID>
overeenkomt met de bovenstaande URL-indeling.
Url-formuleringsvoorbeeld #1: Map-URL's
Als u de URL van de werkruimtemap https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222
wilt delen, verwijdert u de browse/folders/1111111111111111
subtekenreeks uit de URL. Voeg #workspace
het pad toe gevolgd door het pad naar de map of het werkruimteobject dat u wilt delen.
In dit geval is het pad van de werkruimte naar een map. /Workspace/Users/user@example.com/team-git/notebooks
Nadat u het volledige pad uit uw werkruimte hebt gekopieerd, kunt u nu de deelbare koppeling maken:
https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks
URL-formulering voorbeeld 2: Notebook-URL's
Als u de URL van het notitieblok wilt delen, verwijder dan https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333
en #notebook/2222222222222222/command/3333333333333333
. Voeg #workspace
het pad toe gevolgd door het pad naar de map of het werkruimteobject.
In dit geval verwijst het werkruimtepad naar een notitieblok, /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
. Nadat u het volledige pad uit uw werkruimte hebt gekopieerd, kunt u nu de deelbare koppeling maken:
https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
U hebt nu een stabiele URL voor een bestand, map of notitieblokpad dat u wilt delen. Voor meer informatie over URL's en ID's, zie ID's ophalen voor werkruimteobjecten.