Opslag verkennen en gegevensbestanden zoeken
Dit artikel is gericht op het detecteren en verkennen van mappen en gegevensbestanden die worden beheerd met Unity Catalog-volumes, waaronder instructies op basis van de gebruikersinterface voor het verkennen van volumes met Catalog Explorer. Dit artikel bevat ook voorbeelden voor programmatisch verkennen van gegevens in cloudobjectopslag met behulp van volumepaden en cloud-URI's.
Databricks raadt het gebruik van volumes aan om de toegang tot gegevens in cloudobjectopslag te beheren. Zie Verbinding maken met gegevensbronnen voor meer informatie over het maken van verbinding met gegevens in de opslag van cloudobjecten.
Zie Werken met bestanden in Azure Databricks voor een volledig overzicht van de interactie met bestanden op alle locaties.
Belangrijk
Wanneer u zoekt naar bestanden in de gebruikersinterface van de werkruimte, kunt u gegevensbestanden detecteren die zijn opgeslagen als werkruimtebestanden. Databricks raadt aan om werkruimtebestanden voornamelijk te gebruiken voor code (zoals scripts en bibliotheken), init-scripts of configuratiebestanden. U moet in het ideale geval gegevens beperken die zijn opgeslagen als werkruimtebestanden tot kleine gegevenssets die kunnen worden gebruikt voor taken zoals testen tijdens ontwikkeling en QA. Zie Wat zijn werkruimtebestanden?
Volumes versus verouderde configuraties van cloudobjecten
Wanneer u volumes gebruikt om de toegang tot gegevens in de opslag van cloudobjecten te beheren, kunt u alleen het pad naar volumes gebruiken om toegang te krijgen tot gegevens. Deze paden zijn beschikbaar met alle compute-functionaliteit voor Unity Catalog. U kunt geen gegevensbestanden registreren die back-ups maken van Unity Catalog-tabellen met behulp van volumes. Databricks raadt aan om tabelnamen te gebruiken in plaats van bestandspaden om te communiceren met gestructureerde gegevens die zijn geregistreerd als Unity Catalog-tabellen. Zie Hoe werken paden voor gegevens die worden beheerd door Unity Catalog?
Als u een verouderde methode gebruikt voor het configureren van toegang tot gegevens in de opslag van cloudobjecten, wordt azure Databricks teruggezet naar verouderde ACL-machtigingen voor tabellen. Gebruikers die toegang willen krijgen tot gegevens met behulp van cloud-URI's uit SQL-magazijnen of die zijn geconfigureerd met de modus voor gedeelde toegang, hebben de ANY FILE
machtiging nodig. Zie Toegangsbeheer voor Hive-metastore-tabellen (verouderd).
Azure Databricks biedt verschillende API's voor het weergeven van bestanden in de opslag van cloudobjecten. De meeste voorbeelden in dit artikel richten zich op het gebruik van volumes. Zie Lijstbestanden met URI's voor voorbeelden van interactie met gegevens in objectopslag die zonder volumes zijn geconfigureerd.
Volumes verkennen
U kunt Catalog Explorer gebruiken om gegevens in volumes te verkennen en de details van een volume te bekijken. U kunt alleen volumes zien waarvoor u machtigingen hebt om te lezen, zodat u op deze manier een query kunt uitvoeren op alle gegevens die zijn gedetecteerd.
U kunt SQL gebruiken om volumes en hun metagegevens te verkennen. Als u bestanden in volumes wilt weergeven, kunt u SQL, de magic-opdracht of databricks-hulpprogramma's %fs
gebruiken. Wanneer u communiceert met gegevens in volumes, gebruikt u het pad van Unity Catalog, dat altijd de volgende indeling heeft:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Volumes weergeven
SQL
Voer de volgende opdracht uit om een lijst met volumes in een bepaald schema weer te geven.
SHOW VOLUMES IN catalog_name.schema_name;
Zie SHOW VOLUMES.
Catalogusverkenner
Ga als volgt te werk om volumes in een bepaald schema weer te geven met Catalog Explorer:
- Selecteer het pictogram Catalogus .
- Selecteer een catalogus.
- Selecteer een schema.
- Klik op Volumes om alle volumes in het schema uit te vouwen.
Notitie
Als er geen volumes zijn geregistreerd bij een schema, wordt de optie Volumes niet weergegeven. In plaats daarvan ziet u een lijst met beschikbare tabellen.
Volumedetails bekijken
SQL
Voer de volgende opdracht uit om een volume te beschrijven.
DESCRIBE VOLUME volume_name
Zie DESCRIBE VOLUME.
Catalogusverkenner
Klik op de volumenaam en selecteer het tabblad Details om de volumedetails te controleren.
Bestanden in volumes weergeven
SQL
Voer de volgende opdracht uit om de bestanden in een volume weer te geven.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Catalogusverkenner
Klik op de volumenaam en selecteer het tabblad Details om de volumedetails te controleren.
%fs
Voer de volgende opdracht uit om de bestanden in een volume weer te geven.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Databricks-hulpprogramma's
Voer de volgende opdracht uit om de bestanden in een volume weer te geven.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Bestanden weergeven met URI's
U kunt query's uitvoeren op cloudobjectopslag die is geconfigureerd met andere methoden dan volumes met behulp van URI's. U moet zijn verbonden met compute met bevoegdheden voor toegang tot de cloudlocatie. De ANY FILE
machtiging is vereist voor SQL-warehouses en is geconfigureerd met de modus voor gedeelde toegang.
Notitie
URI-toegang tot objectopslag die is geconfigureerd met volumes, wordt niet ondersteund. U kunt Catalog Explorer niet gebruiken om de inhoud van de objectopslag te controleren die niet is geconfigureerd met volumes.
De volgende voorbeelden zijn voorbeelden van URI's voor gegevens die zijn opgeslagen met Azure Data Lake Storage Gen2, S3 en GCS.
SQL
Voer de volgende opdracht uit om bestanden in cloudobjectopslag weer te geven.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Voer de volgende opdracht uit om bestanden in cloudobjectopslag weer te geven.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Databricks-hulpprogramma's
Voer de volgende opdracht uit om bestanden in cloudobjectopslag weer te geven.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")