Een gegevensarchief maken
In Azure Machine Learning zijn gegevensarchieven abstracties voor cloudgegevensbronnen. Ze bevatten de informatie die nodig is om verbinding te maken met gegevensbronnen en sla deze verbindingsgegevens veilig op, zodat u deze niet hoeft te coderen in uw scripts.
De voordelen van het gebruik van gegevensarchieven zijn:
- Biedt gebruiksvriendelijke URI's voor uw gegevensopslag.
- Vereenvoudigt gegevensdetectie in Azure Machine Learning.
- Slaat verbindingsinformatie veilig op, zonder geheimen en sleutels beschikbaar te maken voor gegevenswetenschappers.
Wanneer u een gegevensarchief maakt met een bestaand opslagaccount in Azure, hebt u de keuze tussen twee verschillende verificatiemethoden:
- Op basis van referenties: gebruik een service-principal, SAS-token (Shared Access Signature) of accountsleutel om toegang tot uw opslagaccount te verifiëren.
- Op identiteit gebaseerd: gebruik uw Microsoft Entra-identiteit of beheerde identiteit.
Inzicht in typen gegevensarchieven
Azure Machine Learning biedt ondersteuning voor het maken van gegevensarchieven voor meerdere soorten Azure-gegevensbronnen, waaronder:
- Azure Blob-opslag
- Azure-bestandsshare
- Azure Data Lake (Gen 2)
De ingebouwde gegevensarchieven gebruiken
Elke werkruimte heeft vier ingebouwde gegevensarchieven (twee verbinding maken met Azure Storage-blobcontainers en twee die verbinding maken met Azure Storage-bestandsshares), die worden gebruikt als systeemopslag door Azure Machine Learning.
In de meeste machine learning-projecten moet u zelf werken met gegevensbronnen. U kunt uw machine learning-oplossing bijvoorbeeld integreren met gegevens uit bestaande toepassingen of pijplijnen voor data engineering.
Een gegevensarchief maken
Gegevensarchieven worden gekoppeld aan werkruimten en worden gebruikt voor het opslaan van verbindingsgegevens met opslagservices. Wanneer u een gegevensarchief maakt, geeft u een naam op die kan worden gebruikt om de verbindingsgegevens op te halen.
Met gegevensarchieven kunt u eenvoudig verbinding maken met opslagservices zonder dat u alle benodigde gegevens hoeft te verstrekken telkens wanneer u gegevens wilt lezen of schrijven. Er wordt ook een beschermende laag gemaakt als u wilt dat gebruikers de gegevens gebruiken, maar niet rechtstreeks verbinding maken met de onderliggende opslagservice.
Een gegevensarchief maken voor een Azure Blob Storage-container
U kunt een gegevensarchief maken via de grafische gebruikersinterface, de Azure-opdrachtregelinterface (CLI) of de Python Software Development Kit (SDK).
Afhankelijk van de opslagservice waarmee u verbinding wilt maken, zijn er verschillende opties waarmee Azure Machine Learning kan worden geverifieerd.
Als u bijvoorbeeld een gegevensarchief wilt maken om verbinding te maken met een Azure Blob Storage-container, kunt u een accountsleutel gebruiken:
blob_datastore = AzureBlobDatastore(
name = "blob_example",
description = "Datastore pointing to a blob container",
account_name = "mytestblobstore",
container_name = "data-container",
credentials = AccountKeyConfiguration(
account_key="XXXxxxXXXxXXXXxxXXX"
),
)
ml_client.create_or_update(blob_datastore)
U kunt ook een gegevensarchief maken om verbinding te maken met een Azure Blob Storage-container met behulp van een SAS-token voor verificatie:
blob_datastore = AzureBlobDatastore(
name="blob_sas_example",
description="Datastore pointing to a blob container",
account_name="mytestblobstore",
container_name="data-container",
credentials=SasTokenConfiguration(
sas_token="?xx=XXXX-XX-XX&xx=xxxx&xxx=xxx&xx=xxxxxxxxxxx&xx=XXXX-XX-XXXXX:XX:XXX&xx=XXXX-XX-XXXXX:XX:XXX&xxx=xxxxx&xxx=XXxXXXxxxxxXXXXXXXxXxxxXXXXXxxXXXXXxXXXXxXXXxXXxXX"
),
)
ml_client.create_or_update(blob_datastore)
Tip
Meer informatie over het maken van gegevensarchieven om verbinding te maken met andere typen cloudopslagoplossingen.