Delen via


Gegevensbeheer

Meer informatie over het beheren van gegevenstoegang en verificatie in Azure Machine Learning.

VAN TOEPASSING OP:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)

Belangrijk

Dit artikel is bedoeld voor Azure-beheerders die de vereiste infrastructuur willen maken voor een Azure Machine Learning-oplossing.

Gegevensverificatie op basis van referenties

Over het algemeen omvat verificatie op basis van inloggegevens de volgende controles:

  • Controleer of de gebruiker die toegang heeft tot gegevens uit het gegevensarchief op basis van referenties, een toegewezen rol heeft met op rollen gebaseerd toegangsbeheer (RBAC) dat gegevens bevat Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action

    • Deze machtiging is vereist om referenties op te halen uit het gegevensarchief voor de gebruiker.

    • Ingebouwde rollen die al deze machtiging bevatten:

    • U moet weten welke specifieke gebruiker toegang wil krijgen tot de gegevens. Een specifieke gebruiker kan een echte gebruiker met een gebruikersidentiteit zijn. Het kan ook een computer met een beheerde identiteit (MSI) zijn. Ga voor meer informatie naar de sectie Scenario's en verificatieopties om de identiteit te bepalen waarvoor de toegevoegde machtiging is vereist.

  • Heeft de opgeslagen referentie (service-principal, accountsleutel of handtekeningtoken voor gedeelde toegang) toegang tot de gegevensresource?

Op identiteit gebaseerde gegevensverificatie

Over het algemeen omvat verificatie op basis van identiteiten de volgende controles:

  • Welke gebruiker wil toegang krijgen tot de resources?
    • Er zijn verschillende typen verificatie beschikbaar, afhankelijk van de context op het moment dat de gegevens worden geopend. Bijvoorbeeld:
      • Gebruikersidentiteit
      • Beheerde identiteit berekenen
      • Beheerde identiteit voor werkruimte
    • Taken, inclusief de optie voor gegevenssets Generate Profile , worden uitgevoerd op een rekenresource in uw abonnement en hebben toegang tot de gegevens vanaf die locatie. De beheerde identiteit van het rekenproces heeft toestemming nodig voor toegang tot de opslagresource, in plaats van de identiteit van de gebruiker die de taak heeft ingediend.
    • Voor verificatie op basis van een gebruikersidentiteit moet u weten welke specifieke gebruiker toegang probeert te krijgen tot de opslagresource. Ga naar Verificatie voor Azure Machine Learning voor meer informatie over gebruikersverificatie. Ga naar Verificatie tussen Azure Machine Learning en andere services voor meer informatie over verificatie op serviceniveau.
  • Heeft deze gebruiker leesmachtigingen voor de resource?
    • Heeft de gebruikersidentiteit of de beheerde identiteit voor compute de benodigde machtigingen voor die opslagresource? Machtigingen worden verleend met behulp van Azure RBAC.
    • De lezer van het opslagaccount leest de metagegevens van de opslag.
    • De opslagblobgegevenslezer leest en vermeldt opslagcontainers en -blobs.
    • De bevoegde lezer voor opslagbestandsgegevens heraedt en vermeldt bestanden en mappen in Azure-bestandsshares.
    • Ga naar ingebouwde Azure-rollen voor opslag voor meer informatie.
  • Heeft deze gebruiker schrijfmachtigingen voor de resource?
    • Heeft de gebruikersidentiteit of de beheerde identiteit voor compute de benodigde machtigingen voor die opslagresource? Machtigingen worden verleend met behulp van Azure RBAC.
    • De lezer van het opslagaccount leest de metagegevens van de opslag.
    • De inzender voor opslagblobgegevens leest, schrijft en verwijdert Azure Storage-containers en -blobs.
    • De inzender met bevoegdheden voor opslagbestandsgegevens leest, schrijft, verwijdert en wijzigt toegangsbeheerlijsten voor bestanden en mappen in Azure-bestandsshares.
    • Ga naar ingebouwde Azure-rollen voor opslag voor meer informatie.

Andere algemene controles op verificatie

  • Wat heeft precies toegang tot de resource?
    • Gebruiker: Bevindt het IP-adres van de client zich in het virtuele netwerk/subnetbereik?
    • Werkruimte: Is de werkruimte openbaar of heeft deze een privé-eindpunt in een virtueel netwerk/subnet?
    • Opslag: Staat de opslag openbare toegang toe of beperkt deze de toegang via een service-eindpunt of een privé-eindpunt?
  • Wat is de geplande bewerking?
    • Azure Machine Learning-ingangen
      • Maken
      • Lezen
      • Bijwerken
      • DELETE-bewerkingen (CRUD) in een gegevensarchief/gegevensset.
    • Archiefbewerkingen op gegevensassets in Azure Machine Learning-studio deze RBAC-bewerking vereisen:Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
    • Aanroepen voor gegevenstoegang (bijvoorbeeld preview of schema) gaan naar de onderliggende opslag en vereisen extra machtigingen.
  • Wordt deze bewerking uitgevoerd in rekenresources van een Azure-abonnement of resources die worden gehost in een Microsoft-abonnement?
    • Alle aanroepen naar services voor gegevenssets en gegevensopslag (behalve de Generate Profile optie) maken gebruik van resources die worden gehost in een Microsoft-abonnement om de bewerkingen uit te voeren.
    • Taken, inclusief de optie voor gegevenssets Generate Profile , worden uitgevoerd op een rekenresource in uw abonnement en hebben toegang tot de gegevens vanaf die locatie. De rekenidentiteit moet zijn gemachtigd voor de opslagresource, in plaats van de identiteit van de gebruiker die de taak heeft ingediend.

In dit diagram ziet u de algemene stroom van een aanroep voor gegevenstoegang. Hier probeert een gebruiker een aanroep voor gegevenstoegang uit te voeren via een Machine Learning-werkruimte, zonder gebruik te maken van een rekenresource.

Diagram met de logische stroom bij het openen van gegevens.

Scenario's en verificatieopties

Deze tabel bevat de identiteiten die moeten worden gebruikt voor specifieke scenario's:

Configuratie Lokale SDK-/notebook-VM Project Voorbeeld van gegevensset Bladeren door gegevensarchief
Referentie + werkruimte-MSI Referentie Referentie Werkruimte-MSI Referentie (alleen accountsleutel en handtekeningtoken voor gedeelde toegang)
Geen referentie en werkruimte-MSI MSI/gebruikersidentiteit berekenen MSI/gebruikersidentiteit berekenen Werkruimte-MSI Gebruikersidentiteit
Referentie + geen werkruimte-MSI Referentie Referentie Referentie (niet ondersteund voor De preview van gegevenssets onder privénetwerk) Referentie (alleen accountsleutel en handtekeningtoken voor gedeelde toegang)
Geen referentie en geen msi-werkruimte MSI/gebruikersidentiteit berekenen MSI/gebruikersidentiteit berekenen Gebruikersidentiteit Gebruikersidentiteit

Voor SDK V1 gebruikt gegevensverificatie in een taak altijd reken-MSI. Voor SDK V2 is gegevensverificatie in een taak afhankelijk van uw taakinstelling. Het kan een gebruikersidentiteit zijn of een reken-MSI, op basis van die taakinstelling.

Tip

Voor toegang tot gegevens van buiten Machine Learning, bijvoorbeeld met Azure Storage Explorer, is die toegang waarschijnlijk afhankelijk van de gebruikersidentiteit . Raadpleeg de documentatie voor het hulpprogramma of de service die u wilt gebruiken voor specifieke informatie. Ga naar Verificatie instellen tussen Azure Machine Learning en andere services voor meer informatie over hoe Machine Learning met gegevens werkt.

Specifieke vereisten voor virtueel netwerk

Deze informatie helpt u bij het instellen van gegevensverificatie vanuit een Machine Learning-werkruimte voor toegang tot gegevens achter een virtueel netwerk.

Machtigingen van een opslagaccount toevoegen aan een beheerde identiteit van een Machine Learning-werkruimte

Wanneer u een opslagaccount van de studio gebruikt en u de preview-versie van de gegevensset wilt zien, moet u Beheerde identiteit van de werkruimte gebruiken inschakelen voor gegevensvoorbeelden en profilering in Azure Machine Learning-studio in de instelling voor het gegevensarchief. Voeg vervolgens deze Azure RBAC-rollen voor het opslagaccount toe aan de beheerde identiteit van de werkruimte:

  • Blob-gegevenslezer
  • Als het opslagaccount een privé-eindpunt gebruikt om verbinding te maken met het virtuele netwerk, moet u de rol Lezer voor het privé-eindpunt van het opslagaccount toewijzen aan de beheerde identiteit.

Ga naar Use Azure Machine Learning-studio in een virtueel Azure-netwerk voor meer informatie.

In deze secties worden de beperkingen uitgelegd van het gebruik van een opslagaccount, met uw werkruimte, in een virtueel netwerk.

Communicatie beveiligen met een opslagaccount

Als u de communicatie tussen Machine Learning- en opslagaccounts wilt beveiligen, configureert u de opslag om toegang te verlenen tot vertrouwde Azure-services.

Azure Storage-firewall

Voor een opslagaccount dat zich achter een virtueel netwerk bevindt, kan de opslagfirewall ervoor zorgen dat uw client normaal gesproken rechtstreeks verbinding kan maken via internet. Wanneer u de studio gebruikt, maakt uw client echter geen verbinding met het opslagaccount. De Machine Learning-service waarmee de aanvraag verbinding maakt met het opslagaccount. Het IP-adres van de service wordt niet gedocumenteerd en wordt regelmatig gewijzigd. Als u de opslagfirewall inschakelt, heeft de studio geen toegang tot het opslagaccount in een configuratie van een virtueel netwerk.

Azure Storage-eindpunttype

Wanneer de werkruimte gebruikmaakt van een privé-eindpunt en het opslagaccount zich ook in het virtuele netwerk bevindt, ontstaan er extra validatievereisten wanneer u de studio gebruikt.

  • Als het opslagaccount een service-eindpunt gebruikt, moeten het privé-eindpunt en het eindpunt van de opslagservice zich in hetzelfde subnet van het virtuele netwerk bevinden.
  • Als het opslagaccount een privé-eindpunt gebruikt, moeten het privé-eindpunt van de werkruimte en het privé-eindpunt van de opslag zich in hetzelfde virtuele netwerk bevinden. In dit geval kunnen ze zich in verschillende subnetten bevinden.

Azure Data Lake Storage Gen1

Wanneer u Azure Data Lake Storage Gen1 als gegevensarchief gebruikt, kunt u alleen toegangsbeheerlijsten in POSIX-stijl gebruiken. U kunt de beheerde identiteit van de werkruimte toegang tot resources toewijzen, zoals elke andere beveiligingsprincipaal. Ga naar Toegangsbeheer in Azure Data Lake Storage Gen1 voor meer informatie.

Azure Data Lake Storage Gen2

Wanneer u Azure Data Lake Storage Gen2 als gegevensarchief gebruikt, kunt u toegangsbeheerlijsten (ACL's) van Azure RBAC en POSIX gebruiken om de toegang tot gegevens in een virtueel netwerk te beheren.

  • Ga als volgt te werk om Azure RBAC te gebruiken: Volg de stappen die worden beschreven in datastore: Azure Storage-account. Data Lake Storage Gen2 is gebaseerd op Azure Storage, dus dezelfde stappen zijn van toepassing wanneer u Azure RBAC gebruikt.
  • ACL's gebruiken: de beheerde identiteit van de werkruimte kan worden toegewezen als elke andere beveiligingsprincipal. Ga naar Toegangsbeheerlijsten voor bestanden en mappen voor meer informatie.

Volgende stappen

Zie Azure Machine Learning-studio gebruiken in een virtueel Azure-netwerk voor meer informatie over het inschakelen van de studio in een netwerk.