Dela via


Köra batchslutpunkter från Azure Data Factory

GÄLLER FÖR:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (aktuell)

Stordata kräver en tjänst som kan samordna och operationalisera processer för att förfina dessa enorma lager av rådata till användbara affärsinsikter. Den hanterade Molntjänsten i Azure Data Factory hanterar dessa komplexa hybridprojekt för ETL (extract-transform-load), extraheringsbelastningstransformering (ELT) och dataintegreringsprojekt.

Med Azure Data Factory kan du skapa pipelines som kan samordna flera datatransformeringar och hantera dem som en enda enhet. Batchslutpunkter är en utmärkt kandidat för att bli ett steg i ett sådant bearbetningsarbetsflöde.

I den här artikeln får du lära dig hur du använder batchslutpunkter i Azure Data Factory-aktiviteter genom att förlita dig på webbanropsaktiviteten och REST-API:et.

Dricks

När du använder datapipelines i Fabric kan du anropa batchslutpunkten direkt med hjälp av Azure Machine Learning-aktiviteten. Vi rekommenderar att du använder Infrastruktur för dataorkestrering när det är möjligt för att dra nytta av de senaste funktionerna. Azure Machine Learning-aktiviteten i Azure Data Factory kan bara fungera med tillgångar från Azure Machine Learning V1. Mer information finns i Köra Azure Machine Learning-modeller från Fabric med hjälp av batchslutpunkter (förhandsversion).

Förutsättningar

Autentisera mot batchslutpunkter

Azure Data Factory kan anropa REST-API:er för batchslutpunkter med hjälp av aktiviteten Webbanrop . Batch-slutpunkter stöder Microsoft Entra-ID för auktorisering och begäran till API:erna kräver en korrekt autentiseringshantering. Mer information finns i Webbaktivitet i Azure Data Factory och Azure Synapse Analytics.

Du kan använda tjänstens huvudnamn eller en hanterad identitet för att autentisera mot batchslutpunkter. Vi rekommenderar att du använder en hanterad identitet eftersom det förenklar användningen av hemligheter.

Du kan använda Azure Data Factory-hanterad identitet för att kommunicera med batchslutpunkter. I det här fallet behöver du bara se till att din Azure Data Factory-resurs har distribuerats med en hanterad identitet.

  1. Om du inte har någon Azure Data Factory-resurs eller om den redan har distribuerats utan en hanterad identitet följer du den här proceduren för att skapa den: Systemtilldelad hanterad identitet.

    Varning

    Det går inte att ändra resursidentiteten i Azure Data Factory efter distributionen. Om du behöver ändra identiteten för en resurs när du har skapat den måste du återskapa resursen.

  2. Efter distributionen beviljar du åtkomst för den hanterade identiteten för den resurs som du skapade till din Azure Machine Learning-arbetsyta. Se Bevilja åtkomst. I det här exemplet kräver tjänstens huvudnamn:

    • Behörighet på arbetsytan att läsa batchdistributioner och utföra åtgärder över dem.
    • Behörighet att läsa/skriva i datalager.
    • Behörigheter att läsa på valfri molnplats (lagringskonto) som anges som indata.

Om pipelinen

I det här exemplet skapar du en pipeline i Azure Data Factory som kan anropa en viss batchslutpunkt över vissa data. Pipelinen kommunicerar med Azure Machine Learning-batchslutpunkter med hjälp av REST. Mer information om hur du använder REST-API:et för batchslutpunkter finns i Skapa jobb och indata för batchslutpunkter.

Pipelinen ser ut så här:

Diagram som visar den övergripande strukturen för pipelinen som du skapar.

Pipelinen innehåller följande aktiviteter:

  • Kör Batch-Endpoint: En webbaktivitet som använder batchslutpunkts-URI:n för att anropa den. Den skickar indata-URI:n där data finns och den förväntade utdatafilen.

  • Vänta på jobbet: Det är en loopaktivitet som kontrollerar statusen för det skapade jobbet och väntar på att det ska slutföras, antingen som Slutfört eller Misslyckat. Den här aktiviteten använder i sin tur följande aktiviteter:

    • Kontrollera status: En webbaktivitet som frågar efter statusen för jobbresursen som returnerades som ett svar på aktiviteten Kör Batch-slutpunkt .
    • Vänta: En vänteaktivitet som styr avsökningsfrekvensen för jobbets status. Vi anger ett standardvärde på 120 (2 minuter).

Pipelinen kräver att du konfigurerar följande parametrar:

Parameter Description Exempelvärde
endpoint_uri Slutpunktsbedömnings-URI https://<endpoint_name>.<region>.inference.ml.azure.com/jobs
poll_interval Antalet sekunder att vänta innan du kontrollerar jobbstatusen för slutförande. Standardvärdet är 120. 120
endpoint_input_uri Slutpunktens indata. Flera typer av dataindata stöds. Kontrollera att den hanterade identitet som du använder för att köra jobbet har åtkomst till den underliggande platsen. Om du använder datalager kan du också se till att autentiseringsuppgifterna anges där. azureml://datastores/.../paths/.../data/
endpoint_input_type Typen av indata som du anger. Batch-slutpunkter stöder för närvarande mappar (UriFolder) och Fil (UriFile). Standardvärdet är UriFolder. UriFolder
endpoint_output_uri Slutpunktens utdatafil. Det måste vara en sökväg till en utdatafil i ett datalager som är kopplat till Machine Learning-arbetsytan. Ingen annan typ av URI:er stöds. Du kan använda standarddatalagret för Azure Machine Learning med namnet workspaceblobstore. azureml://datastores/workspaceblobstore/paths/batch/predictions.csv

Varning

Kom ihåg att endpoint_output_uri bör vara sökvägen till en fil som inte finns ännu. Annars misslyckas jobbet med felet att sökvägen redan finns.

Skapa pipelinen

Följ dessa steg för att skapa den här pipelinen i din befintliga Azure Data Factory och anropa batchslutpunkter:

  1. Se till att den beräkning där batchslutpunkten körs har behörighet att montera de data som Azure Data Factory tillhandahåller som indata. Entiteten som anropar slutpunkten ger fortfarande åtkomst.

    I det här fallet är det Azure Data Factory. Den beräkning där batchslutpunkten körs måste dock ha behörighet att montera lagringskontot som Azure Data Factory tillhandahåller. Mer information finns i Åtkomst till lagringstjänster .

  2. Öppna Azure Data Factory Studio. Välj pennikonen för att öppna fönstret Författare och under Fabriksresurser väljer du plustecknet.

  3. Välj Pipelineimport>från pipelinemall.

  4. Välj en .zip fil.

  5. En förhandsgranskning av pipelinen visas i portalen. Välj Använd denna mall.

    Pipelinen skapas åt dig med namnet Run-BatchEndpoint.

  6. Konfigurera parametrarna för batchdistributionen:


Varning

Kontrollera att batchslutpunkten har en standarddistribution konfigurerad innan du skickar ett jobb till den. Den skapade pipelinen anropar slutpunkten. En standarddistribution måste skapas och konfigureras.

Dricks

För bästa återanvändning använder du den skapade pipelinen som en mall och anropar den inifrån andra Azure Data Factory-pipelines med hjälp av aktiviteten Kör pipeline. I så fall ska du inte konfigurera parametrarna i den inre pipelinen utan skicka dem som parametrar från den yttre pipelinen enligt följande bild:

Skärmbild av de pipelineparametrar som förväntas för den resulterande pipelinen när den anropas från en annan pipeline.

Din pipeline är redo att användas.

Begränsningar

Tänk på följande begränsningar när du använder Azure Machine Learning-batchdistributioner:

Dataindata

  • Endast Azure Machine Learning-datalager eller Azure Storage-konton (Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2) stöds som indata. Om dina indata finns i en annan källa använder du Azure Data Factory-aktiviteten Kopiera innan batchjobbet körs för att skicka data till ett kompatibelt lager.
  • Batch-slutpunktsjobb utforskar inte kapslade mappar. De kan inte fungera med kapslade mappstrukturer. Om dina data distribueras i flera mappar måste du platta ut strukturen.
  • Kontrollera att ditt bedömningsskript som tillhandahålls i distributionen kan hantera data eftersom de förväntas matas in i jobbet. Om modellen är MLflow, för begränsningarna för filtyper som stöds, se Distribuera MLflow-modeller i batchdistributioner.

Datautdata

  • Endast registrerade Azure Machine Learning-datalager stöds. Vi rekommenderar att du registrerar lagringskontot som Azure Data Factory använder som ett datalager i Azure Machine Learning. På så sätt kan du skriva tillbaka till samma lagringskonto som du läser.
  • Endast Azure Blob Storage-konton stöds för utdata. Azure Data Lake Storage Gen2 stöds till exempel inte som utdata i batchdistributionsjobb. Om du behöver mata ut data till en annan plats eller mottagare använder du Azure Data Factory-aktiviteten Kopiera när du har kört batchjobbet.