Bruke Livy-API-en til å sende inn og kjøre øktjobber

Artikkel
11/24/2024

Merk

Livy API for Fabric Dataingeniør ing er i forhåndsvisning.

Gjelder for:✅ Dataingeniør ing og datavitenskap i Microsoft Fabric

Send inn Spark-satsvise jobber ved hjelp av Livy API for Fabric Dataingeniør ing.

Forutsetning

Fabric Premium - eller Prøvekapasitet med lakehouse.
En ekstern klient som Visual Studio Code med Jupyter Notebooks, PySpark og Microsoft Authentication Library (MSAL) for Python.
Et Microsoft Entra-apptoken kreves for å få tilgang til Fabric Rest-API-en. Registrer et program med Microsofts identitetsplattform.
Noen data i lakehouse, dette eksemplet bruker NYC Taxi &Limousine Commission green_tripdata_2022_08 en parkett fil lastet til lakehouse.

Livy-API-en definerer et enhetlig endepunkt for operasjoner. Erstatt plassholderne {Entra_TenantID}, {Entra_ClientID}, {Fabric_WorkspaceID} og {Fabric_LakehouseID} med de riktige verdiene når du følger eksemplene i denne artikkelen.

Konfigurer Visual Studio Code for Livy API-økten

Velg Lakehouse-innstillinger i Fabric Lakehouse.
Gå til livy-endepunktinndelingen.
Kopier øktjobben tilkoblingsstreng (første røde boks i bildet) til koden.
Gå til administrasjonssenteret for Microsoft Entra, og kopier både program-ID-en (klient)- og katalog-ID-en (leier) til koden.

Opprette en Livy API Spark-økt

Opprett en .ipynb notatblokk i Visual Studio Code, og sett inn følgende kode.

from msal import PublicClientApplication
import requests
import time

tenant_id = "Entra_TenantID"
client_id = "Entra_ClientID"

workspace_id = "Fabric_WorkspaceID"
lakehouse_id = "Fabric_LakehouseID"

app = PublicClientApplication(
    client_id,
    authority="https://login.microsoftonline.com/43a26159-4e8e-442a-9f9c-cb7a13481d48"
)

result = None

# If no cached tokens or user interaction needed, acquire tokens interactively
if not result:
    result = app.acquire_token_interactive(scopes=["https://api.fabric.microsoft.com/Lakehouse.Execute.All", "https://api.fabric.microsoft.com/Lakehouse.Read.All", "https://api.fabric.microsoft.com/Item.ReadWrite.All", 
                                               "https://api.fabric.microsoft.com/Workspace.ReadWrite.All", "https://api.fabric.microsoft.com/Code.AccessStorage.All", "https://api.fabric.microsoft.com/Code.AccessAzureKeyvault.All", 
                                               "https://api.fabric.microsoft.com/Code.AccessAzureDataExplorer.All", "https://api.fabric.microsoft.com/Code.AccessAzureDataLake.All", "https://api.fabric.microsoft.com/Code.AccessFabric.All"])

# Print the access token (you can use it to call APIs)
if "access_token" in result:
    print(f"Access token: {result['access_token']}")
else:
    print("Authentication failed or no access token obtained.")

if "access_token" in result:
    access_token = result['access_token']
    api_base_url_mist='https://api.fabric.microsoft.com/v1'
    livy_base_url = api_base_url_mist + "/workspaces/"+workspace_id+"/lakehouses/"+lakehouse_id +"/livyApi/versions/2023-12-01/sessions"
    headers = {"Authorization": "Bearer " + access_token}

Kjør notatblokkcellen, et popup-vindu skal vises i nettleseren, slik at du kan velge identiteten du vil logge på med.
Når du har valgt identiteten du vil logge på med, blir du også bedt om å godkjenne API-tillatelsene for Microsoft Entra-appregistrering.
Lukk nettleservinduet etter at godkjenningen er fullført.
I Visual Studio Code skal du se Microsoft Entra-tokenet som returneres.

Legg til en annen notatblokkcelle, og sett inn denne koden.

create_livy_session = requests.post(livy_base_url, headers=headers, json={})
print('The request to create the Livy session is submitted:' + str(create_livy_session.json()))

livy_session_id = create_livy_session.json()['id']
livy_session_url = livy_base_url + "/" + livy_session_id
get_session_response = requests.get(livy_session_url, headers=headers)
print(get_session_response.json())

Kjør notatblokkcellen, du bør se én linje som skrives ut når Livy-økten opprettes.
Du kan bekrefte at Livy-økten er opprettet ved hjelp av [Vis jobbene dine i overvåkingshuben](#View jobbene dine i overvåkingshuben).

Send inn en spark.sql-setning ved hjelp av Livy API Spark-økten

Legg til en annen notatblokkcelle, og sett inn denne koden.

# call get session API
livy_session_id = create_livy_session.json()['id']
livy_session_url = livy_base_url + "/" + livy_session_id
get_session_response = requests.get(livy_session_url, headers=headers)
print(get_session_response.json())
while get_session_response.json()["state"] != "idle":
    time.sleep(5)
    get_session_response = requests.get(livy_session_url, headers=headers)

execute_statement = livy_session_url + "/statements"
payload_data =    {
    "code": "spark.sql(\"SELECT * FROM green_tripdata_2022_08 where fare_amount = 60\").show()",
    "kind": "spark"
    }
execute_statement_response = requests.post(execute_statement, headers=headers, json=payload_data)
print('the statement code is submitted as: ' + str(execute_statement_response.json()))

statement_id = str(execute_statement_response.json()['id'])
get_statement = livy_session_url+ "/statements/" + statement_id
get_statement_response = requests.get(get_statement, headers=headers)

while get_statement_response.json()["state"] != "available":
    # Sleep for 5 seconds before making the next request
    time.sleep(5)
    print('the statement code is submitted and running : ' + str(execute_statement_response.json()))

    # Make the next request
    get_statement_response = requests.get(get_statement, headers=headers)

rst = get_statement_response.json()['output']['data']['text/plain']
print(rst)

Kjør notatblokkcellen, du bør se flere trinnvise linjer skrevet ut når jobben sendes inn, og resultatene returneres.

Send inn en annen spark.sql-setning ved hjelp av Livy API Spark-økten

Legg til en annen notatblokkcelle, og sett inn denne koden.

# call get session API

livy_session_id = create_livy_session.json()['id']
livy_session_url = livy_base_url + "/" + livy_session_id
get_session_response = requests.get(livy_session_url, headers=headers)
print(get_session_response.json())
while get_session_response.json()["state"] != "idle":
    time.sleep(5)
    get_session_response = requests.get(livy_session_url, headers=headers)

execute_statement = livy_session_url + "/statements"
payload_data = {
    "code": "spark.sql(\"SELECT * FROM green_tripdata_2022_08 where tip_amount = 10\").show()",
    "kind": "spark"
}
execute_statement_response = requests.post(execute_statement, headers=headers, json=payload_data)
print('the statement code is submitted as: ' + str(execute_statement_response.json()))

statement_id = str(execute_statement_response.json()['id'])
get_statement = livy_session_url+ "/statements/" + statement_id
get_statement_response = requests.get(get_statement, headers=headers)

while get_statement_response.json()["state"] != "available":
# Sleep for 5 seconds before making the next request
    time.sleep(5)
    print('the statement code is submitted and running : ' + str(execute_statement_response.json()))

    # Make the next request
    get_statement_response = requests.get(get_statement, headers=headers)

rst = get_statement_response.json()['output']['data']['text/plain']
print(rst)

Kjør notatblokkcellen, du bør se flere trinnvise linjer skrevet ut når jobben sendes inn, og resultatene returneres.

Lukk Livy-økten med en tredje setning

Legg til en annen notatblokkcelle, og sett inn denne koden.

# call get session API with a delete session statement

get_session_response = requests.get(livy_session_url, headers=headers)
print('Livy statement URL ' + livy_session_url)

response = requests.delete(livy_session_url, headers=headers)
print (response)

Vise jobbene dine i overvåkingshuben

Du kan få tilgang til overvåkingshuben for å vise ulike Apache Spark-aktiviteter ved å velge Monitor i navigasjonskoblingene til venstre.

Når økten pågår eller er i fullført tilstand, kan du vise øktstatusen ved å navigere til Monitor.
Velg og åpne det nyeste aktivitetsnavnet.
I dette livy API-økttilfellet kan du se tidligere øktinnsendinger, kjøre detaljer, Spark-versjoner og konfigurasjon. Legg merke til stoppet status øverst til høyre.

Hvis du vil oppsummere hele prosessen, trenger du en ekstern klient, for eksempel Visual Studio Code, et Microsoft Entra-apptoken, Livy API-endepunktnettadresse, godkjenning mot Lakehouse og til slutt en Session Livy API.

Del via

Bruke Livy-API-en til å sende inn og kjøre øktjobber

Forutsetning

Konfigurer Visual Studio Code for Livy API-økten

Opprette en Livy API Spark-økt

Send inn en spark.sql-setning ved hjelp av Livy API Spark-økten

Send inn en annen spark.sql-setning ved hjelp av Livy API Spark-økten

Lukk Livy-økten med en tredje setning

Vise jobbene dine i overvåkingshuben

Tilbakemeldinger

Flere ressurser

Del via

Bruke Livy-API-en til å sende inn og kjøre øktjobber

Forutsetning

Konfigurer Visual Studio Code for Livy API-økten

Opprette en Livy API Spark-økt

Send inn en spark.sql-setning ved hjelp av Livy API Spark-økten

Send inn en annen spark.sql-setning ved hjelp av Livy API Spark-økten

Lukk Livy-økten med en tredje setning

Vise jobbene dine i overvåkingshuben

Relatert innhold

Tilbakemeldinger

Flere ressurser