Usare Job Browser e Job View per Azure Data Lake Analytics

Articolo
12/20/2023

Importante

Azure Data Lake Analytics è stato ritirato il 29 febbraio 2024. Per altre informazioni, vedere questo annuncio.

Per l'analisi dei dati, l'organizzazione può usare Azure Synapse Analytics o Microsoft Fabric.

Il servizio Azure Data Lake Analytics archivia i processi inviati in un archivio query. Questo articolo illustra come usare Job Browser e Job View in Azure Data Lake Tools per Visual Studio per trovare le informazioni cronologiche sui processi.

Per impostazione predefinita, il servizio Data Lake Analytics archivia i processi per 30 giorni. Il periodo di scadenza può essere configurato dal portale di Azure configurando i criteri di scadenza personalizzati. Non sarà possibile accedere alle informazioni sul lavoro dopo la scadenza.

Prerequisiti

Vedere Prerequisiti di Data Lake Tools per Visual Studio.

Apri il Navigator di lavori

Accedere al Browser delle operazioni tramite Esplora server di >Azure>Data Lake Analytics>Processi in Visual Studio. Usando il Job Browser, è possibile accedere all'archivio delle query di un account Data Lake Analytics. Visualizzatore di Processi visualizza Query Store a sinistra, con informazioni di base sul processo e Visualizzazione Processo a destra che mostra informazioni dettagliate sul processo.

Visualizzazione del lavoro

Vista lavoro mostra le informazioni dettagliate di un lavoro. Per aprire un processo, è possibile fare doppio clic su un processo nel Browser processi oppure aprirlo dal menu Data Lake facendo clic su Visualizzazione processi. Verrà visualizzata una finestra di dialogo popolata con l'URL del lavoro.

Data Lake Tools Visual Studio Job Browser

La vista attività contiene:

Riepilogo del lavoro

Aggiornare la visualizzazione processo per visualizzare le informazioni più recenti sull'esecuzione dei processi.
- Stato del lavoro (grafico)
  
  Stato del lavoro descrive le fasi del lavoro:
  - Preparazione: caricare lo script nel cloud, compilare e ottimizzare lo script usando il servizio di compilazione.
  - In coda: i processi vengono accodati quando sono in attesa di risorse sufficienti o i processi superano il numero massimo di processi simultanei per ogni limitazione dell'account. L'impostazione di priorità determina la sequenza dei lavori in coda: più basso è il numero, maggiore è la priorità.
  - In esecuzione: il processo è effettivamente in esecuzione nel tuo account Data Lake Analytics.
  - Finalizzazione: il processo viene completato (ad esempio, finalizzando il file).
    
    Il processo può avere esito negativo in ogni fase. Ad esempio, gli errori di compilazione nella fase di preparazione, gli errori di timeout nella fase in coda e gli errori di esecuzione nella fase in esecuzione e così via.
- Informazioni di base
  
  Le informazioni di base sul lavoro vengono visualizzate nella parte inferiore del pannello Riepilogo lavoro.
  - Risultato del lavoro: riuscito o non riuscito. Il processo potrebbe non riuscire in ogni fase.
  - Durata totale: tempo reale (durata) tra l'ora di invio e l'ora di fine.
  - Tempo di calcolo totale: la somma di ogni tempo di esecuzione dei vertici, è possibile considerarla come l'ora in cui il processo viene eseguito in un solo vertice. Per ulteriori informazioni sui vertici, fare riferimento a Total Vertices.
  - Ora di invio/inizio/fine: il momento in cui il servizio Data Lake Analytics riceve l'invio del processo/inizia a eseguire il processo/termina il processo, che abbia avuto esito positivo o meno.
  - Compilazione/In coda/Esecuzione: tempo totale trascorso durante la fase di Preparazione/Accodamento/Esecuzione.
  - Account: Account di Data Lake Analytics usato per l'esecuzione del job.
  - Autore: l'utente che ha inviato il lavoro, può essere un account associato a una persona reale o un account di sistema.
  - Priorità: la priorità del lavoro. Minore è il numero, maggiore è la priorità. Influisce solo sulla sequenza dei processi nella coda. Impostare una priorità più alta non preempta i processi in esecuzione.
  - Parallelismo: numero massimo richiesto di unità di Azure Data Lake Analytics (ADLAU) simultanee, note anche come vertici. Attualmente, un vertice è uguale a una macchina virtuale con due core virtuali e 6 GB di RAM, anche se questo potrebbe essere aggiornato negli aggiornamenti futuri di Data Lake Analytics.
  - Bytes Rimanenti: Bytes che devono essere elaborati fino al completamento del lavoro.
  - Byte letti/scritti: Byte letti/scritti dall'avvio del compito.
  - Vertici totali: il processo viene suddiviso in molti pezzi di lavoro, ogni parte di lavoro viene chiamata vertice. Questo valore descrive quanti compiti compongono l'attività. È possibile considerare un vertice come unità di processo di base, nota anche come unità di analisi di Azure Data Lake (ADLAU) e i vertici possono essere eseguiti in parallelo.
  - Completato/In esecuzione/Non riuscito: numero di vertici completati/in esecuzione/non riusciti. I vertici possono non riuscire a causa di errori di codice utente e di sistema, ma il sistema ritenta automaticamente i vertici non riusciti più volte. Se il vertice risulta non riuscito dopo un nuovo tentativo, l'intero processo fallirà.
Grafico lavori

Uno script U-SQL rappresenta la logica di trasformazione dei dati di input in dati di output. Lo script viene compilato e ottimizzato per un piano di esecuzione fisico in fase di preparazione. Job Graph consiste nel mostrare il piano di esecuzione fisico. Il diagramma seguente illustra il processo:

lo stato delle fasi del processo di Azure Data Lake Analytics

Un lavoro è suddiviso in molti pezzi di lavoro. Ogni elemento di lavoro viene chiamato Vertice. I vertici vengono raggruppati come Super Vertice (noto anche come fase) e visualizzati come Grafico dei lavori. I cartelloni di fase verdi nel grafico del lavoro mostrano le fasi.

Ogni vertice in una fase esegue lo stesso tipo di lavoro con parti diverse degli stessi dati. Ad esempio, se si dispone di un file con dati di un terabyte e ci sono centinaia di vertici che leggono da esso, ciascuno di essi legge un blocco. Questi vertici sono raggruppati nella stessa fase e svolgono lo stesso lavoro su parti diverse dello stesso file di input.
- Informazioni sullo stadio
  
  In una fase particolare, alcuni numeri sono mostrati nel cartello.
  - SV1 Extract: nome di una fase, denominato da un numero e dal metodo dell'operazione.
  - 84 vertici: numero totale di vertici in questa fase. La figura indica il numero di pezzi di lavoro divisi in questa fase.
  - 12,90 s/vertice: tempo medio di esecuzione dei vertici per questa fase. Questo valore viene calcolato dalla somma del tempo di esecuzione di ogni vertice diviso per il conteggio totale dei vertici. Ciò significa che se è possibile assegnare tutti i vertici eseguiti in parallelismo, l'intera fase viene completata in 12,90 s. Significa anche che, se tutto il lavoro in questa fase viene eseguito in serie, il costo sarebbe pari a numero di vertici * tempo medio.
  - 850.895 righe scritte: numero totale di righe scritto in questa fase.
  - R/W: quantità di dati letti/scritti in questa fase in byte.
  - Colori: i colori vengono usati nella fase per indicare uno stato di vertice diverso.
    - Verde indica che il vertice è stato completato con successo.
    - L'arancione indica che il vertice è stato tentato nuovamente. Il vertice ritentato non è riuscito, ma il sistema lo ritenta automaticamente con successo, e la fase complessiva viene completata con successo. Se il vertice è stato ritentato ma ancora non riuscito, il colore diventa rosso e l'intero processo non è riuscito.
    - Il rosso indica che non è riuscito, il che significa che un determinato vertice è stato ritentato alcune volte dal sistema, ma ancora non riuscito. Questo scenario causa l'esito negativo dell'intero processo.
    - Il blu significa che un determinato vertice è in esecuzione.
    - Il bianco indica che il vertice è In attesa. Il vertice potrebbe essere in attesa di essere pianificato una volta che un ADLAU diventa disponibile oppure potrebbe attendere l'input perché i dati di input potrebbero non essere pronti.
    Si possono trovare altri dettagli per la fase portando il puntatore del mouse sopra uno stato.
- Vertici: descrive i dettagli dei vertici, ad esempio quanti sono in totale, quanti sono stati completati, se sono falliti o ancora in esecuzione/in attesa, ecc.
- Lettura dei dati tra e all'interno dei pod: i file e i dati vengono archiviati in più pod nel file system distribuito. Il valore qui descrive la quantità di dati letti nello stesso pod o da un pod all'altro.
- Tempo di calcolo totale: la somma di ogni tempo di esecuzione dei vertici nella fase, è possibile considerarla come il tempo necessario se tutto il lavoro nella fase venga eseguito in un solo vertice.
- Dati e righe scritte/lette: indica la quantità di dati o righe lette/scritte o che devono essere lette.
- Errori di lettura dei vertici: descrive il numero di vertici non riusciti durante la lettura dei dati.
- Scartare i duplicati dei vertici: se un vertice viene eseguito troppo lentamente, il sistema potrebbe pianificare l'esecuzione di più vertici per lo stesso compito. I vertici ridondanti verranno scartati una volta che uno dei vertici completi con successo. Registra il numero di vertici scartati come duplicati nella fase.
- Revoche di vertici: il vertice ha avuto successo, ma viene rieseguito successivamente per alcuni motivi. Ad esempio, se il vertice downstream perde i dati di input intermedi, chiederà al vertice upstream di rieseguire.
- Esecuzioni programmate dei vertici: tempo totale di esecuzione dei vertici.
- Min/Media/Max Lettura dati dei vertici: Il minimo/media/massimo di ogni dato letto per i vertici.
- Durata: Il tempo reale che una fase richiede; è necessario caricare il profilo per visualizzare questo valore.
- Riproduzione di lavori
  
  Data Lake Analytics esegue attività e archivia le informazioni sui vertici delle attività, ad esempio quando i vertici vengono avviati, arrestati, falliti e come vengono ritentati, ecc. Tutte le informazioni vengono registrate automaticamente nell'archivio query e archiviate nel profilo del processo. È possibile scaricare il profilo processo tramite "Profilo di caricamento" in Visualizzazione processo ed è possibile visualizzare la riproduzione dei processi dopo aver scaricato il profilo processo.
  
  La riproduzione dei processi è una visualizzazione epitome di ciò che è accaduto nel cluster. Consente di monitorare lo stato di avanzamento dell'esecuzione del lavoro e rilevare visivamente anomalie delle prestazioni e colli di bottiglia in pochissimo tempo (meno di 30 secondi di solito).
- Visualizzazione mappa termica delle attività
  
  È possibile selezionare Mappa termica del processo tramite l'elenco a discesa Display in Grafico processo.
  
  Mostra la mappa termica di I/O, tempo e velocità effettiva di un processo, attraverso la quale è possibile trovare dove il processo impiega la maggior parte del tempo o se il processo è un processo limite di I/O e così via.
  - Avanzamento: l'avanzamento dell'esecuzione del processo, consultare le informazioni nella sezione informativa.
  - Dati letti/scritti: mappa termica dei dati totali letti/scritti in ogni fase.
  - Tempo di calcolo: mappa termica di SUM, il tempo di esecuzione di ogni vertice, è possibile considerare quanto tempo sarebbe necessario se tutto il lavoro nella fase venisse eseguito con un solo vertice.
  - Tempo medio di esecuzione per nodo: mappa termica della SOMMA (tempo di esecuzione di ogni vertice) / (numero di vertici). Ciò significa che se è possibile assegnare tutti i vertici eseguiti in parallelismo, l'intera fase verrà eseguita in questo intervallo di tempo.
  - Velocità effettiva di input/output: la mappa termica della velocità effettiva di input/output di ciascuna fase ti permette di verificare se il tuo lavoro è limitato da I/O tramite questa mappa.
Operazioni sui metadati

È possibile eseguire alcune operazioni sui metadati nello script U-SQL, ad esempio creare un database, eliminare una tabella e così via. Queste operazioni vengono visualizzate in Operazione metadati dopo la compilazione. È possibile trovare asserzioni, creare entità, eliminare le entità qui.
Cronologia stato

La cronologia degli stati è visualizzata anche nel Riepilogo processi, ma è possibile ottenere ulteriori dettagli qui. È possibile trovare le informazioni dettagliate, ad esempio quando il processo viene preparato, accodato, avviato, terminato. È anche possibile trovare il numero di volte in cui il processo è stato compilato (CcsAttempts: 1), quando il processo viene inviato al cluster in realtà (dettagli: invio del processo al cluster) e così via.

cronologia dello stato della visualizzazione processi di Azure Data Lake Analytics
Diagnostica

Lo strumento consente di diagnosticare automaticamente l'esecuzione del processo. Riceverai avvisi quando ci sono degli errori o problemi di prestazioni nei tuoi lavori. Si noti che è necessario scaricare Il profilo per ottenere informazioni complete qui.
- Avvertenze: viene visualizzato un avviso qui con un messaggio di avviso del compilatore. È possibile selezionare il collegamento "x issue(s)" per avere altri dettagli una volta visualizzato l'avviso.
- Vertex funziona troppo a lungo: se un nodo esaurisce il tempo (ad esempio 5 ore), i problemi si troveranno qui.
- Utilizzo delle risorse: se è stato allocato più o meno un numero sufficiente di parallelismi rispetto alle esigenze, i problemi saranno disponibili qui. È anche possibile selezionare Utilizzo risorse per visualizzare altri dettagli ed eseguire scenari di simulazione per trovare un'allocazione delle risorse migliore (per altri dettagli, vedere questa guida).
- Controllo della memoria: se un vertice usa più di 5 GB di memoria, i problemi saranno rilevati qui. L'esecuzione del lavoro potrebbe essere terminata dal sistema se utilizza più memoria rispetto ai limiti imposti dal sistema.

Dettagli lavoro

Dettagli lavoro mostra le informazioni dettagliate del lavoro, tra cui Script, Risorse e Vista esecuzione Vertex.

dettagli del processo di Azure Data Lake Analytics

Script

Lo script U-SQL del processo viene archiviato nell'archivio query. È possibile visualizzare lo script U-SQL originale e inviarlo nuovamente, se necessario.
Risorse

È possibile trovare gli output di compilazione dei lavori memorizzati nell'archivio query tramite Risorse. Ad esempio, qui è possibile trovare "algebra.xml", che viene usato per visualizzare il grafico dei lavori, gli assembly registrati e così via.
Visualizzazione esecuzione vertice

Mostra i dettagli dell'esecuzione dei vertici. Il profilo processo archivia ogni log di esecuzione dei vertici, ad esempio dati totali letti/scritti, runtime, stato e così via. Tramite questa visualizzazione è possibile ottenere altri dettagli sulla modalità di esecuzione di un processo. Per altre informazioni, vedere Vista di esecuzione dei vertici nei Tool di Data Lake per Visual Studio.

Passaggi successivi

Per registrare le informazioni di diagnostica, vedere Accesso ai log di diagnostica per Azure Data Lake Analytics
Per visualizzare una query più complessa, vedere Analizzare i log del sito Web mediante Azure Data Lake Analytics.
Per usare la visualizzazione di esecuzione dei vertici, vedere Usare la vista esecuzione vertici in Strumenti Data Lake per Visual Studio

Condividi tramite