Taakbrowser en taakweergave gebruiken voor Azure Data Lake Analytics
Belangrijk
Azure Data Lake Analytics op 29 februari 2024 buiten gebruik gesteld. Meer informatie over deze aankondiging.
Voor gegevensanalyse kan uw organisatie gebruikmaken van Azure Synapse Analytics of Microsoft Fabric.
De Azure Data Lake Analytics-service archiveert taken die zijn ingediend in een querystore. In dit artikel leert u hoe u Taakbrowser en Taakweergave gebruikt in Azure Data Lake Tools voor Visual Studio om de historische taakgegevens te vinden.
Standaard worden de taken gedurende 30 dagen door de Data Lake Analytics-service gearchiveerd. De verloopperiode kan worden geconfigureerd vanuit de Azure Portal door het aangepaste verloopbeleid te configureren. U hebt na verloop van tijd geen toegang meer tot de taakgegevens.
Vereisten
Zie Vereisten voor Data Lake Tools voor Visual Studio.
De taakbrowser openen
Open de taakbrowser via Server Explorer>Azure> Data Lake Analytics> Jobs in Visual Studio. Met de taakbrowser hebt u toegang tot het queryarchief van een Data Lake Analytics-account. Taakbrowser geeft Query Store aan de linkerkant weer, met basistaakgegevens en Taakweergave aan de rechterkant met gedetailleerde taakgegevens.
Taakweergave
Taakweergave toont de gedetailleerde informatie van een taak. Als u een taak wilt openen, dubbelklikt u op een taak in de taakbrowser of opent u de taak vanuit het data lake-menu door op Taakweergave te klikken. Als het goed is, ziet u een dialoogvenster met de taak-URL.
Taakweergave bevat:
Taakoverzicht
Vernieuw de taakweergave om de recentere informatie over het uitvoeren van taken weer te geven.
Taakstatus (grafiek):
Taakstatus geeft een overzicht van de taakfasen:
Voorbereiden: upload uw script naar de cloud, compileer en optimaliseer het script met behulp van de compileerservice.
In wachtrij: taken worden in de wachtrij geplaatst wanneer ze wachten op voldoende resources of wanneer de taken de limiet voor het maximum aantal gelijktijdige taken per account overschrijden. De prioriteitsinstelling bepaalt de volgorde van taken in de wachtrij: hoe lager het aantal, hoe hoger de prioriteit.
Uitvoeren: de taak wordt daadwerkelijk uitgevoerd in uw Data Lake Analytics-account.
Voltooien: de taak wordt voltooid (bijvoorbeeld het voltooien van het bestand).
De taak kan in elke fase mislukken. Bijvoorbeeld compilatiefouten in de voorbereidingsfase, time-outfouten in de fase In wachtrij en uitvoeringsfouten in de fase Actief, enzovoort.
Algemene informatie
De basistaakgegevens worden weergegeven in het onderste gedeelte van het deelvenster Taakoverzicht.
- Taakresultaat: geslaagd of mislukt. De taak kan in elke fase mislukken.
- Totale duur: tijd van wandklok (duur) tussen het indienen van de tijd en de eindtijd.
- Totale rekentijd: de som van elke uitvoeringstijd van het hoekpunt. U kunt deze beschouwen als de tijd waarop de taak in slechts één hoekpunt wordt uitgevoerd. Raadpleeg Totaal aantal hoekpunten voor meer informatie over hoekpunten.
- Verzend-/begin-/eindtijd: het tijdstip waarop de Data Lake Analytics-service taakinzending ontvangt/start om de taak uit te voeren/de taak al dan niet met succes beëindigt.
- Compilatie/in de wachtrij/in uitvoering: tijd van wandklok die is besteed tijdens de fase Voorbereiden/In wachtrij geplaatst/Actief.
- Account: het Data Lake Analytics-account dat wordt gebruikt voor het uitvoeren van de taak.
- Auteur: De gebruiker die de taak heeft ingediend, kan het account van een echte persoon of een systeemaccount zijn.
- Prioriteit: de prioriteit van de taak. Hoe lager het getal, hoe hoger de prioriteit. Dit is alleen van invloed op de volgorde van de taken in de wachtrij. Als u een hogere prioriteit instelt, worden er geen taken uitgevoerd.
- Parallellisme: Het aangevraagde maximum aantal gelijktijdige Azure Data Lake Analytics Units (ADLAUs), ook wel hoekpunten genoemd. Momenteel is één hoekpunt gelijk aan één virtuele machine met twee virtuele kernen en zes GB RAM, hoewel dit in toekomstige Data Lake Analytics updates kan worden bijgewerkt.
- Nog bytes: bytes die moeten worden verwerkt totdat de taak is voltooid.
- Bytes gelezen/geschreven: bytes die zijn gelezen/geschreven sinds de taak is gestart.
- Totaal aantal hoekpunten: De taak is onderverdeeld in veel werkstukken, elk werk wordt een hoekpunt genoemd. Met deze waarde wordt aangegeven uit hoeveel werk de taak bestaat. U kunt een hoekpunt beschouwen als een basisproceseenheid, ook wel bekend als Azure Data Lake Analytics Unit (ADLAU), en hoekpunten kunnen parallel worden uitgevoerd.
- Voltooid/Uitgevoerd/Mislukt: het aantal voltooide/actieve/mislukte hoekpunten. Hoekpunten kunnen mislukken vanwege zowel gebruikerscode als systeemfouten, maar het systeem probeert mislukte hoekpunten automatisch een paar keer opnieuw. Als het hoekpunt na het opnieuw proberen nog steeds mislukt, mislukt de hele taak.
Taakgrafiek
Een U-SQL-script vertegenwoordigt de logica van het transformeren van invoergegevens naar uitvoergegevens. Het script wordt gecompileerd en geoptimaliseerd voor een fysiek uitvoeringsplan in de fase Voorbereiden. Taakgrafiek is bedoeld om het fysieke uitvoeringsplan weer te geven. In het volgende diagram ziet u het proces:
Een taak is opgesplitst in veel werkstukken. Elk werk wordt een hoekpunt genoemd. De hoekpunten worden gegroepeerd als Super Vertex (ook wel fase genoemd) en gevisualiseerd als Job Graph. Op de groene fasetekens in de taakgrafiek worden de fasen weergegeven.
Elk hoekpunt in een fase doet hetzelfde soort werk met verschillende stukjes van dezelfde gegevens. Als u bijvoorbeeld een bestand hebt met gegevens van één TB en er honderden hoekpunten uit worden gelezen, leest elk van hen een segment. Deze hoekpunten zijn gegroepeerd in dezelfde fase en doen hetzelfde werk op verschillende onderdelen van hetzelfde invoerbestand.
-
In een bepaalde fase worden sommige getallen weergegeven in het plakteken.
SV1-extract: de naam van een fase, benoemd door een getal en de bewerkingsmethode.
84 hoekpunten: het totale aantal hoekpunten in deze fase. De afbeelding geeft aan hoeveel werkstukken in deze fase zijn verdeeld.
12,90 s/hoekpunt: de gemiddelde uitvoeringstijd van het hoekpunt voor deze fase. Dit getal wordt berekend met SOM (elke uitvoeringstijd van het hoekpunt) / (totaal aantal hoekpunten). Dit betekent dat als u alle hoekpunten die parallel worden uitgevoerd, kunt toewijzen, de hele fase in 12,90 s is voltooid. Dit betekent ook dat als al het werk in deze fase serieel wordt uitgevoerd, de kosten #vertices * AVG-tijd zijn.
850.895 rijen geschreven: totaal aantal rijen dat in deze fase is geschreven.
R/W: hoeveelheid gegevens die in deze fase worden gelezen/geschreven in bytes.
Kleuren: kleuren worden in de fase gebruikt om verschillende hoekpuntstatussen aan te geven.
- Groen geeft aan dat het hoekpunt is geslaagd.
- Oranje geeft aan dat het hoekpunt opnieuw wordt geprobeerd. Het opnieuw geprobeerd hoekpunt is mislukt, maar wordt automatisch en met succes opnieuw geprobeerd door het systeem en de algehele fase is voltooid. Als het hoekpunt opnieuw is geprobeerd, maar nog steeds is mislukt, wordt de kleur rood en is de hele taak mislukt.
- Rood geeft aan dat is mislukt, wat betekent dat een bepaald hoekpunt een paar keer opnieuw is geprobeerd door het systeem, maar nog steeds is mislukt. Dit scenario zorgt ervoor dat de hele taak mislukt.
- Blauw betekent dat er een bepaald hoekpunt wordt uitgevoerd.
- Wit geeft aan dat het hoekpunt wacht. Het hoekpunt kan wachten om te worden gepland zodra een ADLAU beschikbaar is, of het kan wachten op invoer omdat de invoergegevens mogelijk niet gereed zijn.
U kunt meer details voor de fase vinden door de muisaanwijzer één status aan te bewegen:
Hoekpunten: beschrijft de details van de hoekpunten, bijvoorbeeld hoeveel hoekpunten in totaal, hoeveel hoekpunten zijn voltooid, of ze zijn mislukt of nog actief/wachtend, enzovoort.
Gegevens die cross/intra pod worden gelezen: bestanden en gegevens worden opgeslagen in meerdere pods in het gedistribueerde bestandssysteem. De waarde hier beschrijft hoeveel gegevens zijn gelezen in dezelfde pod of cross-pod.
Totale rekentijd: De som van elke uitvoeringstijd van het hoekpunt in de fase. U kunt dit beschouwen als de tijd die nodig is als al het werk in de fase in slechts één hoekpunt wordt uitgevoerd.
Gegevens en rijen die zijn geschreven/gelezen: geeft aan hoeveel gegevens of rijen zijn gelezen/geschreven of moeten worden gelezen.
Fouten bij het lezen van hoekpunten: hierin wordt beschreven hoeveel hoekpunten zijn mislukt tijdens het lezen van gegevens.
Verwijderingen van dubbele hoekpunten: als een hoekpunt te traag wordt uitgevoerd, kan het systeem meerdere hoekpunten plannen om hetzelfde werk uit te voeren. Redundante hoekpunten worden verwijderd zodra een van de hoekpunten is voltooid. Bij het verwijderen van hoekpuntendupliceren wordt het aantal hoekpunten geregistreerd dat als duplicaties in de fase wordt verwijderd.
Intrekkingen van hoekpunten: het hoekpunt is geslaagd, maar wordt later om enkele redenen opnieuw uitgevoerd. Als downstream-hoekpunt bijvoorbeeld tussenliggende invoergegevens verliest, wordt het upstream-hoekpunt gevraagd om opnieuw uit te voeren.
Uitvoeringen van hoekpuntplanningen: de totale tijd dat de hoekpunten zijn gepland.
Min/gemiddelde/max. gelezen hoekpuntgegevens: het minimum/gemiddelde/maximum van elk gelezen hoekpunt.
Duur: de tijd van de wandklok die een fase nodig heeft, moet u het profiel laden om deze waarde te zien.
Taak afspelen
Data Lake Analytics voert taken uit en archiveert de informatie over de hoekpunten waarop de taken worden uitgevoerd, zoals wanneer de hoekpunten zijn gestart, gestopt, mislukt en hoe ze worden geprobeerd, enzovoort. Alle informatie wordt automatisch geregistreerd in het queryarchief en opgeslagen in het bijbehorende taakprofiel. U kunt het taakprofiel downloaden via 'Taakprofiel' in de taakweergave en u kunt de taakweergave bekijken nadat u het taakprofiel hebt gedownload.
Taak afspelen is een belichamingsvisualisatie van wat er in het cluster is gebeurd. Hiermee kunt u watch voortgang van taakuitvoering en prestatieafwijkingen en knelpunten visueel detecteren in een zeer korte tijd (meestal minder dan 30).
Weergave van taak-heatmap
Taak heatmap kan worden geselecteerd via de vervolgkeuzelijst Weergave in Taakgrafiek.
Hier ziet u de heatmap I/O, tijd en doorvoer van een taak, waarmee u kunt vinden waar de taak de meeste tijd doorbrengt, of dat uw taak een I/O-grenstaak is, enzovoort.
- Voortgang: de voortgang van de taakuitvoering, zie Informatie in fasegegevens.
- Gelezen/geschreven gegevens: de heatmap van het totale aantal gegevens dat in elke fase is gelezen/geschreven.
- Rekentijd: de heatmap van SUM (elke uitvoeringstijd van het hoekpunt), u kunt dit beschouwen als hoe lang het zou duren als al het werk in de fase wordt uitgevoerd met slechts één hoekpunt.
- Gemiddelde uitvoeringstijd per knooppunt: de heatmap van SUM (elke uitvoeringstijd van het hoekpunt) / (hoekpuntnummer). Dit betekent dat als u alle hoekpunten kunt toewijzen die parallel worden uitgevoerd, de hele fase in dit tijdsbestek wordt uitgevoerd.
- Invoer-/uitvoerdoorvoer: het heatmap van de invoer-/uitvoerdoorvoer van elke fase. U kunt hiermee controleren of uw taak een I/O-gebonden taak is.
-
Metagegevensbewerkingen
U kunt bepaalde metagegevensbewerkingen uitvoeren in uw U-SQL-script, zoals een database maken, een tabel verwijderen, enzovoort. Deze bewerkingen worden weergegeven in Metagegevensbewerking na compilatie. U kunt hier asserties vinden, entiteiten maken en entiteiten verwijderen.
Statusgeschiedenis
De statusgeschiedenis wordt ook gevisualiseerd in Taakoverzicht, maar u kunt hier meer details krijgen. U kunt gedetailleerde informatie vinden, zoals wanneer de taak is voorbereid, in de wachtrij is geplaatst, is gestart met uitvoeren of is beëindigd. U kunt ook zien hoe vaak de taak is gecompileerd (de CcsAttempts: 1), wanneer de taak daadwerkelijk naar het cluster is verzonden (details: taak verzenden naar cluster), enzovoort.
Diagnostiek
Het hulpprogramma diagnosticeert automatisch de taakuitvoering. U ontvangt waarschuwingen wanneer er fouten of prestatieproblemen zijn in uw taken. Houd er rekening mee dat u Profiel moet downloaden om hier volledige informatie te krijgen.
- Waarschuwingen: hier wordt een waarschuwing weergegeven met compilerwaarschuwing. U kunt de koppeling 'x probleem(en)' selecteren om meer details weer te geven zodra de waarschuwing wordt weergegeven.
- Hoekpunt loopt te lang: als een hoekpunt te weinig tijd heeft (bijvoorbeeld 5 uur), vindt u hier problemen.
- Resourcegebruik: als u meer of onvoldoende parallelle uitvoering hebt toegewezen dan nodig is, vindt u hier problemen. U kunt ook Resourcegebruik selecteren om meer details te zien en wat-als-scenario's uit te voeren om een betere resourcetoewijzing te vinden (zie deze handleiding voor meer informatie).
- Geheugencontrole: als een hoekpunt meer dan 5 GB geheugen gebruikt, vindt u hier problemen. Taakuitvoering kan worden beëindigd door het systeem als het meer geheugen gebruikt dan systeembeperking.
Taakdetails
Taakdetails toont de gedetailleerde informatie van de taak, waaronder script, resources en uitvoeringsweergave van hoekpunten.
Script
Het U-SQL-script van de taak wordt opgeslagen in de Query Store. U kunt het oorspronkelijke U-SQL-script weergeven en indien nodig opnieuw indienen.
Resources
U vindt de taakcompilatie-uitvoer die is opgeslagen in het queryarchief via Resources. U kunt hier bijvoorbeeld 'algebra.xml' vinden die wordt gebruikt om de taakgrafiek, de assembly's die u hebt geregistreerd, enzovoort weer te geven.
Weergave voor uitvoering van hoekpunt
De details van de uitvoering van hoekpunten worden weergegeven. Het taakprofiel archiveert elk uitvoeringslogboek van het hoekpunt, zoals het totale aantal gelezen/geschreven gegevens, runtime, status, enzovoort. In deze weergave krijgt u meer informatie over hoe een taak is uitgevoerd. Zie De weergave hoekpuntuitvoering gebruiken in Data Lake Tools voor Visual Studio voor meer informatie.
Volgende stappen
- Zie Accessing diagnostics logs for Azure Data Lake Analytics (Diagnostische logboeken openen voor Azure Data Lake Analytics) voor logboekregistratie van diagnostische informatie.
- Zie Websitelogboeken analyseren met Azure Data Lake Analytics voor een complexere query.
- Zie De uitvoeringsweergave voor hoekpunten gebruiken in Data Lake Tools voor Visual Studio als u de uitvoeringsweergave voor hoekpunten wilt gebruiken