Klassificering med AutoML
Använd AutoML för att automatiskt hitta den bästa klassificeringsalgoritmen och hyperparameterkonfigurationen för att förutsäga etiketten eller kategorin för en viss indata.
Set upp klassificeringsexperiment med användargränssnittet
Du kan set upp ett klassificeringsproblem med hjälp av AutoML-användargränssnittet med följande steg:
I sidofältet selectExperimenten.
I Classification kortet, starta selectutbildning.
Sidan Konfigurera AutoML-experiment visas. På den här sidan konfigurerar du AutoML-processen, anger datamängden, problemtypen, målet eller etiketten column att förutsäga, mått som ska användas för att utvärdera och bedöma experimentkörningar och stoppvillkor.
I fältet Computeselect ett kluster som kör Databricks Runtime ML.
Under Datauppsättning, selectBläddra.
Gå till den table du vill använda och klicka på Select. table schema visas.
- I Databricks Runtime 10.3 ML och senare kan du ange vilken columns AutoML som ska användas för träning. Du kan inte remove det column som har valts som prediktionsmål eller tidsgränsen column för att dela upp data.
- I Databricks Runtime 10.4 LTS ML och senare kan du ange hur null-values ska imputeras genom att välja från listrutan Impute med. Som standard väljer AutoML en imputationsmetod baserat på column typ och innehåll.
Kommentar
Om du anger en imputationsmetod som inte är standard utför AutoML inte semantisk typidentifiering.
Klicka i fältet Förutsägelsemål . En listruta visas och listar columns som visas i schema. Select column du vill att modellen ska förutsäga.
Fältet Experimentnamn visar standardnamnet. Om du vill ändra det skriver du det nya namnet i fältet.
Du kan även:
- Ange ytterligare konfigurationsalternativ.
- Använd befintlig funktionalitet tables i Feature Store för att utöka den ursprungliga datamängden.
Avancerade konfigurationer
Öppna avsnittet Avancerad konfiguration (valfritt) för att få åtkomst till dessa parameters.
- Utvärderingsmåttet är det primära måttet som används för att bedöma körningarna.
- I Databricks Runtime 10.4 LTS ML och senare kan du undanta träningsramverk från övervägande. Som standard tränar AutoML modeller med ramverk som anges under AutoML-algoritmer.
- Du kan redigera stoppvillkoren. Standardvillkor för stopp är:
- Stoppa efter 120 minuter för prognostiseringsexperiment.
- I Databricks Runtime 10.4 LTS ML och nedan ska du för klassificerings- och regressionsexperiment stoppa efter 60 minuter eller efter att ha slutfört 200 utvärderingsversioner, beroende på vilket som inträffar först. För Databricks Runtime 11.0 ML och senare används inte antalet utvärderingsversioner som ett stoppvillkor.
- I Databricks Runtime 10.4 LTS ML och senare, för klassificerings- och regressionsexperiment, innehåller AutoML tidig stoppning. den stoppar tränings- och justeringsmodeller om valideringsmåttet inte längre förbättras.
- I Databricks Runtime 10.4 LTS ML och senare kan du select en
time column
för att dela upp data för träning, validering och testning i kronologisk ordning (gäller endast för klassificering och regression). - Databricks rekommenderar att du inte fyller i fältet Datakatalog . Detta utlöser standardbeteendet för säker lagring av datamängden som en MLflow-artefakt. En DBFS-sökväg kan anges, men i det här fallet ärver datauppsättningen inte AutoML-experimentets åtkomstbehörigheter.
Kör experimentet och övervaka resultaten
Starta AutoML-experimentet genom att klicka på Starta AutoML. Experimentet börjar köras och autoML-träningssidan visas. För att refresh körningarna table, klicka på .
Visa experiment förlopp
Från den här sidan kan du:
- Stoppa experimentet när som helst.
- Öppna notebook-filen för datautforskning.
- Övervaka körningar.
- Navigera till körningssidan för alla körningar.
Databricks Runtime 10.1 ML och senare visar AutoML varningar för potentiella problem med datauppsättningen, såsom typer column som inte stöds eller hög kardinalitet columns.
Kommentar
Databricks gör sitt bästa för att indikera potentiella fel eller problem. Detta kanske dock inte är omfattande och kanske inte fångar upp de problem eller fel som du kanske söker efter.
Om du vill se varningar för datamängden klickar du på fliken Varningar på träningssidan eller på experimentsidan när experimentet har slutförts.
Visa resultat
När experimentet är klart kan du:
- Registrera och distribuera en av modellerna med MLflow.
- Select Visa notebook för bästa modell för att granska och redigera notebooken som skapade den bästa modellen.
- Select Visa notebook-filen för datautforskning för att öppna notebook-filen för datautforskning.
- Sök, filtrera och sortera körningarna i table.
- Se information om alla körningar:
- Du hittar den genererade notebook-filen som innehåller källkod för en utvärderingskörning genom att klicka på MLflow-körningen. Anteckningsboken sparas i avsnittet Artefakter på körningssidan. Du kan ladda ned den här notebook-filen och importera den till arbetsytan om du har aktiverat nedladdning av artefakter av arbetsyteadministratörerna.
- Om du vill visa körningsresultatet klickar du på Modellercolumn eller Starttidcolumn. Körningssidan visas med information om testkörningen (till exempel parameters, mått och taggar) och artefakter som skapats av körningen, inklusive modellen. Den här sidan innehåller även kodfragment som du kan använda för att göra förutsägelser med modellen.
Om du vill återgå till autoML-experimentet senare hittar du det i table på sidan Experiment. Resultatet av varje AutoML-experiment, inklusive datautforsknings- och träningsanteckningsböckerna, lagras i en databricks_automl
mapp i hemmappen för den användare som körde experimentet.
Registrera och distribuera en modell
Du kan registrera och distribuera din modell med AutoML-användargränssnittet:
- Select länken i -modellercolumn för att modellen ska registreras. När en körning är klar är den översta raden den bästa modellen (baserat på det primära måttet).
- Select för att registrera modellen i Model Registry.
- Select Models i sidofältet för att navigera till modellregistret.
- Select namnet på din modell i modellen table.
- Från den registrerade modellsidan kan du hantera modellen med modellservering.
Ingen modul med namnet 'pandas.core.indexes.numeric
När du hanterar en modell som skapats med AutoML med modellservering kan du get felet: No module named 'pandas.core.indexes.numeric
.
Detta beror på en inkompatibel pandas
version mellan AutoML och modellen som betjänar slutpunktsmiljön. Du kan lösa det här felet genom att köra skriptet add-pandas-dependency.py. Skriptet redigerar requirements.txt
och conda.yaml
för din loggade modell så att den innehåller rätt pandas
beroendeversion: pandas==1.5.3
- Ändra skriptet så att det innehåller
run_id
av MLflow-körningen where där din modell loggades. - Omregistrera modellen till MLflow-modellregistret.
- Prova att hantera den nya versionen av MLflow-modellen.