Tilldela data till kluster
Viktigt
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning.
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Tilldelar data till kluster med hjälp av en befintlig tränad klustringsmodell
Kategori: Poäng
Anteckning
Gäller endast för: Machine Learning Studio (klassisk)
Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.
Modulöversikt
Den här artikeln beskriver hur du använder modulen Tilldela data till kluster i Machine Learning Studio (klassisk) för att generera förutsägelser med hjälp av en klustringsmodell som har tränats med K-Means-klustringsalgoritmen.
Modulen returnerar en datauppsättning som innehåller troliga tilldelningar för varje ny datapunkt. Den skapar också ett PCA-diagram (Principal Component Analysis) som hjälper dig att visualisera klustrens dimensionalitet.
Varning
Den här modulen ersätter modulen Tilldela till kluster (inaktuell), som endast är tillgänglig för stöd för äldre experiment.
Så här använder du Tilldela data till kluster
I Machine Learning Studio (klassisk) letar du upp en tidigare tränad klustringsmodell. Du kan skapa och träna en klustringsmodell med någon av följande metoder:
Konfigurera K-means-algoritmen med hjälp av K-Means-klustringsmodulen och träna sedan modellen med hjälp av en datauppsättning och modulen Träna klustringsmodell .
Konfigurera en mängd alternativ för K-means-algoritmen med hjälp av K-Means-klustring och träna sedan modellen med hjälp av modulen Rensa klustring .
Du kan också lägga till en befintlig tränad klustringsmodell från gruppen Sparade modeller på din arbetsyta.
Koppla den tränade modellen till den vänstra indataporten för Tilldela data till kluster.
Bifoga en ny datauppsättning som indata. I den här datamängden är etiketter valfria. I allmänhet är klustring en oövervakad inlärningsmetod, så det förväntas inte att du känner till kategorier i förväg.
Indatakolumnerna måste dock vara samma som de kolumner som användes vid träning av klustringsmodellen, annars uppstår ett fel.
Tips
Om du vill minska antalet kolumner som matas ut från klusterförutsägelser använder du Välj kolumner i datauppsättning och väljer en delmängd av kolumnerna.
Låt alternativet Sök efter Lägg till eller Avmarkera endast för Resultat vara markerat om du vill att resultatet ska innehålla den fullständiga indatauppsättningen, tillsammans med en kolumn som visar resultatet (klustertilldelningar).
Om du avmarkerar det här alternativet får du bara tillbaka resultatet. Detta kan vara användbart när du skapar förutsägelser som en del av en webbtjänst.
Kör experimentet.
Resultat
Modulen Assign Data to Clusters (Tilldela data till kluster) returnerar två typer av resultat i resultatdatauppsättningens utdata:
Om du vill se uppdelningen av kluster i modellen klickar du på modulens utdata och väljer Visualisera
Det här kommandot visar ett PCA-diagram (Principal Component Analysis) som mappar samlingen med värden i varje kluster till två komponentaxlar.
- Den första komponentaxeln är den kombinerade uppsättningen funktioner som samlar in den största variansen i modellen. Den ritas på x-axeln (huvudkomponent 1).
- Nästa komponentaxel representerar en viss kombinerad uppsättning funktioner som är ortogonala för den första komponenten och som lägger till den näst mest information i diagrammet. Den ritas på y-axeln (huvudkomponent 2).
I diagrammet kan du se separationen mellan klustren och hur klustren distribueras längs axlarna som representerar huvudkomponenterna.
Om du vill visa resultattabellen för varje fall i indata kopplar du modulen Konvertera till datauppsättning och visualiserar resultaten i Studio (klassisk).
Den här datamängden innehåller klustertilldelningarna för varje fall och ett avståndsmått som ger dig en indikation på hur nära det här specifika fallet är i mitten av klustret.
Namn på utdatakolumn Description Tilldelningar Ett 0-baserat index som anger vilket kluster datapunkten tilldelades till. DistancesToClusterCenter nej. n För varje datapunkt anger det här värdet avståndet från datapunkten till mitten av det tilldelade klustret och avståndet till andra kluster.
Det mått som används för att beräkna avståndet bestäms när du konfigurerar K-means-klustringsmodellen.
Förväntade indata
Namn | Typ | Description |
---|---|---|
Tränad modell | ICluster-gränssnitt | Tränad klustringsmodell |
Datamängd | Datatabell | Indatakälla |
Modulparametrar
Namn | Typ | Intervall | Valfritt | Standardvärde | Description |
---|---|---|---|---|---|
Endast tillägg eller resultat | Obligatorisk | TRUE | Ange om utdatauppsättningen ska innehålla indatauppsättningen samt resultaten, eller endast resultatet | ||
Ange parametersökningsläge | Avsökningsmetoder | Lista:Hela rutnätet| Slumpmässigt svep | Obligatorisk | Slumpmässigt svep | Rensa hela rutnätet på parameterutrymmet eller rensa med hjälp av ett begränsat antal exempelkörningar |
Utdata
Namn | Typ | Description |
---|---|---|
Resultatdatauppsättning | Datatabell | Indatauppsättning som läggs till av datakolumnen i endast tilldelningar eller tilldelningar |
Undantag
Undantag | Description |
---|---|
Fel 0003 | Undantag inträffar om en eller flera indata är null eller tomma. |