Dela via


Byggräkningstransform

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Skapar en transformering som omvandlar count-tabeller till funktioner, så att du kan tillämpa transformeringen på flera datauppsättningar

Kategori: Learning med antal

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

I den här artikeln beskrivs hur du använder modulen Build Counting Transform i Machine Learning Studio (klassisk) för att analysera träningsdata. Utifrån dessa data skapar modulen en antalstabell samt en uppsättning antalsbaserade funktioner som kan användas i en förutsägelsemodell.

En count-tabell innehåller den gemensamma fördelningen av alla egenskapskolumner, givet en angiven etikettkolumn. Sådan statistik är användbar för att avgöra vilka kolumner som har mest informationsvärde. Antalsbaserad featurisering är användbart eftersom sådana funktioner är mer kompakta än ursprungliga träningsdata, men samlar in all användbar information. Du kan använda modulparametrarna för att anpassa hur antalet omvandlas till den nya uppsättningen med antalsbaserade funktioner.

När du har genererat antal och omvandlat dem till funktioner kan du spara processen som en transformering för vidare användning av relaterade data. Du kan också ändra uppsättningen funktioner utan att behöva generera en ny uppsättning antal eller slå samman antal och funktioner med en annan uppsättning antal och funktioner.

Möjligheten att använda och tillämpa antalsbaserade funktioner på nya sätt är användbart i scenarier som dessa:

  • Nya data blir tillgängliga för att förbättra täckningen eller balansen för din datauppsättning.
  • Dina ursprungliga antal och funktioner baserades på en mycket stor datamängd som du inte vill bearbeta om. Genom att slå samman antalen kan du uppdatera med nya data.
  • Du vill se till att samma uppsättning count-baserade funktioner tillämpas på alla datauppsättningar som du använder i experimentet.

Så här konfigurerar du buildräkningstransform

Du kan skapa en antalsbaserad funktionstransformering direkt från en datauppsättning och köra den varje gång du kör ett experiment. Eller så kan du generera en uppsättning antal och sedan sammanfoga den med nya data för att skapa en uppdaterad antalstabell.

  • Skapa antalsbaserade funktioner från en datauppsättning

    Börja här om du inte har skapat antal tidigare. Du använder modulen Build Counting Transform ( Byggräkningstransform) för att skapa antalstabeller och automatiskt generera en uppsättning funktioner.

    Den här processen skapar en funktionstransformering som du kan tillämpa på en datauppsättning med hjälp av modulen Tillämpa transformering.

  • Sammanfoga antal och funktioner från flera datauppsättningar

    Om du redan har genererat en count-tabell från en tidigare datauppsättning, genererar du antal på bara nya data eller importerar en befintlig antalstabell som skapats i en tidigare version av Machine Learning. Sammanfoga sedan de två uppsättningarna med count-tabeller

    Den här processen skapar en ny funktionstransformering som du kan tillämpa på en datauppsättning med hjälp av modulen Tillämpa transformering.

Skapa antalsbaserade funktioner från en datauppsättning

  1. I Machine Learning Studio (klassisk) lägger du till modulen Build Counting Transform (Byggräkningstransform) i experimentet. Du hittar modulen under Datatransformering i kategorin Learning antal.

  2. Anslut den datamängd som du vill använda som grund för våra antalsbaserade funktioner.

  3. Använd alternativet Antal klasser för att ange antalet värden i etikettkolumnen.

    • För binära klassificeringsproblem skriver du 2.
    • För ett klassificeringsproblem med fler än två möjliga utdata måste du i förväg ange det exakta antalet klasser som ska räknas. Om du anger ett tal som är mindre än det faktiska antalet klasser returnerar modulen ett fel.
    • Om datauppsättningen innehåller flera klassvärden och klassetikettvärdena inte är sekventiella måste du använda Redigera metadata för att ange att kolumnen innehåller kategoriska värden.
  4. För alternativet Bits för hash-funktionen anger du hur många bitar som ska användas när värdena hashas.

    Det är vanligtvis säkert att acceptera standardvärdena, såvida du inte vet att det finns många värden att räkna och ett högre bitantal kan behövas.

  5. I Hash-funktionens startvärde kan du välja att ange ett värde för att seeda hashing-funktionen. Att ange ett startvärdet manuellt görs vanligtvis när du vill säkerställa att hash-resultatet är deterministiskt mellan körningar av samma experiment.

  6. Använd alternativet Modultyp för att ange vilken typ av data du ska räkna, baserat på lagringsläget:

    • Datauppsättning: Välj det här alternativet om du räknar data som sparas som en datauppsättning i Machine Learning Studio (klassisk).

    • Blob: Välj det här alternativet om dina källdata som används för att skapa antal lagras som en blockblob Windows Azure Storage.

    • MapReduce: Välj det här alternativet om du vill anropa Funktionerna Map/Reduce för att bearbeta data.

      Om du vill använda det här alternativet måste nya data anges som en blob i Windows Azure Storage och du måste ha åtkomst till ett distribuerat HDInsight-kluster. När du kör experimentet startas ett Map/Reduce-jobb i klustret för att utföra inventeringen.

      För mycket stora datamängder rekommenderar vi att du använder det här alternativet när det är möjligt. Även om du kan medföra ytterligare kostnader för att använda HDInsight-tjänsten kan beräkningar över stora datamängder bli snabbare i HDInsight.

      Mer information finns i https://azure.microsoft.com/services/hdinsight/.

  7. När du har specificerat datalagringsläget anger du eventuell ytterligare anslutningsinformation för de data som krävs:

    • Om du använder data från Hadoop eller bloblagring anger du klustrets plats och autentiseringsuppgifter.
    • Om du tidigare använde en importdatamodul i experimentet för att komma åt data måste du ange kontonamnet och dina autentiseringsuppgifter på nytt. Modulen Build Counting Transform (Byggräkningstransform) har separat åtkomst till datalagringen för att kunna läsa data och skapa de tabeller som krävs.
  8. För Etikettkolumn eller index väljer du en kolumn som etikettkolumn.

    En etikettkolumn krävs. Kolumnen måste redan vara markerad som en etikett, annars utlöses ett fel.

  9. Använd alternativet Välj kolumner att räkna och välj de kolumner som du vill generera antal för.

    I allmänhet är de bästa kandidater högdimensionella kolumnerna tillsammans med andra kolumner som är korrelerade med dessa kolumner.

  10. Använd alternativet Antal tabelltyper för att ange det format som används för att lagra count-tabellen.

    • Ordlista: Skapar en tabell för ordlisteantal. Alla kolumnvärden i de valda kolumnerna behandlas som strängar och hashas med hjälp av en bitmatris med en storlek på upp till 31 bitar. Därför representeras alla kolumnvärden av ett icke-negativt 32-bitars heltal.

      I allmänhet bör du använda det här alternativet för mindre datamängder (mindre än 1 GB) och använda alternativet CMSketch för större datamängder.

      När du har valt det här alternativet konfigurerar du antalet bitar som används av hash-funktionen och anger ett startvärdet för att initiera hash-funktionen.

    • CMSketch: Skapar en minsta skisstabell för antal. Med det här alternativet används flera oberoende hash-funktioner med ett mindre intervall för att förbättra minneseffektiviteten och minska risken för hash-kollisioner. Parametrarna för hash-bitstorlek och hash-seed har ingen effekt på det här alternativet.

  11. Kör experimentet.

    Modulen skapar en featuriseringstransformering som du kan använda som indata till modulen Tillämpa transformering. Utdata från modulen Tillämpa transformering är en transformerad datauppsättning som kan användas för att träna en modell.

    Du kan också spara transformeringen om du vill sammanfoga uppsättningen med antal-baserade funktioner med en annan uppsättning antalsbaserade funktioner. Mer information finns i Sammanfoga antal transformeringar.

Sammanfoga antal och funktioner från flera datauppsättningar

  1. I Machine Learning Studio (klassisk) lägger du till modulen Build Counting Transform (Byggräkningstransform) i experimentet och ansluter datauppsättningen som innehåller de nya data som du vill lägga till.

  2. Använd alternativet Modultyp för att ange källan för nya data. Du kan slå samman data från olika källor.

    • Datauppsättning: Välj det här alternativet om nya data tillhandahålls som en datauppsättning i Machine Learning Studio (klassisk).

    • Blob: Välj det här alternativet om nya data tillhandahålls som en blockblob i Windows Azure Storage.

    • MapReduce: Välj det här alternativet om du vill anropa Funktionerna Map/Reduce för att bearbeta data.

      Om du vill använda det här alternativet måste nya data anges som en blob i Windows Azure Storage och du måste ha åtkomst till ett distribuerat HDInsight-kluster. När du kör experimentet startas ett Map/Reduce-jobb i klustret för att utföra inventeringen.

      För ytterligare information, se https://azure.microsoft.com/services/hdinsight/

  3. När du har specificerat datalagringsläget anger du eventuell ytterligare anslutningsinformation för nya data:

    • Om du använder data från Hadoop eller bloblagring anger du klustrets plats och autentiseringsuppgifter.

    • Om du tidigare använde en importdatamodul i experimentet för att komma åt data måste du ange kontonamnet och dina autentiseringsuppgifter på nytt. Anledningen är att modulen Byggräkningstransform använder datalagring separat för att läsa data och skapa de tabeller som krävs.

  4. Vid sammanslagning av antal måste följande alternativ vara exakt desamma i båda antalstabellerna:

    • Antal klasser
    • Bitarna i hash-funktionen
    • Startvärdet för hash-funktionen
    • Välj kolumner som ska räknas

    Etikettkolumnen kan vara olika, så länge den innehåller samma antal klasser.

  5. Använd alternativet Antal tabelltyper för att ange format och mål för den uppdaterade antalstabellen.

    Tips

    Formatet för de två count-tabellerna som du vill sammanslå måste vara samma. Om du sparade en tidigare count-tabell med ordlisteformatet kan du med andra ord inte sammanfoga den med antal som sparats med hjälp av CMSketch-formatet.

  6. Kör experimentet.

    Modulen skapar en featuriseringstransformering som du kan använda som indata för modulen Tillämpa transformering. Utdata från modulen Tillämpa transformering är en transformerad datauppsättning som kan användas för att träna en modell.

  7. Information om hur du sammanfogar den här uppsättningen antal med en befintlig uppsättning count-baserade funktioner finns i Sammanfoga antal transformeringar.

Exempel

I de här artiklarna finns mer information om algoritmen för antal och hur effektiv count-based modeling är jämfört med andra metoder.

Följande experiment i Azure AI Gallery visar hur du använder count-based learning för att skapa olika förutsägelsemodeller:

Modulparametrar

Följande parametrar används med alla alternativ:

Namn Typ Intervall Valfritt Standardvärde Description
Antal klasser Integer >=2 Obligatorisk 2 Antalet klasser för etiketten.
Bitarna i hash-funktionen Integer [12;31] Obligatorisk 20 Antalet bitar i hash-funktionens intervall.
Startvärdet för hash-funktionen Integer valfri Obligatorisk 1 Startvärdet för hash-funktionen.
Modultyp Obligatorisk Datamängd Den typ av modul som ska användas när du genererar count-tabellen.
Antal tabelltyper CountTableType välj från listan Obligatorisk Ordlista Ange formatet för count-tabellen.

Följande alternativ gäller när du väljer blob-alternativet .

Namn Typ Intervall Valfritt Standardvärde Description
Blobnamn Sträng valfri Obligatorisk Namnet på indatabloben. Ta inte med containernamn.
Kontonamn Sträng valfri Obligatorisk Namnet på lagringskontot.
Kontonyckel SecureString valfri Obligatorisk Nyckeln för lagringskontot.
Containerns namn Sträng valfri Obligatorisk Azure-blobcontainern som innehåller indatabloben.
Antal kolumner Sträng valfri Obligatorisk De en-baserade indexen med grupper av kolumner som ska räknas.
Etikettkolumn Integer >=1 Obligatorisk 1 Det ettbaserade indexet för etikettkolumnen.
Blobformat valfri Obligatorisk CSV Blob-textfilformatet.

Följande parametrar gäller när du använder MapReduce för att generera antal:

Namn Typ Intervall Valfritt Standardvärde Description
Namn på standardlagringskonto Sträng valfri Obligatorisk inget Namnet på lagringskontot som innehåller indatabloben.
Standardlagringskontonyckel SecureString valfri Obligatorisk inget Nyckeln för lagringskontot som innehåller indatabloben.
Standardcontainernamn Sträng valfri Obligatorisk inget Namnet på blobcontainern för att skriva count-tabellen.
Kluster-URI Sträng valfri Obligatorisk inget URI:en till HDInsight Hadoop-klustret.
Användarnamn Sträng valfri Obligatorisk inget Användarnamnet för att logga in på HDInsight Hadoop-klustret.

Följande parametrar definierar formatet för count-tabellen:

Namn Typ Intervall Valfritt Standardvärde Description
Antal tabelltyper CountTableType Lista Obligatorisk Ordlista Typ av count-tabell.
Kolumnindex eller namn för etikett ColumnSelection Krävs om count-tabellen har sparats som datauppsättning inget Välj etikettkolumnen.
Välj kolumner som ska räknas ColumnSelection Krävs om count-tabellen har sparats som datauppsättning Välj kolumner för inventering. Dessa kolumner betraktas som kategoriska funktioner.
Djup i CM-skisstabellen Integer >= 1 Krävs om count-tabellen använder CMSketch-format 4 Djupet i CM-skisstabellen, som är lika med antalet hash-funktioner.
Bredden på CM-skisstabellen Integer [1;31] Krävs om count-tabellen använder CMSketch-format 20 Bredden på CM-skisstabellen, som är antalet bitar av hash-funktionens intervall.
Kolumnindex för etikett eller namnkolumn ColumnSelection Krävs om count-tabellen har sparats som datauppsättning Markerar etikettkolumnen.
Välj kolumner som ska räknas ColumnSelection Krävs om count-tabellen har sparats som datauppsättning Väljer kolumner för inventering. Dessa kolumner betraktas som kategoriska funktioner.
Antal tabelltyper Krävs om count-tabellen har sparats som datauppsättning Ordlista Anger typen av count-tabell.
Djup i CM-skisstabellen Integer >= 1 Krävs om count-tabellen har sparats som CMSketch 4 Skisstabelldjupet i CM, som är lika med antalet hash-funktioner.
Bredden på CM-skisstabellen Integer [1;31] Krävs om count-tabellen har sparats som CMSketch 20 Cm-skisstabellens bredd, som är antalet bitar för hash-funktionens intervall.

Utdata

Namn Typ Description
Räkna transformering ITransform-gränssnitt Beräkningstransformen.

Undantag

Undantag Description
Fel 0003 Undantag inträffar om en eller flera indata är null eller tomma.
Fel 0004 Undantag inträffar om parametern är mindre än eller lika med ett visst värde.
Fel 0005 Undantag inträffar om parametern är mindre än ett specifikt värde.
Fel 0007 Undantag inträffar om parametern är större än ett visst värde.
Fel 0009 Undantag inträffar om Azure Storage-kontonamnet eller containernamnet har angetts felaktigt.
Fel 0065 Undantag inträffar om Azure-blobnamnet har angetts felaktigt.
Fel 0011 Undantaget inträffar om det skickade kolumnuppsättningsargumentet inte gäller för någon av datauppsättningskolumnerna.
Fel 0049 Undantag inträffar när det inte går att parsa en fil.
Fel 1000 Internt biblioteksfel.
Fel 0059 Undantag inträffar om ett kolumnindex som anges i en kolumnväljare inte kan parsas.
Fel 0060 Undantag inträffar när ett kolumnintervall utanför intervallet anges i en kolumnväljare.
Fel 0089 Undantag inträffar när det angivna antalet klasser är mindre än det faktiska antalet klasser i en datauppsättning som används för att räkna.

En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.

En lista över API-undantag finns i Machine Learning REST API felkoder.

Se även

Learning med antal