Dela via


Testhypotes med t-test

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Jämför medelvärden från två kolumner med hjälp av ett t-test

Kategori: Statistiska funktioner

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler finns i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder testhypotesen Med t-Test-modulen i Machine Learning Studio (klassisk) för att generera poäng för tre typer av t-tester:

  • T-test med enkla exempel
  • Parat t-test
  • Obetalt t-test

I allmänhet hjälper ett t-test dig att jämföra om två grupper har olika medel. Anta till exempel att du utvärderar studiedata för patienter som fick läkemedels-A jämfört med patienter som fick läkemedel B, och du måste jämföra ett mått för återställningsfrekvensen för båda grupperna. Nollhypotesen förutsätter att återställningsfrekvensen är densamma i båda grupperna, och dessutom att värdena för återställningsfrekvensen har en normal fördelning i båda två grupperna.

Genom att använda testhypotes med t-Test och ange kolumnerna som innehåller återställningshastigheter som indata kan du få poäng som anger om skillnaden är meningsfull, vilket skulle innebära att nollhypotesen ska avvisas. Testet tar hänsyn till faktorer som hur stor skillnaden är mellan värdena, storleken på urvalet (större är bättre) och hur stor standardavvikelsen är (lägre är bättre).

Genom att granska resultaten av testhypotesen med hjälp av t-Test-modulen kan du avgöra om nollhypotesen är TRUE eller FALSE och granska förtroendepoängen (P) från t-testet.

Så här väljer du ett t-test

Välj ett exempel på ett t-test när dessa villkor gäller:

  • Du har ett enda urval av poäng.

  • Alla poäng är oberoende av varandra.

  • Samplingsfördelningen för xˉ är normal.

I allmänhet används t-test med ett enda exempel för att jämföra ett genomsnittligt värde med ett känt tal.

Välj ett parkopplat t-test när dessa villkor gäller:

  • Du har ett matchningspar med poäng. Du kan till exempel ha två olika mått per person eller matchade par av individer (till exempel en man och hustru).

  • Varje poängpar är oberoende av vartannat par.

  • Samplingsfördelningen av d är normal.

Ett parkopplat t-test är användbart när du jämför relaterade fall. Genom att medelvärdet av skillnaderna mellan poängen för de kopplade fallen kan du avgöra om den totala skillnaden är statistiskt signifikant.

Välj ett obetalt t-test när dessa villkor gäller:

  • Du har två oberoende resultatexempel. Det vill säger att det inte finns någon grund för att parkoppla poäng i exempel 1 med dem i exempel 2.

  • Alla poäng i ett exempel är oberoende av alla andra poäng i exemplet.

  • Samplingsfördelningen för x1- x2 är normal.

  • Alternativt kan du uppfylla kravet att variansen mellan grupperna är ungefär lika stor.

Så här konfigurerar du testhypotes med t-test

Använd en enda datauppsättning som indata. Kolumnerna som du jämför måste finnas i samma datauppsättning.

Om du behöver jämföra kolumner från olika datauppsättningar kan du isolera varje kolumn att jämföra med hjälp av Välj kolumner i datauppsättning och sedan sammanfoga dem till en datauppsättning med hjälp av Lägg till kolumner.

  1. Lägg till testhypotesen med hjälp av t-Test-modulen i experimentet.

    Du hittar den här modulen i kategorin Statistiska funktioner i Studio (klassisk).

  2. Lägg till den datauppsättning som innehåller kolumnen eller kolumnerna som du vill analysera.

  3. Bestäm vilken typ av t-test som är lämplig för dina data. Se Så här väljer du ett t-test.

  4. Enkelt exempel: Om du använder ett enda exempel anger du följande parametrar:

    • Null-hypotes μ: Ange det värde som ska användas som null-hypotesiserat medelvärde för exemplet. Detta anger det förväntade medelvärdet som exempelvärdet ska testas mot.

    • Målkolumn: Använd kolumnväljaren för att välja en enda numerisk kolumn för testning.

    • Hypotestyp: Välj ett enstjärts- eller tvåstjärtstest. Standardvärdet är ett tvåsidigt test. Det här är den vanligaste typen av test, där den förväntade fördelningen är symmetrisk runt noll.

      Alternativet One Tail GT är ett enkelsidigt alternativ som är större än testet. Det här testet ger mer kraft för att identifiera en effekt i en riktning, genom att inte testa effekten i den andra riktningen.

      Alternativet One Tail LT ger ett enkelsidigt mindre än test.

    • α: Ange en konfidensfaktor. Det här värdet används för att utvärdera värdet för P (modulens första utdata). Om p är lägre än konfidensfaktorn avvisas nollhypotesen.

  5. PairedSamples: Om du jämför två exempel från samma population anger du följande parametrar:

    • Null-hypotes μ: Ange ett värde som representerar exempelskillnaden mellan exempelparet.

    • Målkolumn: Använd kolumnväljaren för att välja de två numeriska kolumnerna som ska testas.

    • Hypotestyp: Välj antingen ett enstjärts- eller tvåstjärtstest. Standardvärdet är ett tvåsidigt test.

    • α: Ange konfidensfaktorn. Det här värdet används för att utvärdera värdet för P (modulens första utdata)> Om p är lägre än konfidensfaktorn avvisas nollhypotesen.

  6. UnpairedSamples: Om du jämför två omdefinierade exempel anger du följande parametrar:

    • Anta lika varians: Avmarkera det här alternativet när exemplen kommer från olika populationer.
    • Null-hypotes μ1: Ange medelvärdet för den första kolumnen.
    • Null-hypotes μ2: Ange medelvärdet för den andra kolumnen.
    • Målkolumner: Använd kolumnväljaren för att välja två numeriska kolumner att testa.
    • Hypotestyp: Ange om testet är enstjärt eller tvåstjärt. Standardvärdet är ett tvåsidigt test.
    • α: Ange konfidensfaktorn. Det här värdet används för att utvärdera värdet för P (modulens första utdata)> Om p är lägre än konfidensfaktorn avvisas nollhypotesen.
  7. Kör experimentet.

Resultat

Utdata från modulen är en datauppsättning som innehåller t-testresultaten och en transformering som du kan spara om du vill för att tillämpa på den här eller en annan datauppsättning med hjälp av Tillämpa transformering.

Datamängden med poäng innehåller dessa värden, oavsett vilken typ av t-test du använde:

  • En sannolikhetspoäng som anger konfidensen för nollhypotesen
  • Ett värde som anger om nollhypotesen ska avvisas

Tips

Kom ihåg att målet är att avgöra om du kan avvisa nollhypotesen. Poängen 0 innebär inte att du bör acceptera nollhypotesen: det innebär att du inte har tillräckligt med data och behöver undersökas ytterligare.

Tekniska anteckningar

Modulen namnger automatiskt utdatakolumnerna enligt följande konventioner, beroende på vilken typ av t-test som valdes och om resultatet var att avvisa eller acceptera nollhypotesen.

Med angivna indatakolumner med namn {0} och {1}skapar modulen följande namn:

Kolumner SingleSampleSet PairedSamples UnpairedSamples
Utdatakolumn P P_ss({0}) P_ps({0}, {1}) P_us({0}, {1})
Utdatakolumnen RejectH0 RejectH0_ss({0})" RejectH0_ps({0}, {1}) RejectH0_us({0}, {1})

Hur poäng beräknas

Den här modulen beräknar och använder exempelstandardavvikelsen. därför används (n-1) ekvationen i nämnaren.

Beräkningspoäng för ett test med ett enda exempel

Med tanke på ett enskilt urval av poäng, alla oberoende av varandra och en normal fördelning, beräknas poängen på följande sätt:

  1. Ta följande indata:

    • En enda kolumn med värden från datauppsättningen
    • Parametern nollhypotes (H0) μ0
    • Konfidenspoängen som anges av α
  2. Extrahera antalet exempel (n).

  3. Beräkna medelvärdet av exempeldata.

  4. Beräkna standardavvikelsen (s) för exempeldata.

  5. Beräkna t och frihetsgrader (df):

    Formula for degrees of freedom

  6. Extrahera sannolikhet P från distributionstabellen T med hjälp av t och df.

Beräkningspoäng för ett parkopplat t-test

Med tanke på en matchad uppsättning poäng, där varje par är oberoende av det andra och en normal fördelning i varje uppsättning, beräknas poängen på följande sätt:

  1. Ta följande indata:

    • Två kolumner med värden från datauppsättningen
    • Parametern nullhypotes (H0) d0
    • Konfidenspoängen som anges av α
  2. Extrahera ett visst antal exempelpar (n).

  3. Beräkna medelvärdet av skillnader för exempeldata:

    formula for mean of differences

  4. Beräkna standardavvikelsen för skillnader (sd).

  5. Beräkna t och frihetsgrader (df):

    Formula for degrees of freedom df

  6. Extrahera sannolikhet (P) från distributionstabellen (T) med hjälp av t och df.

Beräkningspoäng för ett obetalt t-test

Med tanke på två oberoende urval av poäng, med en normal fördelning av värden i varje exempel, beräknas poängen på följande sätt:

  1. Ta följande indata:

    • En datauppsättning som innehåller två kolumner med doubles
    • Parametern nollhypotes (H0) (d0)
    • Konfidenspoängen som anges av α
  2. Extrahera ett antal exempel i varje grupp, n1 och n2.

  3. Beräkna medelvärdena för var och en av exempeluppsättningarna.

  4. Beräkna standardavvikelsen för varje grupp som s1 och s2.

  5. Beräkna t och frihetsgrader (df):

Alternativt kan du uppfylla kravet på att variansen mellan grupperna är ungefär lika stor, enligt följande:

  1. Beräkna den poolade standardavvikelsen först:

    formula for pooled standard distribution

  2. Om det inte finns något antagande om variansjämlikhet beräknar du på följande sätt:

    formula for pooled standard deviation

  3. Extrahera P från distributionstabellen (T) med hjälp av t och df.

Beräkna nollhypotesen

Sannolikheten för nollhypotesen, som betecknas som P, beräknas på följande sätt:

  • Om P < α anger du flaggan Avvisa till Sant.

  • Om P ≥ α anger du flaggan Avvisa till Falskt.

Förväntade indata

Namn Typ Description
Datamängd Datatabell Indatauppsättning

Modulparametrar

Name Intervall Typ Standardvärde Description
Hypotestyp Valfri Hypotesen Tvåstjärt Elevens t-test nollhypotestyp
Null-hypotes μ Valfri Float 0.0 För T-test med ett enda exempel är det null-hypotesiserade medelvärdet för exemplet

För det kopplade t-testet är exempelskillnaden
Målkolumner Valfri ColumnSelection Ingen Markeringsmönster för målkolumner
Anta lika varianser Valfri Boolesk Sant Anta att varianserna för två exempel är lika med

Gäller endast för obetalda exempel
Null-hypotes μ1 Valfri Float 0.0 Null-hypotesiserat medelvärde för det första exemplet
Α [0.0;1.0] Float 0,95 Konfidensfaktor (om P är lägre än konfidensfaktorn avvisas nollhypotesen)

Utdata

Namn Typ Description
P Datatabell En sannolikhetspoäng som anger konfidensen för nollhypotesen
Avvisa H0 Datatabell Värde som anger om nollhypotesen ska avvisas

Undantag

Undantag Description
Fel 0003 Ett undantag inträffar om en eller flera indata är null eller tomma.
Fel 0008 Ett undantag inträffar om parametern inte ligger inom intervallet.
Fel 0017 Ett undantag inträffar om en eller flera angivna kolumner har en typ som inte stöds av den aktuella modulen.
Fel 0020 Ett undantag inträffar om antalet kolumner i vissa datauppsättningar som skickas till modulen är för litet.
Fel 0021 Ett undantag inträffar om antalet rader i vissa datauppsättningar som skickas till modulen är för litet.
Fel 0031 Ett undantag inträffar om antalet kolumner i kolumnuppsättningen är mindre än vad som behövs.
Fel 0032 Ett undantag inträffar om argumentet inte är ett tal.
Fel 0033 Ett undantag inträffar om argumentet är oändligt.

En lista över fel som är specifika för Studio-moduler (klassiska) finns i Machine Learning Felkoder.

En lista över API-undantag finns i Machine Learning REST API-felkoder.

Se även

Statistiska funktioner