Freigeben über


two_sample_t_test_fl()

Gilt für: ✅Microsoft Fabric✅Azure Data Explorer

Die Funktion two_sample_t_test_fl() ist eine benutzerdefinierte Funktion (UDF), die den Zwei-Beispiel-T-Test durchführt.

Hinweis

Wenn davon ausgegangen wird, dass die beiden zu vergleichenden Datasets unterschiedliche Varianzen aufweisen, empfehlen wir die Verwendung der nativen welch_test().

Voraussetzungen

  • Das Python-Plug-In muss im Cluster aktiviert sein. Dies ist für die inline Python erforderlich, die in der Funktion verwendet wird.
  • Das Python-Plug-In muss in der Datenbank aktiviert sein. Dies ist für die inline Python erforderlich, die in der Funktion verwendet wird.

Syntax

T | invoke two_sample_t_test_fl(data1, data2, test_statistic,p_value equal_var, )

Erfahren Sie mehr über Syntaxkonventionen.

Parameter

Name Type Erforderlich Beschreibung
Data1 string ✔️ Der Name der Spalte, die die erste Datenmenge enthält, die für den Test verwendet werden soll.
data2 string ✔️ Der Name der Spalte, die die zweite Datenmenge enthält, die für den Test verwendet werden soll.
test_statistic string ✔️ Der Name der Spalte zum Speichern des Teststatistikwerts für die Ergebnisse.
p_value string ✔️ Der Name der Spalte zum Speichern des P-Werts für die Ergebnisse.
equal_var bool Wenn true (Standardeinstellung) führt einen standardmäßigen unabhängigen 2 Stichprobentest aus, der die gleichen Varianzen der Population annimmt. Wenn false, führt Welchs t-Test aus, was keine gleiche Populationsvarianz annimmt. Wie bereits erwähnt, sollten Sie die native welch_test()verwenden.

Funktionsdefinition

Sie können die Funktion definieren, indem Sie den Code entweder als abfragedefinierte Funktion einbetten oder wie folgt als gespeicherte Funktion in Ihrer Datenbank erstellen:

Definieren Sie die Funktion mithilfe der folgenden Let-Anweisung. Es sind keine Berechtigungen erforderlich.

Wichtig

Eine Let-Anweisung kann nicht alleine ausgeführt werden. Auf sie muss eine tabellarische Ausdrucksanweisung folgen. Informationen zum Ausführen eines funktionierenden Beispiels two_sample_t_test_fl()finden Sie unter Beispiel.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas
        
        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]
        
        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
// Write your query to use the function here.

Beispiel

Im folgenden Beispiel wird der Aufrufoperator verwendet, um die Funktion auszuführen.

Um eine abfragedefinierte Funktion zu verwenden, rufen Sie sie nach der definition der eingebetteten Funktion auf.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas
        
        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]
        
        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

Output

Kennung Beispiel 1 Beispiel 2 test_stat p_val
Test Nr. 1 [23.64, 20.57, 20.42] [27.1, 22.12, 33.56] -1.7415675457565645 0.15655096653487446
Test Nr. 2 [20.85, 21.89, 23.41] [35.09, 30.02, 26.52], -3.2711673491022579 0.030755331219276136
Test Nr. 3 [20.13, 20.5, 21.7, 22.02] [32.2, 32.79, 33.9, 34.22] -18.5515946201742 1.5823717131966134E-06