two_sample_t_test_fl()

Artigo
11/23/2024

Aplica-se a: ✅Microsoft Fabric✅Azure Data Explorer

A função two_sample_t_test_fl() é uma função definida pelo usuário (UDF) que executa o teste T de duas amostras.

Observação

Se a suposição for que os dois conjuntos de dados a serem comparados têm variâncias diferentes, sugerimos usar o welch_test() nativo.

Pré-requisitos

O plug-in Python deve ser habilitado no cluster. Isso é necessário para o Python embutido usado na função.

O plug-in Python deve estar habilitado no banco de dados. Isso é necessário para o Python embutido usado na função.

Sintaxe

T | invoke two_sample_t_test_fl(data1, data2, test_statistic,p_value equal_var, )

Saiba mais sobre as convenções de sintaxe.

Parâmetros

Nome	Digitar	Obrigatória	Descrição
dados1	`string`	✔️	O nome da coluna que contém o primeiro conjunto de dados a ser usado para o teste.
dados2	`string`	✔️	O nome da coluna que contém o segundo conjunto de dados a ser usado para o teste.
test_statistic	`string`	✔️	O nome da coluna para armazenar o valor da estatística de teste para os resultados.
p_value	`string`	✔️	O nome da coluna para armazenar o valor-p para os resultados.
equal_var	`bool`		If `true` (padrão), executa um teste de 2 amostras independente padrão que pressupõe variações populacionais iguais. Se `false`, executa o teste t de Welch, que não assume variância populacional igual. Como mencionado acima, considere usar o welch_test() nativo.

Definição de função

Você pode definir a função inserindo seu código como uma função definida por consulta ou criando-a como uma função armazenada em seu banco de dados, da seguinte maneira:

Definido por consulta
Processamento de dados

Defina a função usando a instrução let a seguir. Nenhuma permissão é necessária.

Importante

Uma instrução let não pode ser executada sozinha. Ele deve ser seguido por uma instrução de expressão tabular. Para executar um exemplo funcional de two_sample_t_test_fl(), consulte Exemplo.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas
        
        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]
        
        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
// Write your query to use the function here.

Defina a função armazenada uma vez usando o seguinte .create function. As permissões de usuário do banco de dados são necessárias.

Importante

Você deve executar esse código para criar a função antes de poder usá-la, conforme mostrado no exemplo.

.create-or-alter function with (folder = "Packages\\Stats", docstring = "Two-Sample t-Test")
two_sample_t_test_fl(tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas
        
        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]
        
        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
}

Exemplo

O exemplo a seguir usa o operador invoke para executar a função.

Definido por consulta
Processamento de dados

Para usar uma função definida por consulta, invoque-a após a definição da função inserida.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas
        
        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]
        
        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

Importante

Para que este exemplo seja executado com êxito, você deve primeiro executar o código de definição de função para armazenar a função.

datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

Saída

ID	amostra1	amostra2	test_stat	p_val
Teste #1	[23.64, 20.57, 20.42]	[27.1, 22.12, 33.56]	-1.7415675457565645	0.15655096653487446
Teste #2	[20.85, 21.89, 23.41]	[35.09, 30.02, 26.52], -3.2711673491022579	0.030755331219276136
Teste #3	[20.13, 20.5, 21.7, 22.02]	[32.2, 32.79, 33.9, 34.22]	-18.5515946201742	1.5823717131966134E-06

Partilhar via

two_sample_t_test_fl()

Pré-requisitos

Sintaxe

Parâmetros

Definição de função

Exemplo

Comentários

Recursos adicionais