MLTable Classe

Referência

Representa uma MLTable.

Uma MLTable define uma série de operações imutáveis e avaliadas de forma preguiçosa para carregar dados da origem de dados. Os dados não são carregados a partir da origem até que seja pedido à MLTable que forneça dados.

Inicialize uma nova MLTable.

Este construtor não deve ser invocado diretamente. A MLTable destina-se a ser criada com load.

Herança: builtins.object

MLTable

Construtor

MLTable()

Métodos

convert_column_types	Adiciona um passo de transformação para converter as colunas especificadas nos respetivos novos tipos especificados. `from mltable import DataType data_types = { 'ID': DataType.to_string(), 'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'), 'Count': DataType.to_int(), 'Latitude': DataType.to_float(), 'Found': DataType.to_bool(), 'Stream': DataType.to_stream() }`
drop_columns	Adiciona um passo de transformação para remover as colunas fornecidas do conjunto de dados. Se uma lista vazia, cadeia de identificação ou conjunto não receber nada é ignorado. As colunas duplicadas gerarão uma UserErrorException. Tentar remover uma coluna MLTable.traits.timestamp_column ou em MLTable.traits.index_columns irá gerar uma UserErrorException.
extract_columns_from_partition_format	Adiciona um passo de transformação para utilizar as informações de partição de cada caminho e extraí-las em colunas com base no formato de partição especificado. Formatar a parte '{column_name}' cria a coluna de cadeia e '{column_name:aaaa/MM/dd/HH/mm/ss}' cria a coluna datetime, em que 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho "/Accounts/2019/01/01/data.csv" em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' cria uma coluna de cadeia "Department" com o valor "Accounts" e uma coluna datetime "PartitionDate" com o valor "2019-01-01".
filter	Filtre os dados, deixando apenas os registos que correspondem à expressão especificada.
get_partition_count	Devolve o número de partições de dados subjacentes aos dados associados a esta MLTable.
keep_columns	Adiciona um passo de transformação para manter as colunas especificadas e remover todas as outras do conjunto de dados. Se uma lista vazia, cadeia de identificação ou conjunto não receber nada é ignorado. As colunas duplicadas gerarão uma UserErrorException. Se a coluna em MLTable.traits.timestamp_column ou colunas no MLTable.traits.index_columns não for explicitamente mantida, é efetuada uma raiesd userErrorException.
random_split	Divide aleatoriamente esta MLTable em duas MLTables, uma com aproximadamente "percentagem"% dos dados originais da MLTable e a outra com o resto (1"%"%).
save	Guarde esta MLTable como um ficheiro YAML de MLTable & os respetivos caminhos assóicos para o caminho de diretório especificado. Se o caminho não for indicado, a predefinição é o diretório de trabalho atual. Se o caminho não existir, será criado. Se o caminho for remoto, o arquivo de dados subjacente já tem de existir. Se caminho for um diretório local & não for absoluto, torna-se absoluto. Se o caminho apontar para um ficheiro, será gerado um UserErrorException. Se path for um caminho de diretório que já contenha um ou mais ficheiros guardados (incluindo o ficheiro YAML MLTable) e a substituição estiver definida como Falso ou "falha" – é criada uma UserErrorException. Se o caminho for remoto, todos os caminhos de ficheiros locais não fornecidos como um caminho colocalizado (caminho do ficheiro relativo ao diretório a partir do qual a MLTable foi carregada) gerarão uma UserErrorException. colocalizado controla a forma como os caminhos associados são guardados no caminho. Se For Verdadeiro, os ficheiros são copiados para o caminho juntamente com o ficheiro YAML MLTable como caminhos de ficheiro relativos. Caso contrário, os ficheiros associados não são copiados, os caminhos remotos permanecem conforme indicado e os caminhos de ficheiro locais são tornados relativos com o redirecionamento de caminho, se necessário. Tenha em atenção que Falso pode resultar em ficheiros YAML de MLTable não a cores que não são recomendados, além disso, se o caminho for remoto, tal resultará numa UserErrorException, uma vez que o redirecionamento de caminho relativo não é suportado para URIs remotos. Tenha em atenção que se a MLTable for criada programaticamente com métodos como from_paths() ou from_read_delimited_files() com caminhos relativos locais, assume-se que o caminho do diretório MLTable é o diretório de trabalho atual. Tenha em atenção ao guardar um novo MLTable & ficheiros de dados associados a um diretório com um ficheiro MLTable existente & ficheiros de dados associados que o diretório não está limpo dos ficheiros existentes antes de guardar os novos ficheiros. É possível que os ficheiros de dados já existentes persistam depois de guardar os novos ficheiros, especialmente se os ficheiros de dados existentes não tiverem nomes que correspondam a novos ficheiros de dados. Se a nova MLTable contiver um designador de padrão nos respetivos caminhos, isto poderá alterar involuntariamente a MLTable ao associar ficheiros de dados existentes à nova MLTable. Se os caminhos de ficheiro nesta MLTable apontarem para um ficheiro existente no caminho , mas tiverem um URI diferente, se a substituição for "falha" ou "ignorar" o ficheiro existente não será substituído (ou seja, ignorado).
select_partitions	Adiciona um passo de transformação para selecionar a partição.
show	Obtém as primeiras linhas de contagem desta MLTable como um Dataframe do Pandas.
skip	Adiciona um passo de transformação para ignorar as primeiras linhas de contagem desta MLTable.
take	Adiciona um passo de transformação para selecionar as primeiras linhas de contagem desta MLTable.
take_random_sample	Adiciona um passo de transformação para selecionar aleatoriamente cada linha desta MLTable com probabilidade . A probabilidade tem de estar no intervalo [0, 1]. Opcionalmente, pode definir uma semente aleatória.
to_pandas_dataframe	Carregue todos os registos dos caminhos especificados no ficheiro MLTable para um DataFrame do Pandas.
validate	Valida se os dados desta MLTable podem ser carregados, requer que as origens de dados da MLTable estejam acessíveis a partir da computação atual.

convert_column_types

Adiciona um passo de transformação para converter as colunas especificadas nos respetivos novos tipos especificados.


   from mltable import DataType
       data_types = {
           'ID': DataType.to_string(),
           'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
           'Count': DataType.to_int(),
           'Latitude': DataType.to_float(),
           'Found': DataType.to_bool(),
           'Stream': DataType.to_stream()
       }

convert_column_types(column_types)

Parâmetros

Name	Description
column_types Necessário	dict[Union[Tuple[str], str], DataType] Dicionário da coluna: escreve o utilizador que pretende converter

Devoluções

Tipo	Description
MLTable	MLTable com passo de transformação adicionado

drop_columns

Adiciona um passo de transformação para remover as colunas fornecidas do conjunto de dados. Se uma lista vazia, cadeia de identificação ou conjunto não receber nada é ignorado. As colunas duplicadas gerarão uma UserErrorException.

Tentar remover uma coluna MLTable.traits.timestamp_column ou em MLTable.traits.index_columns irá gerar uma UserErrorException.

drop_columns(columns: str | List[str] | Tuple[str] | Set[str])

Parâmetros

Name	Description
columns Necessário	Union[str, list[str], <xref:builtin.tuple>[str], <xref:builtin.set>[str]] coluna(s) a remover desta MLTable

Devoluções

Tipo	Description
MLTable	MLTable com passo de transformação adicionado

extract_columns_from_partition_format

Adiciona um passo de transformação para utilizar as informações de partição de cada caminho e extraí-las em colunas com base no formato de partição especificado.

Formatar a parte '{column_name}' cria a coluna de cadeia e '{column_name:aaaa/MM/dd/HH/mm/ss}' cria a coluna datetime, em que 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime.

O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho "/Accounts/2019/01/01/data.csv" em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' cria uma coluna de cadeia "Department" com o valor "Accounts" e uma coluna datetime "PartitionDate" com o valor "2019-01-01".

extract_columns_from_partition_format(partition_format)

Parâmetros

Name	Description
partition_format Necessário	str Formato de partição a utilizar para extrair dados para colunas

Devoluções

Tipo	Description
MLTable	MLTable cujo formato de partição está definido para o formato fornecido

filter

Filtre os dados, deixando apenas os registos que correspondem à expressão especificada.

filter(expression)

Parâmetros

Name	Description
expression Necessário	string A expressão a avaliar.

Devoluções

Tipo	Description
MLTable	MLTable após o filtro

Observações

As expressões são iniciadas ao indexar a tabela com o nome de uma coluna. Suportam uma variedade de funções e operadores e podem ser combinados com operadores lógicos. A expressão resultante será avaliada preguiçosamente para cada registo quando ocorrer uma extração de dados e não onde é definida.


   filtered_mltable = mltable.filter('feature_1 == "5" and target > "0.5)"')
   filtered_mltable = mltable.filter('col("FBI Code") == "11"')

get_partition_count

Devolve o número de partições de dados subjacentes aos dados associados a esta MLTable.

get_partition_count() -> int

Devoluções

Tipo	Description
int	partições de dados nesta MLTable

keep_columns

Adiciona um passo de transformação para manter as colunas especificadas e remover todas as outras do conjunto de dados. Se uma lista vazia, cadeia de identificação ou conjunto não receber nada é ignorado. As colunas duplicadas gerarão uma UserErrorException.

Se a coluna em MLTable.traits.timestamp_column ou colunas no MLTable.traits.index_columns não for explicitamente mantida, é efetuada uma raiesd userErrorException.

keep_columns(columns: str | List[str] | Tuple[str] | Set[str])

Parâmetros

Name	Description
columns Necessário	Union[str, list[str], <xref:builtin.tuple>[str], <xref:builtin.set>[str]] colunas nesta MLTable a manter

Devoluções

Tipo	Description
MLTable	MLTable com passo de transformação adicionado

random_split

Divide aleatoriamente esta MLTable em duas MLTables, uma com aproximadamente "percentagem"% dos dados originais da MLTable e a outra com o resto (1"%"%).

random_split(percent=0.5, seed=None)

Parâmetros

Name	Description
percent Necessário	Union[int, float] percentagem da MLTable a dividir entre
seed Necessário	Optional[int] semente aleatória opcional

Devoluções

Tipo	Description
Tuple[MLTable, MLTable]	duas MLTables com os dados desta MLTable divididos entre as mesmas por "percentagem"

save

Guarde esta MLTable como um ficheiro YAML de MLTable & os respetivos caminhos assóicos para o caminho de diretório especificado.

Se o caminho não for indicado, a predefinição é o diretório de trabalho atual. Se o caminho não existir, será criado. Se o caminho for remoto, o arquivo de dados subjacente já tem de existir. Se caminho for um diretório local & não for absoluto, torna-se absoluto.

Se o caminho apontar para um ficheiro, será gerado um UserErrorException. Se path for um caminho de diretório que já contenha um ou mais ficheiros guardados (incluindo o ficheiro YAML MLTable) e a substituição estiver definida como Falso ou "falha" – é criada uma UserErrorException. Se o caminho for remoto, todos os caminhos de ficheiros locais não fornecidos como um caminho colocalizado (caminho do ficheiro relativo ao diretório a partir do qual a MLTable foi carregada) gerarão uma UserErrorException.

colocalizado controla a forma como os caminhos associados são guardados no caminho. Se For Verdadeiro, os ficheiros são copiados para o caminho juntamente com o ficheiro YAML MLTable como caminhos de ficheiro relativos. Caso contrário, os ficheiros associados não são copiados, os caminhos remotos permanecem conforme indicado e os caminhos de ficheiro locais são tornados relativos com o redirecionamento de caminho, se necessário. Tenha em atenção que Falso pode resultar em ficheiros YAML de MLTable não a cores que não são recomendados, além disso, se o caminho for remoto, tal resultará numa UserErrorException, uma vez que o redirecionamento de caminho relativo não é suportado para URIs remotos.

Tenha em atenção que se a MLTable for criada programaticamente com métodos como from_paths() ou from_read_delimited_files() com caminhos relativos locais, assume-se que o caminho do diretório MLTable é o diretório de trabalho atual.

Tenha em atenção ao guardar um novo MLTable & ficheiros de dados associados a um diretório com um ficheiro MLTable existente & ficheiros de dados associados que o diretório não está limpo dos ficheiros existentes antes de guardar os novos ficheiros. É possível que os ficheiros de dados já existentes persistam depois de guardar os novos ficheiros, especialmente se os ficheiros de dados existentes não tiverem nomes que correspondam a novos ficheiros de dados. Se a nova MLTable contiver um designador de padrão nos respetivos caminhos, isto poderá alterar involuntariamente a MLTable ao associar ficheiros de dados existentes à nova MLTable.

Se os caminhos de ficheiro nesta MLTable apontarem para um ficheiro existente no caminho , mas tiverem um URI diferente, se a substituição for "falha" ou "ignorar" o ficheiro existente não será substituído (ou seja, ignorado).

save(path=None, overwrite=True, colocated=False, show_progress=False, if_err_remove_files=True)

Parâmetros

Name	Description
path Necessário	str caminho do diretório para o qual guardar, predefinição para o diretório de trabalho atual
colocated Necessário	bool Se for Verdadeiro, guarda cópias de caminhos de ficheiros remotos & locais nesta MLTable no caminho como caminhos relativos. Caso contrário, não ocorre nenhuma cópia de ficheiros e os caminhos de ficheiro remotos são guardados conforme indicado no ficheiro YAML de MLTable guardado e nos caminhos de ficheiros locais como caminhos de ficheiro relativos com redirecionamento de caminho. Se o caminho for remoto & esta MLTable contiver caminhos de ficheiro locais, será criada uma UserErrorException.
overwrite Necessário	Union[bool, str, <xref:mltable.MLTableSaveOverwriteOptions>] Como é que um ficheiro YAML MLTable existente e os ficheiros associados que podem já existir no caminho são processados. As opções são "substituir" (ou Verdadeiro) para substituir quaisquer ficheiros existentes, "falhar" (ou Falso) para gerar um erro se já existir um ficheiro ou "ignorar" para deixar os ficheiros existentes tal como estão. Também pode definir com <xref:mltable.MLTableSaveOverwriteOptions>.
show_progress Necessário	bool apresenta o progresso da cópia para stdout
if_err_remove_files Necessário	bool se ocorrer algum erro durante a gravação, os ficheiros guardados com êxito serão removidos para tornar a operação atómica

Devoluções

Tipo	Description
MLTable	esta instância de MLTable

select_partitions

Adiciona um passo de transformação para selecionar a partição.

select_partitions(partition_index_list)

Parâmetros

Name	Description
partition_index_list Necessário	list of int lista de índice de partições

Devoluções

Tipo	Description
MLTable	MLTable com o tamanho da partição atualizado

Observações

O fragmento de código seguinte mostra como utilizar a API de select_partitions para partições selecionadas da MLTable fornecida.


   partition_index_list = [1, 2]
   mltable = mltable.select_partitions(partition_index_list)

show

Obtém as primeiras linhas de contagem desta MLTable como um Dataframe do Pandas.

show(count=20)

Parâmetros

Name	Description
count Necessário	int número de linhas da parte superior da tabela a selecionar

Devoluções

Tipo	Description
<xref:Pandas> <xref:Dataframe>	primeira contagem de linhas da MLTable

skip

Adiciona um passo de transformação para ignorar as primeiras linhas de contagem desta MLTable.

skip(count)

Parâmetros

Name	Description
count Necessário	int número de linhas a ignorar

Devoluções

Tipo	Description
	MLTable com passo de transformação adicionado

take

Adiciona um passo de transformação para selecionar as primeiras linhas de contagem desta MLTable.

take(count=20)

Parâmetros

Name	Description
count Necessário	int número de linhas da parte superior da tabela a selecionar

Devoluções

Tipo	Description
MLTable	MLTable com passo de transformação "take" adicionado

take_random_sample

Adiciona um passo de transformação para selecionar aleatoriamente cada linha desta MLTable com probabilidade . A probabilidade tem de estar no intervalo [0, 1]. Opcionalmente, pode definir uma semente aleatória.

take_random_sample(probability, seed=None)

Parâmetros

Name	Description
probability Necessário	chance de que cada linha está selecionada
seed Necessário	Optional[int] semente aleatória opcional

Devoluções

Tipo	Description
MLTable	MLTable com passo de transformação adicionado

to_pandas_dataframe

Carregue todos os registos dos caminhos especificados no ficheiro MLTable para um DataFrame do Pandas.

to_pandas_dataframe()

Devoluções

Tipo	Description
DataFrame	Dataframe do Pandas que contém os registos de caminhos nesta MLTable

Observações

O fragmento de código seguinte mostra como utilizar a API de to_pandas_dataframe para obter um dataframe pandas correspondente à MLTable fornecida.


   from mltable import load
   tbl = load('.\samples\mltable_sample')
   pdf = tbl.to_pandas_dataframe()
   print(pdf.shape)

validate

Valida se os dados desta MLTable podem ser carregados, requer que as origens de dados da MLTable estejam acessíveis a partir da computação atual.

validate()

Devoluções

Tipo	Description
None	Nenhuma

Atributos

partition_keys

Devolver as chaves de partição.

Devoluções

Tipo	Description
list[str]	as chaves de partição

paths

Devolve uma lista de dicionários que contêm os caminhos originais fornecidos a esta MLTable. Presume-se que os caminhos de ficheiros locais relativos são relativos ao diretório a partir do qual o ficheiro YAML da MLTable foi carregado.

Devoluções

Tipo	Description
list[dict[str, str]]	lista de dicts que contêm caminhos especificados na MLTable

Partilhar via

MLTable Classe

Construtor

Métodos

convert_column_types

Parâmetros

Devoluções

drop_columns

Parâmetros

Devoluções

extract_columns_from_partition_format

Parâmetros

Devoluções

filter

Parâmetros

Devoluções

Observações

get_partition_count

Devoluções

keep_columns

Parâmetros

Devoluções

random_split

Parâmetros

Devoluções

save

Parâmetros

Devoluções

select_partitions

Parâmetros

Devoluções

Observações

show

Parâmetros

Devoluções

skip

Parâmetros

Devoluções

take

Parâmetros

Devoluções

take_random_sample

Parâmetros

Devoluções

to_pandas_dataframe

Devoluções

Observações

validate

Devoluções

Atributos

partition_keys

Devoluções

paths

Devoluções

Comentários

Recursos adicionais