TabularDataset Klasa

Odwołanie

Reprezentuje tabelaryczny zestaw danych do użycia w usłudze Azure Machine Learning.

Tabelaryczny zestaw danych definiuje serię niezmienianych operacji obliczanych w celu załadowania danych ze źródła danych do reprezentacji tabelarycznej. Dane nie są ładowane ze źródła do momentu, gdy zostanie wyświetlony monit o dostarczenie danych.

Tabelaryczny zestaw danych jest tworzony przy użyciu metod takich jak from_delimited_files z TabularDatasetFactory klasy .

Aby uzyskać więcej informacji, zobacz artykuł Dodawanie & rejestrowania zestawów danych. Aby rozpocząć pracę z tabelarycznym zestawem danych, zobacz https://aka.ms/tabulardataset-samplenotebook.

Inicjowanie obiektu TabularDataset.

Ten konstruktor nie powinien być wywoływany bezpośrednio. Zestaw danych ma zostać utworzony przy użyciu TabularDatasetFactory klasy.

Dziedziczenie: AbstractDataset

TabularDataset

Konstruktor

TabularDataset()

Uwagi

Tabelaryczny zestaw danych można utworzyć na podstawie plików CSV, TSV, Parquet lub zapytań SQL przy użyciu from_* metod TabularDatasetFactory klasy . Operacje podsettingu można wykonywać w zestawie danych tabelarycznych, takich jak dzielenie, pomijanie i filtrowanie rekordów. Wynikiem podstawienia jest zawsze jeden lub więcej nowych obiektów TabularDataset.

Możesz również przekonwertować zestaw tabularDataset na inne formaty, takie jak ramka danych biblioteki pandas. Rzeczywiste ładowanie danych odbywa się, gdy zostanie wyświetlony monit o dostarczenie danych do innego mechanizmu magazynu (np. ramki danych Pandas lub pliku CSV).

Tabelaryczny zestaw danych może służyć jako dane wejściowe przebiegu eksperymentu. Można ją również zarejestrować w obszarze roboczym o określonej nazwie i pobrać ją później.

Metody

download	Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Pobierz strumienie plików zdefiniowane przez zestaw danych do ścieżki lokalnej.
drop_columns	Upuść określone kolumny z zestawu danych. Jeśli kolumna timeseries zostanie porzucona, odpowiednie możliwości również zostaną porzucone dla zwróconego zestawu danych.
filter	Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Przefiltruj dane, pozostawiając tylko rekordy zgodne z określonym wyrażeniem.
get_profile	Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Pobierz profil danych z najnowszego przebiegu profilu przesłanego dla tego lub tego samego zestawu danych w obszarze roboczym.
get_profile_runs	Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Zwróć poprzednie uruchomienia profilu skojarzone z tym lub tym samym zestawem danych w obszarze roboczym.
keep_columns	Zachowaj określone kolumny i pomiń wszystkie inne z zestawu danych. Jeśli kolumna timeseries zostanie porzucona, odpowiednie możliwości również zostaną porzucone dla zwróconego zestawu danych.
mount	Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Utwórz menedżera kontekstu do instalowania strumieni plików zdefiniowanych przez zestaw danych jako pliki lokalne.
partition_by	Partycjonowane dane zostaną skopiowane i wyjściowe do miejsca docelowego określonego przez obiekt docelowy. utwórz zestaw danych na podstawie wyjściowej ścieżki danych z formatem partycji, zarejestruj zestaw danych, jeśli podano nazwę, zwróć zestaw danych dla nowej ścieżki danych z partycjami `ds = Dataset.get_by_name('test') # indexed by country, state, partition_date # #1: call partition_by locally new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'], target=DataPath(datastore, "repartition")) partition_keys = newds.partition_keys # ['country'] # new_ds can be passed to PRS as input dataset`
random_split	Podziel rekordy w zestawie danych na dwie części losowo i w przybliżeniu według określonej wartości procentowej. Pierwszy zestaw danych zawiera około `percentage` wszystkich rekordów i drugi zestaw danych pozostałych rekordów.
skip	Pomiń rekordy z góry zestawu danych według określonej liczby.
submit_profile_run	Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Prześlij przebieg eksperymentowania, aby obliczyć profil danych. Profil danych może być bardzo przydatny do zrozumienia danych wejściowych, identyfikowania anomalii i brakujących wartości, udostępniając przydatne informacje o danych, takich jak typ kolumny, brakujące wartości itp.
take	Weź przykładowe rekordy z góry zestawu danych według określonej liczby.
take_sample	Weź losową próbkę rekordów w zestawie danych w przybliżeniu według określonego prawdopodobieństwa.
time_after	Filtruj tabelarycznyZestaw danych z kolumnami sygnatury czasowej po określonym czasie rozpoczęcia.
time_before	Filtruj tabelarycznyZestaw danych z kolumnami sygnatury czasowej przed określonym czasem zakończenia.
time_between	Filtruj tabelarycznyZestaw danych między określonym czasem rozpoczęcia i zakończenia.
time_recent	Filtruj tabelarycznyZestaw danych, aby zawierał tylko określony czas trwania (ilość) ostatnich danych.
to_csv_files	Przekonwertuj bieżący zestaw danych na plikDataset zawierający pliki CSV. Wynikowy zestaw danych będzie zawierać co najmniej jeden plik CSV, z których każdy odpowiada partycji danych z bieżącego zestawu danych. Te pliki nie zostaną zmaterializowane, dopóki nie zostaną pobrane lub odczytane.
to_dask_dataframe	Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Zwróć ramkę danych dask, która może leniwie odczytywać dane w zestawie danych.
to_pandas_dataframe	Załaduj wszystkie rekordy z zestawu danych do ramki danych pandas.
to_parquet_files	Przekonwertuj bieżący zestaw danych na plikDataset zawierający pliki Parquet. Wynikowy zestaw danych będzie zawierać co najmniej jeden plik Parquet, z których każdy odpowiada partycji danych z bieżącego zestawu danych. Te pliki nie zostaną zmaterializowane, dopóki nie zostaną pobrane lub odczytane.
to_spark_dataframe	Załaduj wszystkie rekordy z zestawu danych do ramki danych Platformy Spark.
with_timestamp_columns	Zdefiniuj kolumny znacznika czasu dla zestawu danych.

download

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Pobierz strumienie plików zdefiniowane przez zestaw danych do ścieżki lokalnej.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

Parametry

Nazwa	Opis
stream_column Wymagane	str Kolumna strumienia do pobrania.
target_path Wymagane	str Katalog lokalny do pobrania plików. Jeśli brak, dane zostaną pobrane do katalogu tymczasowego.
overwrite Wymagane	bool Wskazuje, czy zastąpić istniejące pliki. Wartość domyślna to False. Istniejące pliki zostaną zastąpione, jeśli zastąpienie ma wartość True; w przeciwnym razie zostanie zgłoszony wyjątek.
ignore_not_found Wymagane	bool Wskazuje, czy pobieranie nie powiodło się, jeśli niektóre pliki wskazywane przez zestaw danych nie zostaną znalezione. Wartość domyślna to True. Pobieranie zakończy się niepowodzeniem, jeśli jakiekolwiek pobieranie pliku zakończy się niepowodzeniem z jakiegokolwiek powodu, jeśli ignore_not_found jest ustawiona na wartość False; w przeciwnym razie waring zostanie zarejestrowany pod kątem błędów, a dowload powiedzie się tak długo, jak żadne inne typy błędów nie zostaną napotkane.

Zwraca

Typ	Opis
ndarray	Zwraca tablicę ścieżek plików dla każdego pobranego pliku.

drop_columns

Upuść określone kolumny z zestawu danych.

Jeśli kolumna timeseries zostanie porzucona, odpowiednie możliwości również zostaną porzucone dla zwróconego zestawu danych.

drop_columns(columns)

Parametry

Nazwa	Opis
columns Wymagane	Union[str, list[str]] Nazwa lub lista nazw kolumn do upuszczania.

Zwraca

Typ	Opis
TabularDataset	Zwraca nowy obiekt TabularDataset z porzuconymi określonymi kolumnami.

filter

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Przefiltruj dane, pozostawiając tylko rekordy zgodne z określonym wyrażeniem.

filter(expression)

Parametry

Nazwa	Opis
expression Wymagane	any Wyrażenie do oceny.

Zwraca

Typ	Opis
TabularDataset	Zmodyfikowany zestaw danych (wyrejestrowany).

Uwagi

Wyrażenia są uruchamiane przez indeksowanie zestawu danych o nazwie kolumny. Obsługują one różne funkcje i operatory i mogą być łączone przy użyciu operatorów logicznych. Wynikowe wyrażenie zostanie z opóźnieniem ocenione dla każdego rekordu, gdy nastąpi ściąganie danych, a nie miejsce, w którym jest definiowane.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Pobierz profil danych z najnowszego przebiegu profilu przesłanego dla tego lub tego samego zestawu danych w obszarze roboczym.

get_profile(workspace=None)

Parametry

Nazwa	Opis
workspace Wymagane	Workspace Obszar roboczy, w którym został przesłany profil. Domyślnie obszar roboczy tego zestawu danych. Wymagane, jeśli zestaw danych nie jest skojarzony z obszarem roboczym. Aby uzyskać więcej informacji na temat obszarów roboczych, zobacz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace .

Zwraca

Typ	Opis
DatasetProfile	Wynik profilu z najnowszego uruchomienia profilu typu DatasetProfile.

get_profile_runs

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Zwróć poprzednie uruchomienia profilu skojarzone z tym lub tym samym zestawem danych w obszarze roboczym.

get_profile_runs(workspace=None)

Parametry

Nazwa	Opis
workspace Wymagane	Workspace Obszar roboczy, w którym został przesłany profil. Domyślnie obszar roboczy tego zestawu danych. Wymagane, jeśli zestaw danych nie jest skojarzony z obszarem roboczym. Aby uzyskać więcej informacji na temat obszarów roboczych, zobacz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace .

Zwraca

Typ	Opis
iter(Run)	obiekt iteratora typu azureml.core.Run.

keep_columns

Zachowaj określone kolumny i pomiń wszystkie inne z zestawu danych.

Jeśli kolumna timeseries zostanie porzucona, odpowiednie możliwości również zostaną porzucone dla zwróconego zestawu danych.

keep_columns(columns, validate=False)

Parametry

Nazwa	Opis
columns Wymagane	Union[str, list[str]] Nazwa lub lista nazw kolumn do zachowania.
validate Wymagane	bool Wskazuje, czy dane można załadować z zwróconego zestawu danych. Wartość domyślna to False. Weryfikacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

Zwraca

Typ	Opis
TabularDataset	Zwraca nowy obiekt TabularDataset z przechowywanymi tylko określonymi kolumnami.

mount

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Utwórz menedżera kontekstu do instalowania strumieni plików zdefiniowanych przez zestaw danych jako pliki lokalne.

mount(stream_column, mount_point=None)

Parametry

Nazwa	Opis
stream_column Wymagane	str Kolumna strumienia do zainstalowania.
mount_point Wymagane	str Katalog lokalny do zainstalowania plików. Jeśli brak, dane zostaną zainstalowane w katalogu tymczasowym, który można znaleźć, wywołując metodę wystąpienia MountContext.mount_point .

Zwraca

Typ	Opis
<xref:azureml.dataprep.fuse.daemon.MountContext>	Zwraca menedżera kontekstu do zarządzania cyklem życia instalacji.

partition_by

Partycjonowane dane zostaną skopiowane i wyjściowe do miejsca docelowego określonego przez obiekt docelowy.

utwórz zestaw danych na podstawie wyjściowej ścieżki danych z formatem partycji, zarejestruj zestaw danych, jeśli podano nazwę, zwróć zestaw danych dla nowej ścieżki danych z partycjami


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset

partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parametry

Nazwa	Opis
partition_keys Wymagane	list[str] Wymagane, klucze partycji
target Wymagane	DataPath, Datastore lub tuple(Datastore, str) object Wymagana ścieżka magazynu danych, do której zostaną przekazane dane parquet ramki danych. Folder guid zostanie wygenerowany w ramach ścieżki docelowej, aby uniknąć konfliktu.
name Wymagane	str Opcjonalnie, nazwa rejestracji.
show_progress Wymagane	bool Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartości domyślne mają wartość True.
partition_as_file_dataset Wymagane	Opcjonalnie wskazuje, czy zwraca zestaw danych plików, czy nie. Wartością domyślną jest fałsz.

Zwraca

Typ	Opis
TabularDataset	Zapisany lub zarejestrowany zestaw danych.

random_split

Podziel rekordy w zestawie danych na dwie części losowo i w przybliżeniu według określonej wartości procentowej.

Pierwszy zestaw danych zawiera około percentage wszystkich rekordów i drugi zestaw danych pozostałych rekordów.

random_split(percentage, seed=None)

Parametry

Nazwa	Opis
percentage Wymagane	float Przybliżona wartość procentowa dzielenia zestawu danych według. Musi to być liczba z zakresu od 0.0 do 1.0.
seed Wymagane	int Opcjonalne nasion do użycia dla generatora losowego.

Zwraca

Typ	Opis
(TabularDataset, TabularDataset)	Zwraca krotkę nowych obiektów TabularDataset reprezentujących dwa zestawy danych po podziale.

skip

Pomiń rekordy z góry zestawu danych według określonej liczby.

skip(count)

Parametry

Nazwa	Opis
count Wymagane	int Liczba rekordów do pominięcia.

Zwraca

Typ	Opis
TabularDataset	Zwraca nowy obiekt TabularDataset reprezentujący zestaw danych z pominiętymi rekordami.

submit_profile_run

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Prześlij przebieg eksperymentowania, aby obliczyć profil danych.

Profil danych może być bardzo przydatny do zrozumienia danych wejściowych, identyfikowania anomalii i brakujących wartości, udostępniając przydatne informacje o danych, takich jak typ kolumny, brakujące wartości itp.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

Parametry

Nazwa	Opis
compute_target Wymagane	Union[str, ComputeTarget] Obiekt docelowy obliczeniowy do uruchomienia eksperymentu obliczania profilu. Określ wartość "local", aby używać zasobów obliczeniowych lokalnych. Aby uzyskać więcej informacji na temat obiektów docelowych obliczeniowych, zobacz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget .
experiment Wymagane	Experiment Obiekt eksperymentu. Aby uzyskać więcej informacji na temat eksperymentów, zobacz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment .
cache_datastore_name Wymagane	str nazwa magazynu danych do przechowywania pamięci podręcznej profilu, jeśli brak, zostanie użyty domyślny magazyn danych

Zwraca

Typ	Opis
DatasetProfileRun	Obiekt typu DatasetProfileRun, klasa.

take

Weź przykładowe rekordy z góry zestawu danych według określonej liczby.

take(count)

Parametry

Nazwa	Opis
count Wymagane	int Liczba rekordów do wykonania.

Zwraca

Typ	Opis
TabularDataset	Zwraca nowy obiekt TabularDataset reprezentujący przykładowy zestaw danych.

take_sample

Weź losową próbkę rekordów w zestawie danych w przybliżeniu według określonego prawdopodobieństwa.

take_sample(probability, seed=None)

Parametry

Nazwa	Opis
probability Wymagane	float Prawdopodobieństwo dołączenia rekordu do próbki.
seed Wymagane	int Opcjonalne nasion do użycia dla generatora losowego.

Zwraca

Typ	Opis
TabularDataset	Zwraca nowy obiekt TabularDataset reprezentujący przykładowy zestaw danych.

time_after

Filtruj tabelarycznyZestaw danych z kolumnami sygnatury czasowej po określonym czasie rozpoczęcia.

time_after(start_time, include_boundary=True, validate=True)

Parametry

Nazwa	Opis
start_time Wymagane	datetime Dolna granica filtrowania danych.
include_boundary Wymagane	bool Określ, czy wiersz skojarzony z czasem granicy (`start_time`) powinien zostać uwzględniony.
validate Wymagane	bool Wskazuje, czy należy sprawdzić, czy określone kolumny istnieją w zestawie danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

Zwraca

Typ	Opis
TabularDataset	Tabelaryczny zestaw danych z nowym filtrowanym zestawem danych.

time_before

Filtruj tabelarycznyZestaw danych z kolumnami sygnatury czasowej przed określonym czasem zakończenia.

time_before(end_time, include_boundary=True, validate=True)

Parametry

Nazwa	Opis
end_time Wymagane	datetime Górna granica filtrowania danych.
include_boundary Wymagane	bool Określ, czy wiersz skojarzony z czasem granicy (`end_time`) powinien zostać uwzględniony.
validate Wymagane	bool Wskazuje, czy należy sprawdzić, czy określone kolumny istnieją w zestawie danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

Zwraca

Typ	Opis
TabularDataset	Tabelaryczny zestaw danych z nowym filtrowanym zestawem danych.

time_between

Filtruj tabelarycznyZestaw danych między określonym czasem rozpoczęcia i zakończenia.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parametry

Nazwa	Opis
start_time Wymagane	datetime Dolna granica filtrowania danych.
end_time Wymagane	datetime Górna granica filtrowania danych.
include_boundary Wymagane	bool Określ, czy wiersz skojarzony z czasem granicy (`start_end` i `end_time`) powinien być uwzględniony.
validate Wymagane	bool Wskazuje, czy należy sprawdzić, czy określone kolumny istnieją w zestawie danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

Zwraca

Typ	Opis
TabularDataset	Tabelaryczny zestaw danych z nowym filtrowanym zestawem danych.

time_recent

Filtruj tabelarycznyZestaw danych, aby zawierał tylko określony czas trwania (ilość) ostatnich danych.

time_recent(time_delta, include_boundary=True, validate=True)

Parametry

Nazwa	Opis
time_delta Wymagane	timedelta Czas trwania (ilość) ostatnich danych do pobrania.
include_boundary Wymagane	bool Określ, czy wiersz skojarzony z czasem granicy (`time_delta`) powinien zostać uwzględniony.
validate Wymagane	bool Wskazuje, czy należy sprawdzić, czy określone kolumny istnieją w zestawie danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

Zwraca

Typ	Opis
TabularDataset	Tabelaryczny zestaw danych z nowym filtrowanym zestawem danych.

to_csv_files

Przekonwertuj bieżący zestaw danych na plikDataset zawierający pliki CSV.

Wynikowy zestaw danych będzie zawierać co najmniej jeden plik CSV, z których każdy odpowiada partycji danych z bieżącego zestawu danych. Te pliki nie zostaną zmaterializowane, dopóki nie zostaną pobrane lub odczytane.

to_csv_files(separator=',')

Parametry

Nazwa	Opis
separator Wymagane	str Separator, który ma być używany do oddzielania wartości w pliku wynikowym.

Zwraca

Typ	Opis
FileDataset	Zwraca nowy obiekt FileDataset z zestawem plików CSV zawierającym dane w tym zestawie danych.

to_dask_dataframe

Uwaga

Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Zwróć ramkę danych dask, która może leniwie odczytywać dane w zestawie danych.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parametry

Nazwa	Opis
sample_size Wymagane	Liczba rekordów do odczytania w celu określenia schematu i typów.
dtypes Wymagane	Opcjonalny dykt określający oczekiwane kolumny i ich typy. sample_size jest ignorowany, jeśli jest to podane.
on_error Wymagane	Jak obsłużyć wszystkie wartości błędów w zestawie danych, takie jak te wygenerowane przez błąd podczas analizowania wartości. Prawidłowe wartości to "null", które zastępują je wartością null; i "fail", co spowoduje wyjątek.
out_of_range_datetime Wymagane	Jak obsługiwać wartości daty i godziny spoza zakresu obsługiwanego przez bibliotekę Pandas. Prawidłowe wartości to "null", które zastępują je wartością null; i "fail", co spowoduje wyjątek.

Zwraca

Typ	Opis
	dask.dataframe.core.DataFrame

to_pandas_dataframe

Załaduj wszystkie rekordy z zestawu danych do ramki danych pandas.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parametry

Nazwa	Opis
on_error Wymagane	Jak obsłużyć wszystkie wartości błędów w zestawie danych, takie jak te wygenerowane przez błąd podczas analizowania wartości. Prawidłowe wartości to "null", które zastępują je wartością null; i "fail", co spowoduje wyjątek.
out_of_range_datetime Wymagane	Jak obsługiwać wartości daty i godziny spoza zakresu obsługiwanego przez bibliotekę Pandas. Prawidłowe wartości to "null", które zastępują je wartością null; i "fail", co spowoduje wyjątek.

Zwraca

Typ	Opis
DataFrame	Zwraca ramkę danych biblioteki pandas.

to_parquet_files

Przekonwertuj bieżący zestaw danych na plikDataset zawierający pliki Parquet.

Wynikowy zestaw danych będzie zawierać co najmniej jeden plik Parquet, z których każdy odpowiada partycji danych z bieżącego zestawu danych. Te pliki nie zostaną zmaterializowane, dopóki nie zostaną pobrane lub odczytane.

to_parquet_files()

Zwraca

Typ	Opis
FileDataset	Zwraca nowy obiekt FileDataset z zestawem plików Parquet zawierających dane w tym zestawie danych.

to_spark_dataframe

Załaduj wszystkie rekordy z zestawu danych do ramki danych Platformy Spark.

to_spark_dataframe()

Zwraca

Typ	Opis
DataFrame	Zwraca ramkę danych platformy Spark.

with_timestamp_columns

Zdefiniuj kolumny znacznika czasu dla zestawu danych.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parametry

Nazwa	Opis
timestamp Wymagane	str Nazwa kolumny jako sygnatura czasowa (używana jako fine_grain_timestamp) (opcjonalnie). Wartość domyślna to None(clear).
partition_timestamp Wymagane	str Nazwa kolumny partition_timestamp (używana jako sygnatura czasowa ziarna grubego) (opcjonalnie). Wartość domyślna to None(clear).
validate Wymagane	bool Wskazuje, czy należy sprawdzić, czy określone kolumny istnieją w zestawie danych. Wartość domyślna to False. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego.

Zwraca

Typ	Opis
TabularDataset	Zwraca nowy zestaw danych tabelarycznych ze zdefiniowanymi kolumnami sygnatury czasowej.

Uwagi

Metoda definiuje kolumny do użycia jako znaczniki czasu. Kolumny sygnatury czasowej w zestawie danych umożliwiają traktowanie danych jako danych szeregów czasowych i włączanie dodatkowych możliwości. Gdy zestaw danych ma określony i timestamp (used to be referred as fine_grain_timestamp)partition_timestamp (used to be referred as coarse grain timestamp) określony, dwie kolumny powinny reprezentować tę samą oś czasu.

Atrybuty

timestamp_columns

Zwraca kolumny sygnatury czasowej.

Zwraca

Typ	Opis
(str, str)	Nazwy kolumn dla sygnatury czasowej (używanej do określania fine_grain_timestamp) i partition_timestamp (używanej do określania sygnatury czasowej ziarna grubego) zdefiniowanej dla zestawu danych.

Udostępnij za pośrednictwem

TabularDataset Klasa

Konstruktor

Uwagi

Metody

download

Parametry

Zwraca

drop_columns

Parametry

Zwraca

filter

Parametry

Zwraca

Uwagi

get_profile

Parametry

Zwraca

get_profile_runs

Parametry

Zwraca

keep_columns

Parametry

Zwraca

mount

Parametry

Zwraca

partition_by

Parametry

Zwraca

random_split

Parametry

Zwraca

skip

Parametry

Zwraca

submit_profile_run

Parametry

Zwraca

take

Parametry

Zwraca

take_sample

Parametry

Zwraca

time_after

Parametry

Zwraca

time_before

Parametry

Zwraca

time_between

Parametry

Zwraca

time_recent

Parametry

Zwraca

to_csv_files

Parametry

Zwraca

to_dask_dataframe

Parametry

Zwraca

to_pandas_dataframe

Parametry

Zwraca

to_parquet_files

Zwraca

to_spark_dataframe

Zwraca

with_timestamp_columns

Parametry

Zwraca

Uwagi

Atrybuty

timestamp_columns

Zwraca

Opinia

Dodatkowe zasoby