TabularDataset Klasa
Reprezentuje tabelaryczny zestaw danych do użycia w usłudze Azure Machine Learning.
Tabelaryczny zestaw danych definiuje serię niezmienianych operacji obliczanych w celu załadowania danych ze źródła danych do reprezentacji tabelarycznej. Dane nie są ładowane ze źródła do momentu, gdy zostanie wyświetlony monit o dostarczenie danych.
Tabelaryczny zestaw danych jest tworzony przy użyciu metod takich jak from_delimited_files z TabularDatasetFactory klasy .
Aby uzyskać więcej informacji, zobacz artykuł Dodawanie & rejestrowania zestawów danych. Aby rozpocząć pracę z tabelarycznym zestawem danych, zobacz https://aka.ms/tabulardataset-samplenotebook.
Inicjowanie obiektu TabularDataset.
Ten konstruktor nie powinien być wywoływany bezpośrednio. Zestaw danych ma zostać utworzony przy użyciu TabularDatasetFactory klasy.
- Dziedziczenie
-
TabularDataset
Konstruktor
TabularDataset()
Uwagi
Zestaw danych tabelarycznych można utworzyć na podstawie plików CSV, TSV, Parquet lub zapytań SQL przy użyciu from_*
metod TabularDatasetFactory klasy . Operacje podsettingu można wykonywać na zestawie danych tabelarycznych, takich jak dzielenie, pomijanie i filtrowanie rekordów.
Wynik podsettingu jest zawsze co najmniej jeden nowy obiekt TabularDataset.
Możesz również przekonwertować zestaw tabularDataset na inne formaty, takie jak ramka danych biblioteki pandas. Rzeczywiste ładowanie danych odbywa się, gdy zostanie wyświetlony monit o dostarczenie danych do innego mechanizmu magazynu (np. ramki danych Pandas lub pliku CSV).
Tabelaryczny zestaw danych może służyć jako dane wejściowe przebiegu eksperymentu. Można ją również zarejestrować w obszarze roboczym o określonej nazwie i pobrać ją później.
Metody
download |
Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Pobierz strumienie plików zdefiniowane przez zestaw danych do ścieżki lokalnej. |
drop_columns |
Upuść określone kolumny z zestawu danych. Jeśli zostanie porzucona kolumna czasowników, odpowiednie możliwości również zostaną porzucone dla zwróconego zestawu danych. |
filter |
Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Przefiltruj dane, pozostawiając tylko rekordy zgodne z określonym wyrażeniem. |
get_profile |
Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Pobierz profil danych z najnowszego przebiegu profilu przesłanego dla tego lub tego samego zestawu danych w obszarze roboczym. |
get_profile_runs |
Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Zwróć poprzednie uruchomienia profilu skojarzone z tym lub tym samym zestawem danych w obszarze roboczym. |
keep_columns |
Zachowaj określone kolumny i pomiń wszystkie inne z zestawu danych. Jeśli zostanie porzucona kolumna czasowników, odpowiednie możliwości również zostaną porzucone dla zwróconego zestawu danych. |
mount |
Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Utwórz menedżera kontekstu na potrzeby instalowania strumieni plików zdefiniowanych przez zestaw danych jako pliki lokalne. |
partition_by |
Partycjonowane dane zostaną skopiowane i wyjściowe do miejsca docelowego określonego przez element docelowy. utwórz zestaw danych na podstawie wyjściowej ścieżki danych z formatem partycji, zarejestruj zestaw danych, jeśli podano nazwę, zwróć zestaw danych dla nowej ścieżki danych z partycjami
|
random_split |
Podziel rekordy w zestawie danych na dwie części losowo i w przybliżeniu według określonej wartości procentowej. Pierwszy zestaw danych zawiera około |
skip |
Pomiń rekordy z góry zestawu danych według określonej liczby. |
submit_profile_run |
Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Prześlij przebieg eksperymentu, aby obliczyć profil danych. Profil danych może być bardzo przydatny do zrozumienia danych wejściowych, identyfikowania anomalii i brakujących wartości, dostarczając przydatne informacje o danych, takich jak typ kolumny, brakujące wartości itp. |
take |
Weź przykładowe rekordy z góry zestawu danych według określonej liczby. |
take_sample |
Weź losową próbkę rekordów w zestawie danych w przybliżeniu według określonego prawdopodobieństwa. |
time_after |
Filtruj tabelarycznyzestaw danych z kolumnami sygnatury czasowej po określonym czasie rozpoczęcia. |
time_before |
Filtruj tabelarycznyZestaw danych z kolumnami sygnatur czasowych przed określonym czasem zakończenia. |
time_between |
Filtruj tabelarycznyZestaw danych między określonym czasem rozpoczęcia i zakończenia. |
time_recent |
Filtruj tabelarycznyZestaw danych tak, aby zawierał tylko określony czas trwania (ilość) ostatnich danych. |
to_csv_files |
Przekonwertuj bieżący zestaw danych na zestaw plików FileDataset zawierający pliki CSV. Wynikowy zestaw danych będzie zawierać co najmniej jeden plik CSV, z których każdy odpowiada partycji danych z bieżącego zestawu danych. Te pliki nie są materializowane, dopóki nie zostaną pobrane lub odczytane. |
to_dask_dataframe |
Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Zwróć ramkę danych języka Dask, która może z opóźnieniem odczytywać dane w zestawie danych. |
to_pandas_dataframe |
Załaduj wszystkie rekordy z zestawu danych do ramki danych pandas. |
to_parquet_files |
Przekonwertuj bieżący zestaw danych na zestaw plików FileDataset zawierający pliki Parquet. Wynikowy zestaw danych będzie zawierać co najmniej jeden plik Parquet, z których każdy odpowiada partycji danych z bieżącego zestawu danych. Te pliki nie są materializowane, dopóki nie zostaną pobrane lub odczytane. |
to_spark_dataframe |
Załaduj wszystkie rekordy z zestawu danych do ramki danych platformy Spark. |
with_timestamp_columns |
Zdefiniuj kolumny sygnatury czasowej dla zestawu danych. |
download
Uwaga
Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.
Pobierz strumienie plików zdefiniowane przez zestaw danych do ścieżki lokalnej.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
Parametry
Nazwa | Opis |
---|---|
stream_column
Wymagane
|
Kolumna strumienia do pobrania. |
target_path
Wymagane
|
Katalog lokalny do pobrania plików. Jeśli brak, dane zostaną pobrane do katalogu tymczasowego. |
overwrite
Wymagane
|
Wskazuje, czy zastąpić istniejące pliki. Wartość domyślna to False. Istniejące pliki zostaną zastąpione, jeśli zastąpienie ma wartość True; w przeciwnym razie zostanie zgłoszony wyjątek. |
ignore_not_found
Wymagane
|
Wskazuje, czy pobieranie nie powiodło się, jeśli nie można odnaleźć niektórych plików wskazywanych przez zestaw danych. Wartość domyślna to True. Pobieranie zakończy się niepowodzeniem, jeśli jakiekolwiek pobieranie pliku zakończy się niepowodzeniem z jakiegokolwiek powodu, jeśli ignore_not_found ma wartość False; W przeciwnym razie waring zostanie zarejestrowany z powodu nieznajdujących się błędów, a dowload zakończy się powodzeniem, o ile nie zostaną napotkane żadne inne typy błędów. |
Zwraca
Typ | Opis |
---|---|
Zwraca tablicę ścieżek plików dla każdego pobranego pliku. |
drop_columns
Upuść określone kolumny z zestawu danych.
Jeśli zostanie porzucona kolumna czasowników, odpowiednie możliwości również zostaną porzucone dla zwróconego zestawu danych.
drop_columns(columns)
Parametry
Nazwa | Opis |
---|---|
columns
Wymagane
|
Nazwa lub lista nazw kolumn do porzucenia. |
Zwraca
Typ | Opis |
---|---|
Zwraca nowy obiekt TabularDataset z porzuconymi określonymi kolumnami. |
filter
Uwaga
Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.
Przefiltruj dane, pozostawiając tylko rekordy zgodne z określonym wyrażeniem.
filter(expression)
Parametry
Nazwa | Opis |
---|---|
expression
Wymagane
|
Wyrażenie do obliczenia. |
Zwraca
Typ | Opis |
---|---|
Zmodyfikowany zestaw danych (niezarejestrowany). |
Uwagi
Wyrażenia są uruchamiane przez indeksowanie zestawu danych z nazwą kolumny. Obsługują one różne funkcje i operatory i można je łączyć przy użyciu operatorów logicznych. Wynikowe wyrażenie zostanie z opóźnieniem obliczone dla każdego rekordu, gdy nastąpi ściąganie danych, a nie miejsce jego definiowania.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
Uwaga
Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.
Pobierz profil danych z najnowszego przebiegu profilu przesłanego dla tego lub tego samego zestawu danych w obszarze roboczym.
get_profile(workspace=None)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, w którym został przesłany profil. Domyślnie jest to obszar roboczy tego zestawu danych. Wymagane, jeśli zestaw danych nie jest skojarzony z obszarem roboczym. Zobacz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace , aby uzyskać więcej informacji na temat obszarów roboczych. |
Zwraca
Typ | Opis |
---|---|
Wynik profilu z najnowszego uruchomienia profilu typu DatasetProfile. |
get_profile_runs
Uwaga
Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.
Zwróć poprzednie uruchomienia profilu skojarzone z tym lub tym samym zestawem danych w obszarze roboczym.
get_profile_runs(workspace=None)
Parametry
Nazwa | Opis |
---|---|
workspace
Wymagane
|
Obszar roboczy, w którym został przesłany profil. Domyślnie jest to obszar roboczy tego zestawu danych. Wymagane, jeśli zestaw danych nie jest skojarzony z obszarem roboczym. Zobacz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace , aby uzyskać więcej informacji na temat obszarów roboczych. |
Zwraca
Typ | Opis |
---|---|
obiekt iteratora typu azureml.core.Run. |
keep_columns
Zachowaj określone kolumny i pomiń wszystkie inne z zestawu danych.
Jeśli zostanie porzucona kolumna czasowników, odpowiednie możliwości również zostaną porzucone dla zwróconego zestawu danych.
keep_columns(columns, validate=False)
Parametry
Nazwa | Opis |
---|---|
columns
Wymagane
|
Nazwa lub lista nazw kolumn do zachowania. |
validate
Wymagane
|
Wskazuje, czy należy sprawdzić, czy dane można załadować z zwróconego zestawu danych. Wartość domyślna to False. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. |
Zwraca
Typ | Opis |
---|---|
Zwraca nowy obiekt TabularDataset z przechowywanymi tylko określonymi kolumnami. |
mount
Uwaga
Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.
Utwórz menedżera kontekstu na potrzeby instalowania strumieni plików zdefiniowanych przez zestaw danych jako pliki lokalne.
mount(stream_column, mount_point=None)
Parametry
Nazwa | Opis |
---|---|
stream_column
Wymagane
|
Kolumna strumienia do zainstalowania. |
mount_point
Wymagane
|
Katalog lokalny do zainstalowania plików. Jeśli brak, dane zostaną zainstalowane w katalogu tymczasowym, który można znaleźć, wywołując metodę wystąpienia MountContext.mount_point . |
Zwraca
Typ | Opis |
---|---|
<xref:azureml.dataprep.fuse.daemon.MountContext>
|
Zwraca menedżera kontekstu do zarządzania cyklem życia instalacji. |
partition_by
Partycjonowane dane zostaną skopiowane i wyjściowe do miejsca docelowego określonego przez element docelowy.
utwórz zestaw danych na podstawie wyjściowej ścieżki danych z formatem partycji, zarejestruj zestaw danych, jeśli podano nazwę, zwróć zestaw danych dla nowej ścieżki danych z partycjami
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
Parametry
Nazwa | Opis |
---|---|
partition_keys
Wymagane
|
Wymagane, klucze partycji |
target
Wymagane
|
Wymagana ścieżka magazynu danych, do której zostaną przekazane dane parquet ramki danych. W celu uniknięcia konfliktu zostanie wygenerowany folder guid w ścieżce docelowej. |
name
Wymagane
|
Opcjonalnie, nazwa rejestracji. |
show_progress
Wymagane
|
Opcjonalnie wskazuje, czy ma być wyświetlany postęp przekazywania w konsoli programu . Wartość domyślna to True. |
partition_as_file_dataset
Wymagane
|
Opcjonalnie wskazuje, czy zwraca zestaw danych pliku, czy nie. Wartością domyślną jest fałsz. |
Zwraca
Typ | Opis |
---|---|
Zapisany lub zarejestrowany zestaw danych. |
random_split
Podziel rekordy w zestawie danych na dwie części losowo i w przybliżeniu według określonej wartości procentowej.
Pierwszy zestaw danych zawiera około percentage
wszystkich rekordów i drugi zestaw danych pozostałych rekordów.
random_split(percentage, seed=None)
Parametry
Nazwa | Opis |
---|---|
percentage
Wymagane
|
Przybliżony procent podziału zestawu danych według. Musi to być liczba z zakresu od 0,0 do 1,0. |
seed
Wymagane
|
Opcjonalne inicjatory do użycia dla generatora losowego. |
Zwraca
Typ | Opis |
---|---|
Zwraca krotkę nowych obiektów TabularDataset reprezentujących dwa zestawy danych po podziale. |
skip
Pomiń rekordy z góry zestawu danych według określonej liczby.
skip(count)
Parametry
Nazwa | Opis |
---|---|
count
Wymagane
|
Liczba rekordów do pominięcia. |
Zwraca
Typ | Opis |
---|---|
Zwraca nowy obiekt TabularDataset reprezentujący zestaw danych z pominiętymi rekordami. |
submit_profile_run
Uwaga
Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.
Prześlij przebieg eksperymentu, aby obliczyć profil danych.
Profil danych może być bardzo przydatny do zrozumienia danych wejściowych, identyfikowania anomalii i brakujących wartości, dostarczając przydatne informacje o danych, takich jak typ kolumny, brakujące wartości itp.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
Parametry
Nazwa | Opis |
---|---|
compute_target
Wymagane
|
Docelowy obiekt obliczeniowy do uruchomienia eksperymentu obliczania profilu. Określ wartość "local", aby używać obliczeń lokalnych. Zobacz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget , aby uzyskać więcej informacji na temat docelowych obiektów obliczeniowych. |
experiment
Wymagane
|
Obiekt eksperymentu. Zobacz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment , aby uzyskać więcej informacji na temat eksperymentów. |
cache_datastore_name
Wymagane
|
nazwa magazynu danych do przechowywania pamięci podręcznej profilu, jeśli brak, zostanie użyty domyślny magazyn danych |
Zwraca
Typ | Opis |
---|---|
Obiekt typu DatasetProfileRun, klasa. |
take
Weź przykładowe rekordy z góry zestawu danych według określonej liczby.
take(count)
Parametry
Nazwa | Opis |
---|---|
count
Wymagane
|
Liczba rekordów do wykonania. |
Zwraca
Typ | Opis |
---|---|
Zwraca nowy obiekt TabularDataset reprezentujący przykładowy zestaw danych. |
take_sample
Weź losową próbkę rekordów w zestawie danych w przybliżeniu według określonego prawdopodobieństwa.
take_sample(probability, seed=None)
Parametry
Nazwa | Opis |
---|---|
probability
Wymagane
|
Prawdopodobieństwo dołączenia rekordu do próbki. |
seed
Wymagane
|
Opcjonalne inicjatory do użycia dla generatora losowego. |
Zwraca
Typ | Opis |
---|---|
Zwraca nowy obiekt TabularDataset reprezentujący przykładowy zestaw danych. |
time_after
Filtruj tabelarycznyzestaw danych z kolumnami sygnatury czasowej po określonym czasie rozpoczęcia.
time_after(start_time, include_boundary=True, validate=True)
Parametry
Nazwa | Opis |
---|---|
start_time
Wymagane
|
Dolna granica filtrowania danych. |
include_boundary
Wymagane
|
Określ, czy wiersz skojarzony z czasem granicznym ( |
validate
Wymagane
|
Wskazuje, czy należy sprawdzić, czy określone kolumny istnieją w zestawie danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. |
Zwraca
Typ | Opis |
---|---|
Tabelaryczny zestaw danych z nowym filtrowanym zestawem danych. |
time_before
Filtruj tabelarycznyZestaw danych z kolumnami sygnatur czasowych przed określonym czasem zakończenia.
time_before(end_time, include_boundary=True, validate=True)
Parametry
Nazwa | Opis |
---|---|
end_time
Wymagane
|
Górna granica do filtrowania danych. |
include_boundary
Wymagane
|
Określ, czy wiersz skojarzony z czasem granicznym ( |
validate
Wymagane
|
Wskazuje, czy należy sprawdzić, czy określone kolumny istnieją w zestawie danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. |
Zwraca
Typ | Opis |
---|---|
Tabelaryczny zestaw danych z nowym filtrowanym zestawem danych. |
time_between
Filtruj tabelarycznyZestaw danych między określonym czasem rozpoczęcia i zakończenia.
time_between(start_time, end_time, include_boundary=True, validate=True)
Parametry
Nazwa | Opis |
---|---|
start_time
Wymagane
|
Dolna granica filtrowania danych. |
end_time
Wymagane
|
Górna granica filtrowania danych. |
include_boundary
Wymagane
|
Określ, czy wiersz skojarzony z czasem granicznym ( |
validate
Wymagane
|
Wskazuje, czy należy sprawdzić, czy określone kolumny istnieją w zestawie danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. |
Zwraca
Typ | Opis |
---|---|
Tabelaryczny zestaw danych z nowym filtrowanym zestawem danych. |
time_recent
Filtruj tabelarycznyZestaw danych tak, aby zawierał tylko określony czas trwania (ilość) ostatnich danych.
time_recent(time_delta, include_boundary=True, validate=True)
Parametry
Nazwa | Opis |
---|---|
time_delta
Wymagane
|
Czas trwania (ilość) ostatnich danych do pobrania. |
include_boundary
Wymagane
|
Określ, czy wiersz skojarzony z czasem granicznym ( |
validate
Wymagane
|
Wskazuje, czy należy sprawdzić, czy określone kolumny istnieją w zestawie danych. Wartość domyślna to True. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. |
Zwraca
Typ | Opis |
---|---|
Tabelaryczny zestaw danych z nowym filtrowanym zestawem danych. |
to_csv_files
Przekonwertuj bieżący zestaw danych na zestaw plików FileDataset zawierający pliki CSV.
Wynikowy zestaw danych będzie zawierać co najmniej jeden plik CSV, z których każdy odpowiada partycji danych z bieżącego zestawu danych. Te pliki nie są materializowane, dopóki nie zostaną pobrane lub odczytane.
to_csv_files(separator=',')
Parametry
Nazwa | Opis |
---|---|
separator
Wymagane
|
Separator używany do oddzielania wartości w pliku wynikowym. |
Zwraca
Typ | Opis |
---|---|
Zwraca nowy obiekt FileDataset z zestawem plików CSV zawierającym dane w tym zestawie danych. |
to_dask_dataframe
Uwaga
Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.
Zwróć ramkę danych języka Dask, która może z opóźnieniem odczytywać dane w zestawie danych.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
Parametry
Nazwa | Opis |
---|---|
sample_size
Wymagane
|
Liczba rekordów do odczytania w celu określenia schematu i typów. |
dtypes
Wymagane
|
Opcjonalny dykt określający oczekiwane kolumny i ich typy. sample_size jest ignorowana, jeśli jest to podane. |
on_error
Wymagane
|
Jak obsłużyć wszystkie wartości błędów w zestawie danych, takie jak te generowane przez błąd podczas analizowania wartości. Prawidłowe wartości to "null", które zastępują je wartością null; i "fail", co spowoduje wyjątek. |
out_of_range_datetime
Wymagane
|
Jak obsługiwać wartości daty i godziny spoza zakresu obsługiwanego przez bibliotekę Pandas. Prawidłowe wartości to "null", które zastępują je wartością null; i "fail", co spowoduje wyjątek. |
Zwraca
Typ | Opis |
---|---|
dask.dataframe.core.DataFrame |
to_pandas_dataframe
Załaduj wszystkie rekordy z zestawu danych do ramki danych pandas.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
Parametry
Nazwa | Opis |
---|---|
on_error
Wymagane
|
Jak obsłużyć wszystkie wartości błędów w zestawie danych, takie jak te generowane przez błąd podczas analizowania wartości. Prawidłowe wartości to "null", które zastępują je wartością null; i "fail", co spowoduje wyjątek. |
out_of_range_datetime
Wymagane
|
Jak obsługiwać wartości daty i godziny spoza zakresu obsługiwanego przez bibliotekę Pandas. Prawidłowe wartości to "null", które zastępują je wartością null; i "fail", co spowoduje wyjątek. |
Zwraca
Typ | Opis |
---|---|
Zwraca ramkę danych biblioteki pandas. |
to_parquet_files
Przekonwertuj bieżący zestaw danych na zestaw plików FileDataset zawierający pliki Parquet.
Wynikowy zestaw danych będzie zawierać co najmniej jeden plik Parquet, z których każdy odpowiada partycji danych z bieżącego zestawu danych. Te pliki nie są materializowane, dopóki nie zostaną pobrane lub odczytane.
to_parquet_files()
Zwraca
Typ | Opis |
---|---|
Zwraca nowy obiekt FileDataset z zestawem plików Parquet zawierającym dane w tym zestawie danych. |
to_spark_dataframe
Załaduj wszystkie rekordy z zestawu danych do ramki danych platformy Spark.
to_spark_dataframe()
Zwraca
Typ | Opis |
---|---|
Zwraca ramkę danych platformy Spark. |
with_timestamp_columns
Zdefiniuj kolumny sygnatury czasowej dla zestawu danych.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
Parametry
Nazwa | Opis |
---|---|
timestamp
Wymagane
|
Nazwa kolumny jako sygnatura czasowa (używana jako fine_grain_timestamp) (opcjonalnie). Wartość domyślna to None(clear). |
partition_timestamp
Wymagane
|
Nazwa partition_timestamp kolumny (używana jako gruba sygnatura czasowa ziarna) (opcjonalnie). Wartość domyślna to None(clear). |
validate
Wymagane
|
Wskazuje, czy należy sprawdzić, czy określone kolumny istnieją w zestawie danych. Wartość domyślna to False. Walidacja wymaga, aby źródło danych było dostępne z bieżącego środowiska obliczeniowego. |
Zwraca
Typ | Opis |
---|---|
Zwraca nowy zestaw danych tabelarycznych ze zdefiniowanymi kolumnami sygnatury czasowej. |
Uwagi
Metoda definiuje kolumny, które mają być używane jako znaczniki czasu. Kolumny sygnatury czasowej w zestawie danych umożliwiają traktowanie danych jako danych szeregów czasowych i włączenie dodatkowych możliwości. Jeśli zestaw danych ma zarówno określony, jak timestamp (used to be referred as fine_grain_timestamp)
i partition_timestamp (used to be referred as coarse grain timestamp)
określony, dwie kolumny powinny reprezentować tę samą oś czasu.