Sdílet prostřednictvím


DataDriftDetector Třída

Definuje monitorování posunu dat, které se dá použít ke spouštění úloh posunu dat ve službě Azure Machine Learning.

Třída DataDriftDetector umožňuje identifikovat posun mezi daným směrný plán a cílovou datovou sadou. Objekt DataDriftDetector je vytvořen v pracovním prostoru buď zadáním směrného plánu a cílových datových sad přímo. Další informace najdete v tématu https://aka.ms/datadrift.

Konstruktor Datadriftdetector.

Konstruktor DataDriftDetector slouží k načtení cloudové reprezentace objektu DataDriftDetector přidruženého k poskytnutému pracovnímu prostoru.

Dědičnost
builtins.object
DataDriftDetector

Konstruktor

DataDriftDetector(workspace, name=None, baseline_dataset=None, target_dataset=None, compute_target=None, frequency=None, feature_list=None, alert_config=None, drift_threshold=None, latency=None)

Parametry

Name Description
workspace
Vyžadováno

Pracovní prostor, ve kterém chcete vytvořit DataDriftDetector objektu.

name
str

Jedinečný název objektu DataDriftDetector.

Default value: None
baseline_dataset

Datová sada pro porovnání cílové datové sady s.

Default value: None
target_dataset

Datová sada pro spuštění adhoc nebo naplánovaných úloh DataDrift pro. Musí to být časová řada.

Default value: None
compute_target

Volitelný název ComputeTarget nebo ComputeTarget služby Azure Machine Learning DataDriftDetector vytvoří cílový výpočetní objekt, pokud ho nezadáte.

Default value: None
frequency
str

Volitelná frekvence označující, jak často se kanál spouští. Podporuje "Den", "Týden" nebo "Měsíc".

Default value: None
feature_list

Volitelné funkce na seznamu povolených pro spuštění detekce dat Úlohy DataDriftDetector se budou spouštět ve všech funkcích, pokud feature_list není zadán. Seznam funkcí může obsahovat znaky, čísla, pomlčky a prázdné znaky. Délka seznamu musí být menší než 200.

Default value: None
alert_config

Volitelný objekt konfigurace pro výstrahy DataDriftDetector.

Default value: None
drift_threshold

Volitelná prahová hodnota pro povolení upozornění DataDriftDetector. Hodnota musí být v rozmezí od 0 do 1. Hodnota 0,2 se použije, když je zadána hodnota None (výchozí).

Default value: None
latency
int

Zpoždění v hodinách, než se data zobrazí v datové sadě.

Default value: None
workspace
Vyžadováno

Pracovní prostor, ve kterém chcete vytvořit DataDriftDetector objektu.

name
Vyžadováno
str

Jedinečný název objektu DataDriftDetector.

baseline_dataset
Vyžadováno

Datová sada pro porovnání cílové datové sady s.

target_dataset
Vyžadováno

Datová sada pro spuštění adhoc nebo naplánovaných úloh DataDrift pro. Musí to být časová řada.

compute_target
Vyžadováno

Volitelný název ComputeTarget nebo ComputeTarget služby Azure Machine Learning DataDriftDetector vytvoří cílový výpočetní objekt, pokud ho nezadáte.

frequency
Vyžadováno
str

Volitelná frekvence označující, jak často se kanál spouští. Podporuje "Den", "Týden" nebo "Měsíc".

feature_list
Vyžadováno

Volitelné funkce na seznamu povolených pro spuštění detekce dat Úlohy DataDriftDetector se budou spouštět ve všech funkcích, pokud feature_list není zadán. Seznam funkcí může obsahovat znaky, čísla, pomlčky a prázdné znaky. Délka seznamu musí být menší než 200.

alert_config
Vyžadováno

Volitelný objekt konfigurace pro výstrahy DataDriftDetector.

drift_threshold
Vyžadováno

Volitelná prahová hodnota pro povolení upozornění DataDriftDetector. Hodnota musí být v rozmezí od 0 do 1. Hodnota 0,2 se použije, když je zadána hodnota None (výchozí).

latency
Vyžadováno
int

Zpoždění v hodinách, než se data zobrazí v datové sadě.

Poznámky

Objekt DataDriftDetector představuje definici úlohy posunu dat, kterou lze použít ke spuštění tří typů spuštění úlohy:

  • adhoc běží pro analýzu dat konkrétního dne; viz metoda run.

  • naplánované spuštění v kanálu; viz metoda enable_schedule.

  • spuštění backfillu, abyste viděli, jak se data v průběhu času mění; viz metoda backfill.

Typický vzor pro vytvoření dataDriftDetector je:

  • K vytvoření objektu DataDriftDetector založeného na datové sadě použijte create_from_datasets

Konstruktor DataDriftDetector načte existující objekt posunu dat přidružený k pracovnímu prostoru.

Metody

backfill

Spusťte úlohu backfillu nad zadaným počátečním a koncovým datem.

Podrobnosti o spuštěních backfillu posunu dat najdete v https://aka.ms/datadrift.

POZNÁMKA: Backfill se podporuje pouze u objektů DataDriftDetector založených na datové sadě.

create_from_datasets

Vytvořte nový objekt DataDriftDetector ze základní tabulkové datové sady a datové sady cílové časové řady.

delete

Odstraňte plán objektu DataDriftDetector.

disable_schedule

Zakažte plán objektu DataDriftDetector.

enable_schedule

Vytvořte plán pro spuštění úlohy DataDriftDetector založené na datové sadě.

get_by_name

Načtěte jedinečný objekt DataDriftDetector pro daný pracovní prostor a název.

get_output

Získejte řazenou kolekci výsledků posunu a metrik pro konkrétní dataDriftDetector v daném časovém intervalu.

list

Získejte seznam objektů DataDriftDetector pro zadaný pracovní prostor a volitelnou datovou sadu.

POZNÁMKA: Předání pouze parametru workspace vrátí všechny objekty DataDriftDetector definované v pracovním prostoru.

run

Spusťte analýzu posunu dat k určitému bodu v čase.

show

Umožňuje zobrazit trend posunu dat v daném časovém rozsahu.

Ve výchozím nastavení tato metoda zobrazuje posledních 10 cyklů. Pokud je frekvence například den, bude to posledních 10 dnů. Pokud je frekvence týden, bude to posledních 10 týdnů.

update

Aktualizujte plán přidružený k objektu DataDriftDetector.

Volitelné hodnoty parametrů lze nastavit na None, jinak se ve výchozím nastavení nastaví na stávající hodnoty.

backfill

Spusťte úlohu backfillu nad zadaným počátečním a koncovým datem.

Podrobnosti o spuštěních backfillu posunu dat najdete v https://aka.ms/datadrift.

POZNÁMKA: Backfill se podporuje pouze u objektů DataDriftDetector založených na datové sadě.

backfill(start_date, end_date, compute_target=None, create_compute_target=False)

Parametry

Name Description
start_date
Vyžadováno

Počáteční datum úlohy obnovení.

end_date
Vyžadováno

Koncové datum úlohy backfillu včetně.

compute_target

Volitelný název ComputeTarget nebo ComputeTarget služby Azure Machine Learning DataDriftDetector vytvoří cílový výpočetní objekt, pokud není zadán žádný.

Default value: None
create_compute_target

Určuje, jestli se automaticky vytvoří cílový výpočetní objekt služby Azure Machine Learning.

Default value: False

Návraty

Typ Description
Run

A DataDriftDetector run.

create_from_datasets

Vytvořte nový objekt DataDriftDetector ze základní tabulkové datové sady a datové sady cílové časové řady.

static create_from_datasets(workspace, name, baseline_dataset, target_dataset, compute_target=None, frequency=None, feature_list=None, alert_config=None, drift_threshold=None, latency=None)

Parametry

Name Description
workspace
Vyžadováno

Pracovní prostor pro vytvoření DataDriftDetector v.

name
Vyžadováno
str

Jedinečný název objektu DataDriftDetector.

baseline_dataset
Vyžadováno

Datová sada pro porovnání cílové datové sady s.

target_dataset
Vyžadováno

Datová sada pro spuštění adhoc nebo naplánovaných úloh DataDrift pro. Musí to být časová řada.

compute_target

Volitelný název ComputeTarget nebo ComputeTarget služby Azure Machine Learning DataDriftDetector vytvoří cílový výpočetní objekt, pokud ho nezadáte.

Default value: None
frequency
str

Volitelná frekvence označující, jak často se kanál spouští. Podporuje "Den", "Týden" nebo "Měsíc".

Default value: None
feature_list

Volitelné funkce na seznamu povolených pro spuštění detekce dat Úlohy DataDriftDetector se budou spouštět ve všech funkcích, pokud feature_list není zadán. Seznam funkcí může obsahovat znaky, čísla, pomlčky a prázdné znaky. Délka seznamu musí být menší než 200.

Default value: None
alert_config

Volitelný objekt konfigurace pro výstrahy DataDriftDetector.

Default value: None
drift_threshold

Volitelná prahová hodnota pro povolení upozornění DataDriftDetector. Hodnota musí být v rozmezí od 0 do 1. Hodnota 0,2 se použije, když je zadána hodnota None (výchozí).

Default value: None
latency
int

Zpoždění v hodinách, než se data zobrazí v datové sadě.

Default value: None

Návraty

Typ Description

A DataDriftDetector objektu.

Výjimky

Typ Description
<xref:KeyError>, <xref:TypeError>, <xref:ValueError>

Poznámky

DataDriftDetectors založené na datových sadách umožňují vypočítat posun dat mezi základní datovou sadou, což musí být TabularDataseta cílovou datovou sadou, což musí být datová sada časových řad. Datová sada časových řad je jednoduše TabularDataset s vlastností fine_grain_timestamp. DataDriftDetector pak může spustit adhoc nebo naplánované úlohy a určit, jestli se cílová datová sada posune od základní datové sady.


   from azureml.core import Workspace, Dataset
   from azureml.datadrift import DataDriftDetector

   ws = Workspace.from_config()
   baseline = Dataset.get_by_name(ws, 'my_baseline_dataset')
   target = Dataset.get_by_name(ws, 'my_target_dataset')

   detector = DataDriftDetector.create_from_datasets(workspace=ws,
                                                     name="my_unique_detector_name",
                                                     baseline_dataset=baseline,
                                                     target_dataset=target,
                                                     compute_target_name='my_compute_target',
                                                     frequency="Day",
                                                     feature_list=['my_feature_1', 'my_feature_2'],
                                                     alert_config=AlertConfiguration(email_addresses=['user@contoso.com']),
                                                     drift_threshold=0.3,
                                                     latency=1)

delete

Odstraňte plán objektu DataDriftDetector.

delete(wait_for_completion=True)

Parametry

Name Description
wait_for_completion

Určuje, jestli se má operace odstranění dokončit.

Default value: True

disable_schedule

Zakažte plán objektu DataDriftDetector.

disable_schedule(wait_for_completion=True)

Parametry

Name Description
wait_for_completion

Určuje, jestli se má operace zakázání dokončit.

Default value: True

enable_schedule

Vytvořte plán pro spuštění úlohy DataDriftDetector založené na datové sadě.

enable_schedule(create_compute_target=False, wait_for_completion=True)

Parametry

Name Description
create_compute_target

Určuje, jestli se automaticky vytvoří cílový výpočetní objekt služby Azure Machine Learning.

Default value: False
wait_for_completion

Určuje, jestli se má operace povolení dokončit.

Default value: True

get_by_name

Načtěte jedinečný objekt DataDriftDetector pro daný pracovní prostor a název.

static get_by_name(workspace, name)

Parametry

Name Description
workspace
Vyžadováno

Pracovní prostor, ve kterém byl vytvořen DataDriftDetector.

name
Vyžadováno
str

Název Objektu DataDriftDetector, který se má vrátit.

Návraty

Typ Description

A DataDriftDetector objektu.

get_output

Získejte řazenou kolekci výsledků posunu a metrik pro konkrétní dataDriftDetector v daném časovém intervalu.

get_output(start_time=None, end_time=None, run_id=None)

Parametry

Name Description
start_time
datetime, <xref:optional>

Čas zahájení okna výsledků ve standardu UTC Pokud je zadána hodnota None (výchozí), použijí se jako počáteční čas poslední 10. cyklu výsledky posledního 10. cyklu. Pokud je například frekvence plánu posunu dat den, start_time je 10 dní. Pokud je frekvence týden, start_time je 10 týdnů.

Default value: None
end_time
datetime, <xref:optional>

Koncový čas okna výsledků ve standardu UTC. Pokud je zadán žádný (výchozí), použije se jako koncový čas aktuální den UTC.

Default value: None
run_id
int, <xref:optional>

Konkrétní ID spuštění.

Default value: None

Návraty

Typ Description

Řazená kolekce členů seznamu výsledků posunu a seznam jednotlivých datových sad a sloupcových metrik.

Poznámky

Tato metoda vrátí řazenou kolekci výsledků posunu a metrik pro id časového intervalu nebo spuštění na základě typu spuštění: adhoc spuštění, plánované spuštění a spuštění backfillu.

  • Pokud chcete načíst adhoc výsledky spuštění, existuje pouze jeden způsob: run_id by měl být platný identifikátor GUID.

  • Pokud chcete načíst naplánovaná spuštění a výsledky spuštění backfillu, existují dva různé způsoby: buď přiřadit platný identifikátor GUID run_id, nebo přiřadit konkrétní start_time nebo end_time (včetně) a zachovat run_id jako Žádné.

  • Pokud run_id, start_timea end_time nejsou žádné ve stejném volání metody, je vyvolána výjimka ověření parametru.

POZNÁMKA: Zadejte parametry start_time a end_time nebo parametr run_id, ale ne obojí.

Je možné, že pro stejné cílové datum existuje více výsledků (cílové datum znamená počáteční datum cílové datové sady pro posun založený na datových sadách). Proto je nutné identifikovat a zpracovat duplicitní výsledky. U posunu založeného na datových sadách platí, že pokud jsou výsledky pro stejné cílové datum, pak se duplikují výsledky. Metoda get_output způsobí odstranění duplicitních výsledků jedním pravidlem: vždy vyzvedne nejnovější vygenerované výsledky.

Metodu get_output lze použít k načtení všech výstupů nebo částečných výstupů plánovaných spuštění v určitém časovém rozsahu mezi start_time a end_time (zahrnuto hranice). Můžete také omezit výsledky jednotlivých adhoc zadáním run_id.

Následující pokyny vám pomůžou interpretovat výsledky vrácené metodou get_output:

  • Princip filtrování je "překrývající se": pokud existuje překrývání mezi skutečným časem výsledku (založeným na datové sadě: cílovou datovou sadou [počáteční datum, koncové datum]) a zadaným [start_time, end_time], bude výsledek vybrán.

  • Pokud pro jedno cílové datum existuje více výstupů, protože výpočet posunu byl proveden několikrát proti danému dni, bude ve výchozím nastavení vybrán pouze nejnovější výstup.

  • Vzhledem k tomu, že existuje více typů instance posunu dat, může být obsah výsledků různý.

U výsledků založených na datových sadách bude výstup vypadat takto:


   results : [{'drift_type': 'DatasetBased',
               'result':[{'has_drift': True, 'drift_threshold': 0.3,
                          'start_date': '2019-04-03', 'end_date': '2019-04-04',
                          'base_dataset_id': '4ac144ef-c86d-4c81-b7e5-ea6bbcd2dc7d',
                          'target_dataset_id': '13445141-aaaa-bbbb-cccc-ea23542bcaf9'}]}]
   metrics : [{'drift_type': 'DatasetBased',
               'metrics': [{'schema_version': '0.1',
                            'start_date': '2019-04-03', 'end_date': '2019-04-04',
                            'baseline_dataset_id': '4ac144ef-c86d-4c81-b7e5-ea6bbcd2dc7d',
                            'target_dataset_id': '13445141-aaaa-bbbb-cccc-ea23542bcaf9'
                            'dataset_metrics': [{'name': 'datadrift_coefficient', 'value': 0.53459}],
                            'column_metrics': [{'feature1': [{'name': 'datadrift_contribution',
                                                              'value': 288.0},
                                                             {'name': 'wasserstein_distance',
                                                              'value': 4.858040000000001},
                                                             {'name': 'energy_distance',
                                                              'value': 2.7204799576545313}]}]}]}]

list

Získejte seznam objektů DataDriftDetector pro zadaný pracovní prostor a volitelnou datovou sadu.

POZNÁMKA: Předání pouze parametru workspace vrátí všechny objekty DataDriftDetector definované v pracovním prostoru.

static list(workspace, baseline_dataset=None, target_dataset=None)

Parametry

Name Description
workspace
Vyžadováno

Pracovní prostor, ve kterém byly vytvořeny objekty DataDriftDetector.

baseline_dataset

Základní datová sada pro filtrování návratového seznamu

Default value: None
target_dataset

Cílová datová sada pro filtrování návratového seznamu

Default value: None

Návraty

Typ Description

Seznam objektů DataDriftDetector.

run

Spusťte analýzu posunu dat k určitému bodu v čase.

run(target_date, compute_target=None, create_compute_target=False, feature_list=None, drift_threshold=None)

Parametry

Name Description
target_date
Vyžadováno

Cílové datum bodování dat ve standardu UTC.

compute_target

Volitelný název ComputeTarget nebo ComputeTarget služby Azure Machine Learning Pokud není zadaný, vytvoří se cílový výpočetní objekt automaticky.

Default value: None
create_compute_target

Určuje, jestli se automaticky vytvoří cílový výpočetní objekt služby Azure Machine Learning.

Default value: False
feature_list

Volitelné funkce na seznamu povolených pro spuštění detekce dat

Default value: None
drift_threshold

Volitelná prahová hodnota pro povolení upozornění DataDriftDetector.

Default value: None

Návraty

Typ Description
Run

A DataDriftDetector run.

show

Umožňuje zobrazit trend posunu dat v daném časovém rozsahu.

Ve výchozím nastavení tato metoda zobrazuje posledních 10 cyklů. Pokud je frekvence například den, bude to posledních 10 dnů. Pokud je frekvence týden, bude to posledních 10 týdnů.

show(start_time=None, end_time=None)

Parametry

Name Description
start_time
datetime, <xref:optional>

Začátek časového intervalu prezentace v UTC. Výchozí hodnota None znamená vyzvednutí nejnovějších 10. výsledků cyklu.

Default value: None
end_time
datetime, <xref:optional>

Konec časového intervalu dat prezentace v UTC. Výchozí hodnota None znamená aktuální den.

Default value: None

Návraty

Typ Description
dict()

Slovník všech obrázků. Klíč je service_name.

update

Aktualizujte plán přidružený k objektu DataDriftDetector.

Volitelné hodnoty parametrů lze nastavit na None, jinak se ve výchozím nastavení nastaví na stávající hodnoty.

update(compute_target=Ellipsis, feature_list=Ellipsis, schedule_start=Ellipsis, alert_config=Ellipsis, drift_threshold=Ellipsis, wait_for_completion=True)

Parametry

Name Description
compute_target

Volitelný název ComputeTarget nebo ComputeTarget služby Azure Machine Learning Pokud tento parametr není zadaný, dataDriftDetector vytvoří cílový výpočetní objekt.

Default value: Ellipsis
feature_list

Funkce na seznamu povolených pro spuštění detekce dat na seznamu povolených

Default value: Ellipsis
schedule_start

Počáteční čas plánu posunu dat v UTC.

Default value: Ellipsis
alert_config

Volitelný objekt konfigurace pro výstrahy DataDriftDetector.

Default value: Ellipsis
drift_threshold

Prahová hodnota pro povolení upozornění DataDriftDetector.

Default value: Ellipsis
wait_for_completion

Zda se má čekat na dokončení operací povolení, zakázání nebo odstranění.

Default value: True

Návraty

Typ Description

Atributy

alert_config

Získejte konfiguraci výstrahy pro objekt DataDriftDetector.

Návraty

Typ Description

Objekt AlertConfiguration.

baseline_dataset

Získejte základní datovou sadu přidruženou k objektu DataDriftDetector.

Návraty

Typ Description

Typ datové sady základní datové sady

compute_target

Získejte cílový výpočetní objekt připojený k objektu DataDriftDetector.

Návraty

Typ Description

Cílový výpočetní objekt.

drift_threshold

Získejte prahovou hodnotu posunu objektu DataDriftDetector.

Návraty

Typ Description

Prahová hodnota posunu.

drift_type

Získání typu DataDriftDetector, DatasetBased je jedinou podporovanou hodnotou.

Návraty

Typ Description
str

Typ DataDriftDetector objektu.

enabled

Získejte logickou hodnotu označující, zda je objekt DataDriftDetector povolen.

Návraty

Typ Description

Logická hodnota; Pravda pro povolenou.

feature_list

Získejte seznam povolených funkcí pro Objekt DataDriftDetector.

Návraty

Typ Description

Seznam názvů funkcí

frequency

Získejte frekvenci plánu DataDriftDetector.

Návraty

Typ Description
str

Řetězec "Den", "Týden" nebo "Měsíc"

interval

Získejte interval plánu DataDriftDetector.

Návraty

Typ Description
int

Celočíselná hodnota časové jednotky.

latency

Získejte latenci úloh plánu DataDriftDetector (v hodinách).

Návraty

Typ Description
int

Počet hodin představujících latenci.

name

Získejte název DataDriftDetector objektu.

Návraty

Typ Description
str

Název DataDriftDetector.

schedule_start

Získejte čas zahájení plánu.

Návraty

Typ Description

Objekt datetime naplánovaného času zahájení v UTC.

state

Označuje stav plánu DataDriftDetector.

Návraty

Typ Description
str

Jeden z 'Disabled', 'Enabled', 'Deleted', 'Disableing', 'Enable', 'Delete', 'Failed', 'DisableFailed', 'EnableFailed', 'DeleteFailed'.

target_dataset

Získejte cílovou datovou sadu přidruženou k objektu DataDriftDetector.

Návraty

Typ Description

Typ datové sady základní datové sady.

workspace

Získejte pracovní prostor objektu DataDriftDetector.

Návraty

Typ Description

Pracovní prostor DataDriftDetector objekt byl vytvořen v.