DataDriftDetector Třída
Definuje monitorování posunu dat, které se dá použít ke spouštění úloh posunu dat ve službě Azure Machine Learning.
Třída DataDriftDetector umožňuje identifikovat posun mezi daným směrný plán a cílovou datovou sadou. Objekt DataDriftDetector je vytvořen v pracovním prostoru buď zadáním směrného plánu a cílových datových sad přímo. Další informace najdete v tématu https://aka.ms/datadrift.
Konstruktor Datadriftdetector.
Konstruktor DataDriftDetector slouží k načtení cloudové reprezentace objektu DataDriftDetector přidruženého k poskytnutému pracovnímu prostoru.
- Dědičnost
-
builtins.objectDataDriftDetector
Konstruktor
DataDriftDetector(workspace, name=None, baseline_dataset=None, target_dataset=None, compute_target=None, frequency=None, feature_list=None, alert_config=None, drift_threshold=None, latency=None)
Parametry
Name | Description |
---|---|
workspace
Vyžadováno
|
Pracovní prostor, ve kterém chcete vytvořit DataDriftDetector objektu. |
name
|
Jedinečný název objektu DataDriftDetector. Default value: None
|
baseline_dataset
|
Datová sada pro porovnání cílové datové sady s. Default value: None
|
target_dataset
|
Datová sada pro spuštění adhoc nebo naplánovaných úloh DataDrift pro. Musí to být časová řada. Default value: None
|
compute_target
|
ComputeTarget nebo
str
Volitelný název ComputeTarget nebo ComputeTarget služby Azure Machine Learning DataDriftDetector vytvoří cílový výpočetní objekt, pokud ho nezadáte. Default value: None
|
frequency
|
Volitelná frekvence označující, jak často se kanál spouští. Podporuje "Den", "Týden" nebo "Měsíc". Default value: None
|
feature_list
|
Volitelné funkce na seznamu povolených pro spuštění detekce dat Úlohy DataDriftDetector se budou spouštět ve všech funkcích, pokud Default value: None
|
alert_config
|
Volitelný objekt konfigurace pro výstrahy DataDriftDetector. Default value: None
|
drift_threshold
|
Volitelná prahová hodnota pro povolení upozornění DataDriftDetector. Hodnota musí být v rozmezí od 0 do 1. Hodnota 0,2 se použije, když je zadána hodnota None (výchozí). Default value: None
|
latency
|
Zpoždění v hodinách, než se data zobrazí v datové sadě. Default value: None
|
workspace
Vyžadováno
|
Pracovní prostor, ve kterém chcete vytvořit DataDriftDetector objektu. |
name
Vyžadováno
|
Jedinečný název objektu DataDriftDetector. |
baseline_dataset
Vyžadováno
|
Datová sada pro porovnání cílové datové sady s. |
target_dataset
Vyžadováno
|
Datová sada pro spuštění adhoc nebo naplánovaných úloh DataDrift pro. Musí to být časová řada. |
compute_target
Vyžadováno
|
ComputeTarget nebo
str
Volitelný název ComputeTarget nebo ComputeTarget služby Azure Machine Learning DataDriftDetector vytvoří cílový výpočetní objekt, pokud ho nezadáte. |
frequency
Vyžadováno
|
Volitelná frekvence označující, jak často se kanál spouští. Podporuje "Den", "Týden" nebo "Měsíc". |
feature_list
Vyžadováno
|
Volitelné funkce na seznamu povolených pro spuštění detekce dat Úlohy DataDriftDetector se budou spouštět ve všech funkcích, pokud |
alert_config
Vyžadováno
|
Volitelný objekt konfigurace pro výstrahy DataDriftDetector. |
drift_threshold
Vyžadováno
|
Volitelná prahová hodnota pro povolení upozornění DataDriftDetector. Hodnota musí být v rozmezí od 0 do 1. Hodnota 0,2 se použije, když je zadána hodnota None (výchozí). |
latency
Vyžadováno
|
Zpoždění v hodinách, než se data zobrazí v datové sadě. |
Poznámky
Objekt DataDriftDetector představuje definici úlohy posunu dat, kterou lze použít ke spuštění tří typů spuštění úlohy:
adhoc běží pro analýzu dat konkrétního dne; viz metoda run.
naplánované spuštění v kanálu; viz metoda enable_schedule.
spuštění backfillu, abyste viděli, jak se data v průběhu času mění; viz metoda backfill.
Typický vzor pro vytvoření dataDriftDetector je:
- K vytvoření objektu DataDriftDetector založeného na datové sadě použijte create_from_datasets
Konstruktor DataDriftDetector načte existující objekt posunu dat přidružený k pracovnímu prostoru.
Metody
backfill |
Spusťte úlohu backfillu nad zadaným počátečním a koncovým datem. Podrobnosti o spuštěních backfillu posunu dat najdete v https://aka.ms/datadrift. POZNÁMKA: Backfill se podporuje pouze u objektů DataDriftDetector založených na datové sadě. |
create_from_datasets |
Vytvořte nový objekt DataDriftDetector ze základní tabulkové datové sady a datové sady cílové časové řady. |
delete |
Odstraňte plán objektu DataDriftDetector. |
disable_schedule |
Zakažte plán objektu DataDriftDetector. |
enable_schedule |
Vytvořte plán pro spuštění úlohy DataDriftDetector založené na datové sadě. |
get_by_name |
Načtěte jedinečný objekt DataDriftDetector pro daný pracovní prostor a název. |
get_output |
Získejte řazenou kolekci výsledků posunu a metrik pro konkrétní dataDriftDetector v daném časovém intervalu. |
list |
Získejte seznam objektů DataDriftDetector pro zadaný pracovní prostor a volitelnou datovou sadu.
POZNÁMKA: Předání pouze parametru |
run |
Spusťte analýzu posunu dat k určitému bodu v čase. |
show |
Umožňuje zobrazit trend posunu dat v daném časovém rozsahu. Ve výchozím nastavení tato metoda zobrazuje posledních 10 cyklů. Pokud je frekvence například den, bude to posledních 10 dnů. Pokud je frekvence týden, bude to posledních 10 týdnů. |
update |
Aktualizujte plán přidružený k objektu DataDriftDetector. Volitelné hodnoty parametrů lze nastavit na |
backfill
Spusťte úlohu backfillu nad zadaným počátečním a koncovým datem.
Podrobnosti o spuštěních backfillu posunu dat najdete v https://aka.ms/datadrift.
POZNÁMKA: Backfill se podporuje pouze u objektů DataDriftDetector založených na datové sadě.
backfill(start_date, end_date, compute_target=None, create_compute_target=False)
Parametry
Name | Description |
---|---|
start_date
Vyžadováno
|
Počáteční datum úlohy obnovení. |
end_date
Vyžadováno
|
Koncové datum úlohy backfillu včetně. |
compute_target
|
ComputeTarget nebo
str
Volitelný název ComputeTarget nebo ComputeTarget služby Azure Machine Learning DataDriftDetector vytvoří cílový výpočetní objekt, pokud není zadán žádný. Default value: None
|
create_compute_target
|
Určuje, jestli se automaticky vytvoří cílový výpočetní objekt služby Azure Machine Learning. Default value: False
|
Návraty
Typ | Description |
---|---|
A DataDriftDetector run. |
create_from_datasets
Vytvořte nový objekt DataDriftDetector ze základní tabulkové datové sady a datové sady cílové časové řady.
static create_from_datasets(workspace, name, baseline_dataset, target_dataset, compute_target=None, frequency=None, feature_list=None, alert_config=None, drift_threshold=None, latency=None)
Parametry
Name | Description |
---|---|
workspace
Vyžadováno
|
Pracovní prostor pro vytvoření DataDriftDetector v. |
name
Vyžadováno
|
Jedinečný název objektu DataDriftDetector. |
baseline_dataset
Vyžadováno
|
Datová sada pro porovnání cílové datové sady s. |
target_dataset
Vyžadováno
|
Datová sada pro spuštění adhoc nebo naplánovaných úloh DataDrift pro. Musí to být časová řada. |
compute_target
|
ComputeTarget nebo
str
Volitelný název ComputeTarget nebo ComputeTarget služby Azure Machine Learning DataDriftDetector vytvoří cílový výpočetní objekt, pokud ho nezadáte. Default value: None
|
frequency
|
Volitelná frekvence označující, jak často se kanál spouští. Podporuje "Den", "Týden" nebo "Měsíc". Default value: None
|
feature_list
|
Volitelné funkce na seznamu povolených pro spuštění detekce dat Úlohy DataDriftDetector se budou spouštět ve všech funkcích, pokud Default value: None
|
alert_config
|
Volitelný objekt konfigurace pro výstrahy DataDriftDetector. Default value: None
|
drift_threshold
|
Volitelná prahová hodnota pro povolení upozornění DataDriftDetector. Hodnota musí být v rozmezí od 0 do 1. Hodnota 0,2 se použije, když je zadána hodnota None (výchozí). Default value: None
|
latency
|
Zpoždění v hodinách, než se data zobrazí v datové sadě. Default value: None
|
Návraty
Typ | Description |
---|---|
A DataDriftDetector objektu. |
Výjimky
Typ | Description |
---|---|
<xref:KeyError>, <xref:TypeError>, <xref:ValueError>
|
Poznámky
DataDriftDetectors založené na datových sadách umožňují vypočítat posun dat mezi základní datovou sadou, což musí být TabularDataseta cílovou datovou sadou, což musí být datová sada časových řad. Datová sada časových řad je jednoduše TabularDataset s vlastností fine_grain_timestamp. DataDriftDetector pak může spustit adhoc nebo naplánované úlohy a určit, jestli se cílová datová sada posune od základní datové sady.
from azureml.core import Workspace, Dataset
from azureml.datadrift import DataDriftDetector
ws = Workspace.from_config()
baseline = Dataset.get_by_name(ws, 'my_baseline_dataset')
target = Dataset.get_by_name(ws, 'my_target_dataset')
detector = DataDriftDetector.create_from_datasets(workspace=ws,
name="my_unique_detector_name",
baseline_dataset=baseline,
target_dataset=target,
compute_target_name='my_compute_target',
frequency="Day",
feature_list=['my_feature_1', 'my_feature_2'],
alert_config=AlertConfiguration(email_addresses=['user@contoso.com']),
drift_threshold=0.3,
latency=1)
delete
Odstraňte plán objektu DataDriftDetector.
delete(wait_for_completion=True)
Parametry
Name | Description |
---|---|
wait_for_completion
|
Určuje, jestli se má operace odstranění dokončit. Default value: True
|
disable_schedule
Zakažte plán objektu DataDriftDetector.
disable_schedule(wait_for_completion=True)
Parametry
Name | Description |
---|---|
wait_for_completion
|
Určuje, jestli se má operace zakázání dokončit. Default value: True
|
enable_schedule
Vytvořte plán pro spuštění úlohy DataDriftDetector založené na datové sadě.
enable_schedule(create_compute_target=False, wait_for_completion=True)
Parametry
Name | Description |
---|---|
create_compute_target
|
Určuje, jestli se automaticky vytvoří cílový výpočetní objekt služby Azure Machine Learning. Default value: False
|
wait_for_completion
|
Určuje, jestli se má operace povolení dokončit. Default value: True
|
get_by_name
Načtěte jedinečný objekt DataDriftDetector pro daný pracovní prostor a název.
static get_by_name(workspace, name)
Parametry
Name | Description |
---|---|
workspace
Vyžadováno
|
Pracovní prostor, ve kterém byl vytvořen DataDriftDetector. |
name
Vyžadováno
|
Název Objektu DataDriftDetector, který se má vrátit. |
Návraty
Typ | Description |
---|---|
A DataDriftDetector objektu. |
get_output
Získejte řazenou kolekci výsledků posunu a metrik pro konkrétní dataDriftDetector v daném časovém intervalu.
get_output(start_time=None, end_time=None, run_id=None)
Parametry
Name | Description |
---|---|
start_time
|
datetime, <xref:optional>
Čas zahájení okna výsledků ve standardu UTC Pokud je zadána hodnota None (výchozí), použijí se jako počáteční čas poslední 10. cyklu výsledky posledního 10. cyklu. Pokud je například frekvence plánu posunu dat den, Default value: None
|
end_time
|
datetime, <xref:optional>
Koncový čas okna výsledků ve standardu UTC. Pokud je zadán žádný (výchozí), použije se jako koncový čas aktuální den UTC. Default value: None
|
run_id
|
int, <xref:optional>
Konkrétní ID spuštění. Default value: None
|
Návraty
Typ | Description |
---|---|
Řazená kolekce členů seznamu výsledků posunu a seznam jednotlivých datových sad a sloupcových metrik. |
Poznámky
Tato metoda vrátí řazenou kolekci výsledků posunu a metrik pro id časového intervalu nebo spuštění na základě typu spuštění: adhoc spuštění, plánované spuštění a spuštění backfillu.
Pokud chcete načíst adhoc výsledky spuštění, existuje pouze jeden způsob:
run_id
by měl být platný identifikátor GUID.Pokud chcete načíst naplánovaná spuštění a výsledky spuštění backfillu, existují dva různé způsoby: buď přiřadit platný identifikátor GUID
run_id
, nebo přiřadit konkrétnístart_time
neboend_time
(včetně) a zachovatrun_id
jako Žádné.Pokud
run_id
,start_time
aend_time
nejsou žádné ve stejném volání metody, je vyvolána výjimka ověření parametru.
POZNÁMKA: Zadejte parametry start_time
a end_time
nebo parametr run_id
, ale ne obojí.
Je možné, že pro stejné cílové datum existuje více výsledků (cílové datum znamená počáteční datum cílové datové sady pro posun založený na datových sadách). Proto je nutné identifikovat a zpracovat duplicitní výsledky.
U posunu založeného na datových sadách platí, že pokud jsou výsledky pro stejné cílové datum, pak se duplikují výsledky.
Metoda get_output
způsobí odstranění duplicitních výsledků jedním pravidlem: vždy vyzvedne nejnovější vygenerované výsledky.
Metodu get_output
lze použít k načtení všech výstupů nebo částečných výstupů plánovaných spuštění v určitém časovém rozsahu mezi start_time
a end_time
(zahrnuto hranice). Můžete také omezit výsledky jednotlivých adhoc zadáním run_id
.
Následující pokyny vám pomůžou interpretovat výsledky vrácené metodou get_output
:
Princip filtrování je "překrývající se": pokud existuje překrývání mezi skutečným časem výsledku (založeným na datové sadě: cílovou datovou sadou [počáteční datum, koncové datum]) a zadaným [
start_time
,end_time
], bude výsledek vybrán.Pokud pro jedno cílové datum existuje více výstupů, protože výpočet posunu byl proveden několikrát proti danému dni, bude ve výchozím nastavení vybrán pouze nejnovější výstup.
Vzhledem k tomu, že existuje více typů instance posunu dat, může být obsah výsledků různý.
U výsledků založených na datových sadách bude výstup vypadat takto:
results : [{'drift_type': 'DatasetBased',
'result':[{'has_drift': True, 'drift_threshold': 0.3,
'start_date': '2019-04-03', 'end_date': '2019-04-04',
'base_dataset_id': '4ac144ef-c86d-4c81-b7e5-ea6bbcd2dc7d',
'target_dataset_id': '13445141-aaaa-bbbb-cccc-ea23542bcaf9'}]}]
metrics : [{'drift_type': 'DatasetBased',
'metrics': [{'schema_version': '0.1',
'start_date': '2019-04-03', 'end_date': '2019-04-04',
'baseline_dataset_id': '4ac144ef-c86d-4c81-b7e5-ea6bbcd2dc7d',
'target_dataset_id': '13445141-aaaa-bbbb-cccc-ea23542bcaf9'
'dataset_metrics': [{'name': 'datadrift_coefficient', 'value': 0.53459}],
'column_metrics': [{'feature1': [{'name': 'datadrift_contribution',
'value': 288.0},
{'name': 'wasserstein_distance',
'value': 4.858040000000001},
{'name': 'energy_distance',
'value': 2.7204799576545313}]}]}]}]
list
Získejte seznam objektů DataDriftDetector pro zadaný pracovní prostor a volitelnou datovou sadu.
POZNÁMKA: Předání pouze parametru workspace
vrátí všechny objekty DataDriftDetector definované v pracovním prostoru.
static list(workspace, baseline_dataset=None, target_dataset=None)
Parametry
Name | Description |
---|---|
workspace
Vyžadováno
|
Pracovní prostor, ve kterém byly vytvořeny objekty DataDriftDetector. |
baseline_dataset
|
Základní datová sada pro filtrování návratového seznamu Default value: None
|
target_dataset
|
Cílová datová sada pro filtrování návratového seznamu Default value: None
|
Návraty
Typ | Description |
---|---|
Seznam objektů DataDriftDetector. |
run
Spusťte analýzu posunu dat k určitému bodu v čase.
run(target_date, compute_target=None, create_compute_target=False, feature_list=None, drift_threshold=None)
Parametry
Name | Description |
---|---|
target_date
Vyžadováno
|
Cílové datum bodování dat ve standardu UTC. |
compute_target
|
ComputeTarget nebo
str
Volitelný název ComputeTarget nebo ComputeTarget služby Azure Machine Learning Pokud není zadaný, vytvoří se cílový výpočetní objekt automaticky. Default value: None
|
create_compute_target
|
Určuje, jestli se automaticky vytvoří cílový výpočetní objekt služby Azure Machine Learning. Default value: False
|
feature_list
|
Volitelné funkce na seznamu povolených pro spuštění detekce dat Default value: None
|
drift_threshold
|
Volitelná prahová hodnota pro povolení upozornění DataDriftDetector. Default value: None
|
Návraty
Typ | Description |
---|---|
A DataDriftDetector run. |
show
Umožňuje zobrazit trend posunu dat v daném časovém rozsahu.
Ve výchozím nastavení tato metoda zobrazuje posledních 10 cyklů. Pokud je frekvence například den, bude to posledních 10 dnů. Pokud je frekvence týden, bude to posledních 10 týdnů.
show(start_time=None, end_time=None)
Parametry
Name | Description |
---|---|
start_time
|
datetime, <xref:optional>
Začátek časového intervalu prezentace v UTC. Výchozí hodnota None znamená vyzvednutí nejnovějších 10. výsledků cyklu. Default value: None
|
end_time
|
datetime, <xref:optional>
Konec časového intervalu dat prezentace v UTC. Výchozí hodnota None znamená aktuální den. Default value: None
|
Návraty
Typ | Description |
---|---|
dict()
|
Slovník všech obrázků. Klíč je service_name. |
update
Aktualizujte plán přidružený k objektu DataDriftDetector.
Volitelné hodnoty parametrů lze nastavit na None
, jinak se ve výchozím nastavení nastaví na stávající hodnoty.
update(compute_target=Ellipsis, feature_list=Ellipsis, schedule_start=Ellipsis, alert_config=Ellipsis, drift_threshold=Ellipsis, wait_for_completion=True)
Parametry
Name | Description |
---|---|
compute_target
|
ComputeTarget nebo
str
Volitelný název ComputeTarget nebo ComputeTarget služby Azure Machine Learning Pokud tento parametr není zadaný, dataDriftDetector vytvoří cílový výpočetní objekt. Default value: Ellipsis
|
feature_list
|
Funkce na seznamu povolených pro spuštění detekce dat na seznamu povolených Default value: Ellipsis
|
schedule_start
|
Počáteční čas plánu posunu dat v UTC. Default value: Ellipsis
|
alert_config
|
Volitelný objekt konfigurace pro výstrahy DataDriftDetector. Default value: Ellipsis
|
drift_threshold
|
Prahová hodnota pro povolení upozornění DataDriftDetector. Default value: Ellipsis
|
wait_for_completion
|
Zda se má čekat na dokončení operací povolení, zakázání nebo odstranění. Default value: True
|
Návraty
Typ | Description |
---|---|
já |
Atributy
alert_config
Získejte konfiguraci výstrahy pro objekt DataDriftDetector.
Návraty
Typ | Description |
---|---|
Objekt AlertConfiguration. |
baseline_dataset
Získejte základní datovou sadu přidruženou k objektu DataDriftDetector.
Návraty
Typ | Description |
---|---|
Typ datové sady základní datové sady |
compute_target
Získejte cílový výpočetní objekt připojený k objektu DataDriftDetector.
Návraty
Typ | Description |
---|---|
Cílový výpočetní objekt. |
drift_threshold
Získejte prahovou hodnotu posunu objektu DataDriftDetector.
Návraty
Typ | Description |
---|---|
Prahová hodnota posunu. |
drift_type
Získání typu DataDriftDetector, DatasetBased je jedinou podporovanou hodnotou.
Návraty
Typ | Description |
---|---|
Typ DataDriftDetector objektu. |
enabled
Získejte logickou hodnotu označující, zda je objekt DataDriftDetector povolen.
Návraty
Typ | Description |
---|---|
Logická hodnota; Pravda pro povolenou. |
feature_list
Získejte seznam povolených funkcí pro Objekt DataDriftDetector.
Návraty
Typ | Description |
---|---|
Seznam názvů funkcí |
frequency
Získejte frekvenci plánu DataDriftDetector.
Návraty
Typ | Description |
---|---|
Řetězec "Den", "Týden" nebo "Měsíc" |
interval
Získejte interval plánu DataDriftDetector.
Návraty
Typ | Description |
---|---|
Celočíselná hodnota časové jednotky. |
latency
Získejte latenci úloh plánu DataDriftDetector (v hodinách).
Návraty
Typ | Description |
---|---|
Počet hodin představujících latenci. |
name
schedule_start
Získejte čas zahájení plánu.
Návraty
Typ | Description |
---|---|
Objekt datetime naplánovaného času zahájení v UTC. |
state
Označuje stav plánu DataDriftDetector.
Návraty
Typ | Description |
---|---|
Jeden z 'Disabled', 'Enabled', 'Deleted', 'Disableing', 'Enable', 'Delete', 'Failed', 'DisableFailed', 'EnableFailed', 'DeleteFailed'. |
target_dataset
Získejte cílovou datovou sadu přidruženou k objektu DataDriftDetector.
Návraty
Typ | Description |
---|---|
Typ datové sady základní datové sady. |
workspace
Získejte pracovní prostor objektu DataDriftDetector.
Návraty
Typ | Description |
---|---|
Pracovní prostor DataDriftDetector objekt byl vytvořen v. |