DataDriftDetector Klas

Referentie

Definieert een gegevensdriftmonitor die kan worden gebruikt voor het uitvoeren van gegevensdrifttaken in Azure Machine Learning.

Met de DataDriftDetector-klasse kunt u drift tussen een bepaalde basislijn en doelgegevensset identificeren. Een DataDriftDetector-object wordt gemaakt in een werkruimte door rechtstreeks de basislijn- en doelgegevenssets op te geven. Zie https://aka.ms/datadriftvoor meer informatie.

Datadriftdetector constructor.

De DataDriftDetector-constructor wordt gebruikt om een cloudweergave op te halen van een DataDriftDetector-object dat is gekoppeld aan de opgegeven werkruimte.

Overname: builtins.object

DataDriftDetector

Constructor

DataDriftDetector(workspace, name=None, baseline_dataset=None, target_dataset=None, compute_target=None, frequency=None, feature_list=None, alert_config=None, drift_threshold=None, latency=None)

Parameters

Name	Description
workspace Vereist	Workspace De werkruimte waarin het DataDriftDetector-object moet worden gemaakt.
name	str Een unieke naam voor het DataDriftDetector-object. Default value: None
baseline_dataset	TabularDataset Gegevensset om de doelgegevensset te vergelijken. Default value: None
target_dataset	TabularDataset Gegevensset voor het uitvoeren van ad-hoc- of geplande DataDrift-taken. Moet een tijdreeks zijn. Default value: None
compute_target	ComputeTarget of str Optionele Azure Machine Learning ComputeTarget- of ComputeTarget-naam. DataDriftDetector maakt een rekendoel als deze niet is opgegeven. Default value: None
frequency	str Optionele frequentie die aangeeft hoe vaak de pijplijn wordt uitgevoerd. Ondersteunt 'Dag', 'Week' of 'Maand'. Default value: None
feature_list	list[str] Optionele toegestane functies om de detectie van gegevensrift uit te voeren. DataDriftDetector-taken worden uitgevoerd op alle functies als `feature_list` niet is opgegeven. De lijst met functies kan tekens, getallen, streepjes en witruimten bevatten. De lengte van de lijst moet kleiner zijn dan 200. Default value: None
alert_config	AlertConfiguration Optioneel configuratieobject voor DataDriftDetector-waarschuwingen. Default value: None
drift_threshold	float Optionele drempelwaarde voor het inschakelen van DataDriftDetector-waarschuwingen. De waarde moet tussen 0 en 1 zijn. Er wordt een waarde van 0,2 gebruikt wanneer Geen is opgegeven (de standaardwaarde). Default value: None
latency	int Vertraging in uren voordat gegevens worden weergegeven in de gegevensset. Default value: None
workspace Vereist	Workspace De werkruimte waarin het DataDriftDetector-object moet worden gemaakt.
name Vereist	str Een unieke naam voor het DataDriftDetector-object.
baseline_dataset Vereist	TabularDataset Gegevensset om de doelgegevensset te vergelijken.
target_dataset Vereist	TabularDataset Gegevensset voor het uitvoeren van ad-hoc- of geplande DataDrift-taken. Moet een tijdreeks zijn.
compute_target Vereist	ComputeTarget of str Optionele Azure Machine Learning ComputeTarget- of ComputeTarget-naam. DataDriftDetector maakt een rekendoel als deze niet is opgegeven.
frequency Vereist	str Optionele frequentie die aangeeft hoe vaak de pijplijn wordt uitgevoerd. Ondersteunt 'Dag', 'Week' of 'Maand'.
feature_list Vereist	list[str] Optionele toegestane functies om de detectie van gegevensrift uit te voeren. DataDriftDetector-taken worden uitgevoerd op alle functies als `feature_list` niet is opgegeven. De lijst met functies kan tekens, getallen, streepjes en witruimten bevatten. De lengte van de lijst moet kleiner zijn dan 200.
alert_config Vereist	AlertConfiguration Optioneel configuratieobject voor DataDriftDetector-waarschuwingen.
drift_threshold Vereist	float Optionele drempelwaarde voor het inschakelen van DataDriftDetector-waarschuwingen. De waarde moet tussen 0 en 1 zijn. Er wordt een waarde van 0,2 gebruikt wanneer Geen is opgegeven (de standaardwaarde).
latency Vereist	int Vertraging in uren voordat gegevens worden weergegeven in de gegevensset.

Opmerkingen

Een DataDriftDetector-object vertegenwoordigt een taakdefinitie voor gegevensdrift die kan worden gebruikt om drie taakuitvoeringstypen uit te voeren:

een addhoc worden uitgevoerd voor het analyseren van de gegevens van een specifieke dag; zie de methode run.
een geplande uitvoering in een pijplijn; zie de methode enable_schedule.
een backfilluitvoering om te zien hoe gegevens in de loop van de tijd veranderen; zie de methode backfill.

Het typische patroon voor het maken van een DataDriftDetector is:

Gebruik create_from_datasets om een DataDriftDetector-object op basis van een gegevensset te maken

De DataDriftDetector-constructor haalt een bestaand gegevensdriftobject op dat aan de werkruimte is gekoppeld.

Methoden

backfill	Voer een backfilltaak uit op een opgegeven begin- en einddatum. Zie https://aka.ms/datadrift voor meer informatie over backfill-uitvoeringen voor gegevensdrift. OPMERKING: Backfill wordt alleen ondersteund op DataDriftDetector-objecten op basis van gegevenssets.
create_from_datasets	Maak een nieuw DataDriftDetector-object op basis van een tabelgegevensset met basislijn en een doel-tijdreeksgegevensset.
delete	Verwijder het schema voor het DataDriftDetector-object.
disable_schedule	Schakel het schema voor het DataDriftDetector-object uit.
enable_schedule	Maak een planning voor het uitvoeren van een dataDriftDetector-taak op basis van een gegevensset.
get_by_name	Haal een uniek DataDriftDetector-object op voor een bepaalde werkruimte en naam.
get_output	Haal een tuple op van de driftresultaten en metrische gegevens voor een specifieke DataDriftDetector gedurende een bepaald tijdvenster.
list	Haal een lijst op met DataDriftDetector-objecten voor de opgegeven werkruimte en optionele gegevensset. OPMERKING: alleen de parameter `workspace` doorgeeft, worden alle DataDriftDetector-objecten geretourneerd, die zijn gedefinieerd in de werkruimte.
run	Voer een single point-in-time gegevensdriftanalyse uit.
show	Gegevensdrifttrend weergeven in een bepaald tijdsbereik. Deze methode toont standaard de meest recente 10 cycli. Als frequentie bijvoorbeeld dag is, is dit de meest recente 10 dagen. Als frequentie week is, is dit de meest recente 10 weken.
update	Werk het schema bij dat is gekoppeld aan het DataDriftDetector-object. Optionele parameterwaarden kunnen worden ingesteld op `None`, anders worden ze standaard ingesteld op hun bestaande waarden.

backfill

Voer een backfilltaak uit op een opgegeven begin- en einddatum.

Zie https://aka.ms/datadrift voor meer informatie over backfill-uitvoeringen voor gegevensdrift.

OPMERKING: Backfill wordt alleen ondersteund op DataDriftDetector-objecten op basis van gegevenssets.

backfill(start_date, end_date, compute_target=None, create_compute_target=False)

Parameters

Name	Description
start_date Vereist	datetime De begindatum van de backfill-taak.
end_date Vereist	datetime De einddatum van de backfilltaak, inclusief.
compute_target	ComputeTarget of str Optionele Azure Machine Learning ComputeTarget- of ComputeTarget-naam. DataDriftDetector maakt een rekendoel als er geen is opgegeven. Default value: None
create_compute_target	bool Hiermee wordt aangegeven of er automatisch een Azure Machine Learning-rekendoel wordt gemaakt. Default value: False

Retouren

Type	Description
Run	Een DataDriftDetector-uitvoering.

create_from_datasets

Maak een nieuw DataDriftDetector-object op basis van een tabelgegevensset met basislijn en een doel-tijdreeksgegevensset.

static create_from_datasets(workspace, name, baseline_dataset, target_dataset, compute_target=None, frequency=None, feature_list=None, alert_config=None, drift_threshold=None, latency=None)

Parameters

Name	Description
workspace Vereist	Workspace De werkruimte waarin de DataDriftDetector wordt gemaakt.
name Vereist	str Een unieke naam voor het DataDriftDetector-object.
baseline_dataset Vereist	TabularDataset Gegevensset om de doelgegevensset te vergelijken.
target_dataset Vereist	TabularDataset Gegevensset voor het uitvoeren van ad-hoc- of geplande DataDrift-taken. Moet een tijdreeks zijn.
compute_target	ComputeTarget of str Optionele Azure Machine Learning ComputeTarget- of ComputeTarget-naam. DataDriftDetector maakt een rekendoel als deze niet is opgegeven. Default value: None
frequency	str Optionele frequentie die aangeeft hoe vaak de pijplijn wordt uitgevoerd. Ondersteunt 'Dag', 'Week' of 'Maand'. Default value: None
feature_list	list[str] Optionele toegestane functies om de detectie van gegevensrift uit te voeren. DataDriftDetector-taken worden uitgevoerd op alle functies als `feature_list` niet is opgegeven. De lijst met functies kan tekens, getallen, streepjes en witruimten bevatten. De lengte van de lijst moet kleiner zijn dan 200. Default value: None
alert_config	AlertConfiguration Optioneel configuratieobject voor DataDriftDetector-waarschuwingen. Default value: None
drift_threshold	float Optionele drempelwaarde voor het inschakelen van DataDriftDetector-waarschuwingen. De waarde moet tussen 0 en 1 zijn. Er wordt een waarde van 0,2 gebruikt wanneer Geen is opgegeven (de standaardwaarde). Default value: None
latency	int Vertraging in uren voordat gegevens worden weergegeven in de gegevensset. Default value: None

Retouren

Type	Description
DataDriftDetector	Een DataDriftDetector-object.

Uitzonderingen

Type	Description
<xref:KeyError>, <xref:TypeError>, <xref:ValueError>

Opmerkingen

Met DataDriftDetectors op basis van gegevenssets kunt u gegevensdrift berekenen tussen een basislijngegevensset, die een TabularDatasetmoet zijn en een doelgegevensset, die een tijdreeksgegevensset moet zijn. Een tijdreeksgegevensset is gewoon een TabularDataset met de eigenschap fine_grain_timestamp. De DataDriftDetector kan vervolgens adhoc- of geplande taken uitvoeren om te bepalen of de doelgegevensset is afgelopen van de basisgegevensset.


   from azureml.core import Workspace, Dataset
   from azureml.datadrift import DataDriftDetector

   ws = Workspace.from_config()
   baseline = Dataset.get_by_name(ws, 'my_baseline_dataset')
   target = Dataset.get_by_name(ws, 'my_target_dataset')

   detector = DataDriftDetector.create_from_datasets(workspace=ws,
                                                     name="my_unique_detector_name",
                                                     baseline_dataset=baseline,
                                                     target_dataset=target,
                                                     compute_target_name='my_compute_target',
                                                     frequency="Day",
                                                     feature_list=['my_feature_1', 'my_feature_2'],
                                                     alert_config=AlertConfiguration(email_addresses=['user@contoso.com']),
                                                     drift_threshold=0.3,
                                                     latency=1)

delete

Verwijder het schema voor het DataDriftDetector-object.

delete(wait_for_completion=True)

Parameters

Name	Description
wait_for_completion	bool Of u wilt wachten totdat de verwijderbewerking is voltooid. Default value: True

disable_schedule

Schakel het schema voor het DataDriftDetector-object uit.

disable_schedule(wait_for_completion=True)

Parameters

Name	Description
wait_for_completion	bool Of u wilt wachten totdat de bewerking voor uitschakelen is voltooid. Default value: True

enable_schedule

Maak een planning voor het uitvoeren van een dataDriftDetector-taak op basis van een gegevensset.

enable_schedule(create_compute_target=False, wait_for_completion=True)

Parameters

Name	Description
create_compute_target	bool Hiermee wordt aangegeven of er automatisch een Azure Machine Learning-rekendoel wordt gemaakt. Default value: False
wait_for_completion	bool Of u wilt wachten tot de inschakelende bewerking is voltooid. Default value: True

get_by_name

Haal een uniek DataDriftDetector-object op voor een bepaalde werkruimte en naam.

static get_by_name(workspace, name)

Parameters

Name	Description
workspace Vereist	Workspace De werkruimte waarin de DataDriftDetector is gemaakt.
name Vereist	str De naam van het DataDriftDetector-object dat moet worden geretourneerd.

Retouren

Type	Description
DataDriftDetector	Een DataDriftDetector-object.

get_output

Haal een tuple op van de driftresultaten en metrische gegevens voor een specifieke DataDriftDetector gedurende een bepaald tijdvenster.

get_output(start_time=None, end_time=None, run_id=None)

Parameters

Name	Description
start_time	datetime, <xref:optional> De begintijd van het resultatenvenster in UTC. Als Geen (de standaardinstelling) is opgegeven, worden de resultaten van de meest recente 10e cyclus gebruikt als begintijd. Als de frequentie van het schema voor gegevensdrift bijvoorbeeld dag is, is `start_time` 10 dagen. Als frequentie week is, is `start_time` 10 weken. Default value: None
end_time	datetime, <xref:optional> De eindtijd van het resultatenvenster in UTC. Als Geen (de standaardinstelling) is opgegeven, wordt de huidige dag UTC gebruikt als eindtijd. Default value: None
run_id	int, <xref:optional> Een specifieke uitvoerings-id. Default value: None

Retouren

Type	Description
tuple(list, list)	Een tuple van een lijst met driftresultaten en een lijst met metrische gegevens over afzonderlijke gegevenssets en kolommen.

Opmerkingen

Deze methode retourneert een tuple van driftresultaten en metrische gegevens voor een tijdvenster of uitvoerings-id op basis van het type uitvoering: een adhoc uitvoeren, een geplande uitvoering en een backfill-uitvoering.

Er is slechts één manier om adhoc- uitvoeringsresultaten op te halen: run_id moet een geldige GUID zijn.
Er zijn twee verschillende manieren om geplande uitvoeringen en backfill-runresultaten op te halen: wijs een geldige GUID toe aan run_id of wijs een specifieke start_time en/of end_time (inclusief) toe terwijl run_id als Geen behouden blijft.
Als run_id, start_timeen end_time niet in dezelfde methode-aanroep staan, wordt er een uitzondering voor parametervalidatie gegenereerd.

OPMERKING: de parameters start_time en end_time of de parameter run_id opgeven, maar niet beide.

Het is mogelijk dat er meerdere resultaten zijn voor dezelfde doeldatum (doeldatum betekent de begindatum van de doelgegevensset voor drift op basis van gegevenssets). Daarom is het nodig om dubbele resultaten te identificeren en af te handelen. Voor drift op basis van gegevenssets, als de resultaten voor dezelfde doeldatum zijn, worden ze gedupliceerd. Met de methode get_output worden dubbele resultaten met één regel ontdubbeld: haal altijd de meest recente gegenereerde resultaten op.

De methode get_output kan worden gebruikt voor het ophalen van alle uitvoer of gedeeltelijke uitvoer van geplande uitvoeringen in een specifiek tijdsbereik tussen start_time en end_time (inclusief grens). U kunt ook de resultaten van een afzonderlijke adhoc- beperken door de run_idop te geven.

Gebruik de volgende richtlijnen om resultaten te interpreteren die zijn geretourneerd door de get_output methode:

Het principe voor filteren is 'overlappend': zolang er een overlapping is tussen de werkelijke resultaattijd (op basis van gegevensset: doelgegevensset [begindatum, einddatum]) en de opgegeven [start_time, end_time], wordt het resultaat opgehaald.
Als er meerdere uitvoerwaarden zijn voor één doeldatum omdat de driftberekening meerdere keren op die dag is uitgevoerd, wordt standaard alleen de meest recente uitvoer gekozen.
Aangezien er meerdere typen gegevensdriftexemplaren zijn, kan de inhoud van het resultaat verschillende zijn.

Voor resultaten op basis van gegevenssets ziet de uitvoer er als volgt uit:


   results : [{'drift_type': 'DatasetBased',
               'result':[{'has_drift': True, 'drift_threshold': 0.3,
                          'start_date': '2019-04-03', 'end_date': '2019-04-04',
                          'base_dataset_id': '4ac144ef-c86d-4c81-b7e5-ea6bbcd2dc7d',
                          'target_dataset_id': '13445141-aaaa-bbbb-cccc-ea23542bcaf9'}]}]
   metrics : [{'drift_type': 'DatasetBased',
               'metrics': [{'schema_version': '0.1',
                            'start_date': '2019-04-03', 'end_date': '2019-04-04',
                            'baseline_dataset_id': '4ac144ef-c86d-4c81-b7e5-ea6bbcd2dc7d',
                            'target_dataset_id': '13445141-aaaa-bbbb-cccc-ea23542bcaf9'
                            'dataset_metrics': [{'name': 'datadrift_coefficient', 'value': 0.53459}],
                            'column_metrics': [{'feature1': [{'name': 'datadrift_contribution',
                                                              'value': 288.0},
                                                             {'name': 'wasserstein_distance',
                                                              'value': 4.858040000000001},
                                                             {'name': 'energy_distance',
                                                              'value': 2.7204799576545313}]}]}]}]

list

Haal een lijst op met DataDriftDetector-objecten voor de opgegeven werkruimte en optionele gegevensset.

OPMERKING: alleen de parameter workspace doorgeeft, worden alle DataDriftDetector-objecten geretourneerd, die zijn gedefinieerd in de werkruimte.

static list(workspace, baseline_dataset=None, target_dataset=None)

Parameters

Name	Description
workspace Vereist	Workspace De werkruimte waarin de DataDriftDetector-objecten zijn gemaakt.
baseline_dataset	TabularDataset Basislijngegevensset voor het filteren van de retourlijst. Default value: None
target_dataset	TabularDataset Doelgegevensset om de retourlijst te filteren. Default value: None

Retouren

Type	Description
list[DataDriftDetector]	Een lijst met DataDriftDetector-objecten.

run

Voer een single point-in-time gegevensdriftanalyse uit.

run(target_date, compute_target=None, create_compute_target=False, feature_list=None, drift_threshold=None)

Parameters

Name	Description
target_date Vereist	datetime De doeldatum van scoregegevens in UTC.
compute_target	ComputeTarget of str Optionele Azure Machine Learning ComputeTarget- of ComputeTarget-naam. Als dit niet is opgegeven, wordt er automatisch een rekendoel gemaakt. Default value: None
create_compute_target	bool Hiermee wordt aangegeven of er automatisch een Azure Machine Learning-rekendoel wordt gemaakt. Default value: False
feature_list	list[str] Optionele toegestane functies om de detectie van gegevensrift uit te voeren. Default value: None
drift_threshold	float Optionele drempelwaarde voor het inschakelen van DataDriftDetector-waarschuwingen. Default value: None

Retouren

Type	Description
Run	Een DataDriftDetector-uitvoering.

show

Gegevensdrifttrend weergeven in een bepaald tijdsbereik.

Deze methode toont standaard de meest recente 10 cycli. Als frequentie bijvoorbeeld dag is, is dit de meest recente 10 dagen. Als frequentie week is, is dit de meest recente 10 weken.

show(start_time=None, end_time=None)

Parameters

Name	Description
start_time	datetime, <xref:optional> Het begin van het tijdvenster van de presentatie in UTC. De standaardwaarde None betekent dat de resultaten van de meest recente 10e cyclus worden opgehaald. Default value: None
end_time	datetime, <xref:optional> Het einde van het tijdvenster voor presentatiegegevens in UTC. De standaardwaarde Geen betekent de huidige dag. Default value: None

Retouren

Type	Description
dict()	Een woordenlijst van alle cijfers. De sleutel is service_name.

update

Werk het schema bij dat is gekoppeld aan het DataDriftDetector-object.

Optionele parameterwaarden kunnen worden ingesteld op None, anders worden ze standaard ingesteld op hun bestaande waarden.

update(compute_target=Ellipsis, feature_list=Ellipsis, schedule_start=Ellipsis, alert_config=Ellipsis, drift_threshold=Ellipsis, wait_for_completion=True)

Parameters

Name	Description
compute_target	ComputeTarget of str Optionele Azure Machine Learning ComputeTarget- of ComputeTarget-naam. DataDriftDetector maakt een rekendoel als deze parameter niet is opgegeven. Default value: Ellipsis
feature_list	list[str] Toegestane functies voor het uitvoeren van de detectie van gegevensrift op de whitelist. Default value: Ellipsis
schedule_start	datetime De begintijd van het schema voor gegevensdrift in UTC. Default value: Ellipsis
alert_config	AlertConfiguration Optioneel configuratieobject voor DataDriftDetector-waarschuwingen. Default value: Ellipsis
drift_threshold	float De drempelwaarde voor het inschakelen van DataDriftDetector-waarschuwingen. Default value: Ellipsis
wait_for_completion	bool Of u wilt wachten totdat de bewerkingen voor inschakelen/uitschakelen/verwijderen zijn voltooid. Default value: True

Retouren

Type	Description
DataDriftDetector	zelf

Kenmerken

alert_config

Haal de waarschuwingsconfiguratie voor het DataDriftDetector-object op.

Retouren

Type	Description
AlertConfiguration	Een AlertConfiguration-object.

baseline_dataset

Haal de basislijngegevensset op die is gekoppeld aan het DataDriftDetector-object.

Retouren

Type	Description
TabularDataset	Gegevenssettype van de basislijngegevensset.

compute_target

Haal het rekendoel op dat is gekoppeld aan het DataDriftDetector-object.

Retouren

Type	Description
ComputeTarget	Het rekendoel.

drift_threshold

Haal de driftdrempel voor het DataDriftDetector-object op.

Retouren

Type	Description
float	De driftdrempel.

drift_type

Het type DataDriftDetector ophalen, 'DatasetBased' is de enige waarde die voorlopig wordt ondersteund.

Retouren

Type	Description
str	Het type DataDriftDetector-object.

enabled

Haal de Booleaanse waarde op die aangeeft of het DataDriftDetector-object is ingeschakeld.

Retouren

Type	Description
bool	Een Booleaanse waarde; Waar voor ingeschakeld.

feature_list

Haal de lijst met toegestane functies voor het DataDriftDetector-object op.

Retouren

Type	Description
list[str]	Een lijst met functienamen.

frequency

Haal de frequentie van de DataDriftDetector-planning op.

Retouren

Type	Description
str	Een tekenreeks van 'Dag', 'Week' of 'Maand'

interval

Haal het interval van het DataDriftDetector-schema op.

Retouren

Type	Description
int	Een geheel getal van de tijdseenheid.

latency

De latentie van de DataDriftDetector-planningstaken (in uren) ophalen.

Retouren

Type	Description
int	Het aantal uren dat de latentie vertegenwoordigt.

name

Haal de naam op van het DataDriftDetector-object.

Retouren

Type	Description
str	De naam van DataDriftDetector.

schedule_start

Haal de begintijd van de planning op.

Retouren

Type	Description
datetime	Een datum/tijd-object van de begintijd van de planning in UTC.

state

Geeft de status van het DataDriftDetector-schema aan.

Retouren

Type	Description
str	Een van 'Uitgeschakeld', 'Ingeschakeld', 'Verwijderd', 'Uitschakelen', 'Inschakelen', 'Verwijderen', 'Mislukt', 'DisableFailed', 'EnableFailed', 'DeleteFailed'.

target_dataset

Haal de doelgegevensset op die is gekoppeld aan het DataDriftDetector-object.

Retouren

Type	Description
TabularDataset	Het gegevenssettype van de basislijngegevensset.

workspace

Haal de werkruimte van het DataDriftDetector-object op.

Retouren

Type	Description
Workspace	De werkruimte waarin het DataDriftDetector-object is gemaakt.

Delen via

DataDriftDetector Klas

Constructor

Parameters

Opmerkingen

Methoden

backfill

Parameters

Retouren

create_from_datasets

Parameters

Retouren

Uitzonderingen

Opmerkingen

delete

Parameters

disable_schedule

Parameters

enable_schedule

Parameters

get_by_name

Parameters

Retouren

get_output

Parameters

Retouren

Opmerkingen

list

Parameters

Retouren

run

Parameters

Retouren

show

Parameters

Retouren

update

Parameters

Retouren

Kenmerken

alert_config

Retouren

baseline_dataset

Retouren

compute_target

Retouren

drift_threshold

Retouren

drift_type

Retouren

enabled

Retouren

feature_list

Retouren

frequency

Retouren

interval

Retouren

latency

Retouren

name

Retouren

schedule_start

Retouren

state

Retouren

target_dataset

Retouren

workspace

Retouren

Feedback

Aanvullende resources