Delen via


ai_forecast-functie

Van toepassing op:vinkje als ja aan Databricks SQL

Belangrijk

Deze functionaliteit bevindt zich in openbare preview en is HIPAA-conform. Neem contact op met uw Databricks-accountteam om deel te nemen aan de preview.

ai_forecast() is een tabelwaardefunctie die is ontworpen om tijdreeksgegevens in de toekomst te extrapoleren. Zie Argumenten voor beschikbare argumenten voor het configureren van deze functie.

Vereiste

Pro of Serverless SQL Warehouse

Syntaxis


ai_forecast(
  observed TABLE,
  horizon DATE | TIMESTAMP | STRING,
  time_col STRING,
  value_col STRING | ARRAY<STRING>,
  group_col STRING | ARRAY<STRING> | NULL DEFAULT NULL,
  prediction_interval_width DOUBLE DEFAULT 0.95,
  frequency STRING DEFAULT 'auto',
  seed INTEGER | NULL DEFAULT NULL,
  parameters STRING DEFAULT '{}'
)

Argumenten

ai_forecast()kan een willekeurig aantal elke groep voorspellen. De prognosefrequentie is hetzelfde voor alle metrische gegevens in een groep, maar kan verschillen tussen verschillende groepen (zie frequency).

De volgende argumenten zijn beschikbaar voor deze functie:

  • observed is de invoer met tabelwaarde die wordt gebruikt als trainingsgegevens voor de prognoseprocedure.
    • Deze invoerrelatie moet één kolom 'tijd' en een of meer 'waardekolommen' bevatten. Kolommen Groeperen en Parameters zijn optioneel. Eventuele extra kolommen in de invoerrelatie worden genegeerd.
  • horizon is een tijdstempel-castable hoeveelheid die de juiste exclusieve eindtijd van de prognoseresultaten vertegenwoordigt. Binnen een groep (zie group_col) beslaan de prognoseresultaten de tijd tussen de laatste observatie en de horizon. Als horizon kleiner is dan de laatste observatietijd, worden er geen resultaten gegenereerd.
  • time_col is een tekenreeks die verwijst naar de 'tijdkolom' in observed. De kolom waarnaar time_col verwijst, moet een DATE of een TIMESTAMPzijn.
  • value_col is een tekenreeks of een matrix met tekenreeksen die verwijzen naar waardekolommen in observed. De kolommen waarnaar door dit argument wordt verwezen, moeten omgezet kunnen worden in DOUBLE.
  • group_col (optioneel) is een tekenreeks of een matrix met tekenreeksen die de groepskolommen in observedvertegenwoordigen. Indien opgegeven, worden groepskolommen gebruikt als partitioneringscriteria en worden prognoses voor elke groep onafhankelijk gegenereerd. Als dit niet is opgegeven, worden de volledige invoergegevens behandeld als één groep.
  • prediction_interval_width (optioneel) is een waarde tussen 0 en 1 die de breedte van het voorspellingsinterval vertegenwoordigt. Toekomstige waarden hebben een prediction_interval_width % kans om tussen {v}_upper en {v}_lowerte vallen.
  • frequency (optioneel) is een tijdseenheid of een pandas-offset aliasstring die de tijdsgranulariteit van de prognoseresultaten aangeeft. Indien niet opgegeven, wordt de prognosegranulariteit automatisch voor elke groep afzonderlijk afgeleid. Als een frequentiewaarde is opgegeven, wordt deze evenzeer toegepast op alle groepen.
    • De uitgestelde frequentie binnen een groep is de modus van de meest recente waarnemingen. Dit is een handige bewerking die niet door de gebruiker kan worden uitgevoerd.
    • Een tijdreeks met 99 'maandagen' en 1 'dinsdag' resulteert bijvoorbeeld in de 'week' als de uitgestelde frequentie.
  • seed (optioneel) is een getal dat wordt gebruikt voor het initialiseren van pseudorandomnummergeneratoren die worden gebruikt in de voorspellingsprocedure.
  • parameters (optioneel) is een met tekenreeks gecodeerde JSON of de naam van een kolom-id die de parameterisatie van de prognoseprocedure vertegenwoordigt. Elke combinatie van parameters kan in elke volgorde worden opgegeven, bijvoorbeeld {“weekly_order”: 10, “global_cap”: 1000}. Eventuele niet-opgegeven parameters worden automatisch bepaald op basis van de kenmerken van de trainingsgegevens. De volgende parameters worden ondersteund:
    • global_cap en global_floor kunnen samen of onafhankelijk worden gebruikt om het mogelijke domein van de metrische waarden te definiëren. {“global_floor”: 0}kan bijvoorbeeld worden gebruikt om een metrische waarde te beperken, zoals kosten, om altijd positief te zijn. Deze zijn globaal van toepassing op de trainingsgegevens en de voorspelde gegevens en kunnen niet worden gebruikt om alleen strikte beperkingen voor de voorspelde waarden te bieden.
    • daily_order en weekly_order stellen de fouriervolgorde van de dagelijkse en wekelijkse seizoensgebonden onderdelen in.

Retouren

Een nieuwe set rijen met de voorspelde gegevens. Het uitvoerschema bevat de tijd- en groepskolommen met hun typen ongewijzigd. Als de invoertijdkolom bijvoorbeeld type DATEheeft, wordt het kolomtype uitvoertijd ook DATE. Voor elke waardekolom zijn er drie uitvoerkolommen met het patroon {v}_forecast, {v}_upperen {v}_lower. Ongeacht de invoerwaardetypen zijn de kolommen met voorspelde waarden altijd type DOUBLE. De uitvoertabel bevat alleen toekomstige waarden, die het tijdsbereik tussen het einde van de waargenomen gegevens tot de horizon beslaat.

Zie enkele voorbeelden van de schemadeductie die door AI_FORECAST hieronder wordt uitgevoerd:

Invoertabel Argumenten Uitvoertabel
ts: TIMESTAMP
val: DOUBLE
time_col => 'ts'
value_col => 'val'
ts: TIMESTAMP
val_forecast: DOUBLE
val_upper: DOUBLE
val_lower: DOUBLE
ds: DATE
val BIGINT
time_col => 'ds'
value_col => 'val'
ds: DATE
val_forecast: DOUBLE
val_upper: DOUBLE
val_lower: DOUBLE
ts: TIMESTAMP
dim1: STRING
dollars: DECIMAL(10, 2)
time_col => 'ts'
value_col => 'dollars'
group_col => 'dim1'
ts: TIMESTAMP
dim1: STRING
dollars_forecast: DOUBLE
dollars_upper: DOUBLE
dollars_lower: DOUBLE
ts: TIMESTAMP
dim1: STRING
dim2: BIGINT
dollars: DECIMAL(10, 2)
users: BIGINT
time_col => 'ts'
value_col => ARRAY('dollars', 'users')
group_col => ARRAY('dim1', 'dim2')
ts: TIMESTAMP
dim1: STRING
dim2: BIGINT
dollars_forecast: DOUBLE
dollars_upper: DOUBLE
dollars_lower: DOUBLE
users_forecast: DOUBLE
users_upper: DOUBLE
users_lower: DOUBLE

Voorbeelden

De volgende voorbeeldprognoses tot een opgegeven datum:


WITH
aggregated AS (
  SELECT
    DATE(tpep_pickup_datetime) AS ds,
    SUM(fare_amount) AS revenue
  FROM
    samples.nyctaxi.trips
  GROUP BY
    1
)
SELECT * FROM AI_FORECAST(
  TABLE(aggregated),
  horizon => '2016-03-31',
  time_col => 'ds',
  value_col => 'revenue'
)

Hier volgt een complexer voorbeeld:


WITH
aggregated AS (
  SELECT
    DATE(tpep_pickup_datetime) AS ds,
    dropoff_zip,
    SUM(fare_amount) AS revenue,
    COUNT(*) AS n_trips
  FROM
    samples.nyctaxi.trips
  GROUP BY
    1, 2
),
spine AS (
  SELECT all_dates.ds, all_zipcodes.dropoff_zip
  FROM (SELECT DISTINCT ds FROM aggregated) all_dates
  CROSS JOIN (SELECT DISTINCT dropoff_zip FROM aggregated) all_zipcodes
)
SELECT * FROM AI_FORECAST(
  TABLE(
    SELECT
      spine.*,
      COALESCE(aggregated.revenue, 0) AS revenue,
      COALESCE(aggregated.n_trips, 0) AS n_trips
    FROM spine LEFT JOIN aggregated USING (ds, dropoff_zip)
  ),
  horizon => '2016-03-31',
  time_col => 'ds',
  value_col => ARRAY('revenue', 'n_trips'),
  group_col => 'dropoff_zip',
  prediction_interval_width => 0.9,
  parameters => '{"global_floor": 0}'
)

Notitie

Tabellen laten consequent geen 0'en of lege vermeldingen (NULL) zien. Als de waarden van de ontbrekende vermeldingen kunnen worden afgeleid, bijvoorbeeld 0, kunt u deze waarden samenvoegen voordat u de functie ai_forecast aanroept. Als de waarden echt ontbreken of onbekend zijn, kunt u de waarden laten staan als NULL of verwijderen.

Voor zeer schaarse gegevens is het raadzaam om ontbrekende waarden samen te voegen of expliciet een frequentiewaarde op te geven om onverwachte uitvoer van de 'automatische' frequentie-inferentie te voorkomen. Als voorbeeld wordt een 'automatische' frequentiedeductie voor twee vermeldingen van 14 dagen uit elkaar afgeleid door een frequentie van '14D', zelfs als 'echte' frequentie wekelijks met 1 ontbrekende waarde kan zijn. Als u de ontbrekende vermeldingen samenwerkt, wordt deze dubbelzinnigheid verwijderd.

Hieronder ziet u een voorbeeld waarin verschillende prognoseparameters worden toegepast op verschillende groepen in de invoertabel. In het voorbeeld wordt het argument parameters gebruikt als kolom-id. Hierdoor kunnen gebruikers eerder bepaalde parameter-JSON's opslaan in een tabel en deze opnieuw gebruiken op nieuwe gegevens.

WITH past AS (
  SELECT
    CASE
      WHEN fare_amount < 30 THEN 'Under $30'
      ELSE '$30 or more'
    END AS revenue_bucket,
    CASE
      WHEN fare_amount < 30 THEN '{"daily_order": 0}'
      ELSE '{"daily_order": "auto"}'
    END AS parameters,
    DATE(tpep_pickup_datetime) AS ds,
    SUM(fare_amount) AS revenue
  FROM samples.nyctaxi.trips
  GROUP BY ALL
)
SELECT * FROM AI_FORECAST(
  TABLE(past),
  horizon => (SELECT MAX(ds) + INTERVAL 30 DAYS FROM past),
  time_col => 'ds',
  value_col => 'revenue',
  group_col => ARRAY('revenue_bucket'),
  parameters => 'parameters'
)

Beperkingen

De volgende beperkingen zijn van toepassing tijdens de preview:

  • De standaardprognoseprocedure is een profeetachtig lineair en seizoensgebonden model. Dit is de enige ondersteunde prognoseprocedure die beschikbaar is.
  • Foutberichten worden bezorgd via de Python UDTF-engine en bevatten python-traceringsgegevens. Het einde van de tracering bevat het werkelijke foutbericht.