Record relativi alle corse di NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV)
I record delle corse FHV (For-Hire Vehicle) includono i campi che indicano il numero di licenza della base che gestisce la chiamata, la data di prelevamento, l'ora e l'ID posizione dell'area taxi (file delle aree disponibili sotto). Questi record sono generati dagli invii dei record delle corse FHV effettuati dalle basi.
Nota
Microsoft fornisce i set di dati aperti di Azure così come sono e non fornisce né garanzie, esplicite o implicite, né specifica alcuna condizione in relazione all'uso dei set di dati. Nella misura consentita dalla legge locale, Microsoft declina tutte le responsabilità per eventuali danni o perdite, incluse dirette, consequenziali, speciali, indirette, accidentali o irreversibili, risultanti dall'uso dei set di dati.
Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.
Volume e conservazione
Il set di dati viene archiviato nel formato Parquet. Ci sono circa 500M righe (5 GB) a partire dal 2018.
Questo set di dati include record cronologici accumulati dal 2009 al 2018. Puoi usare le impostazioni dei parametri nell'SDK per recuperare i dati entro un intervallo di tempo specifico.
Posizione di archiviazione
Questo set di dati è archiviato nell'area Stati Uniti orientali di Azure. L'allocazione delle risorse di calcolo nell'area Stati Uniti orientali è consigliata per motivi di affinità.
Informazioni aggiuntive
NYC Taxi and Limousine Commission (TLC):
I dati sono stati raccolti e forniti a NYC Taxi and Limousine Commission (TLC) da fornitori di soluzioni tecnologiche autorizzati in conformità con i programmi Taxicab e Livery Passenger Enhancement Program (TPEP/LPEP). I dati relativi alle corse non sono stati creati da TLC e TLC non rilascia alcuna dichiarazione relativamente alla correttezza di tali dati.
Vedere il percorso del set di dati originale e le condizioni per l'utilizzo originali.
Colonne
Nome | Tipo di dati | Unica | Valori (esempio) | Descrizione |
---|---|---|---|---|
dispatchBaseNum | string | 1,144 | B02510 B02764 | Numero di licenza della base TLC che ha gestito la corsa |
doLocationId | string | 267 | 265 132 | Valore di TLC Taxi Zone in cui ha avuto termine la corsa. |
dropOffDateTime | timestamp | 57,110,352 | 31-07-2017 23:59:00 15-10-2017 00:44:34 | Data e ora in cui i passeggeri sono scesi dall'auto ed è terminata la corsa. |
pickupDateTime | timestamp | 111,270,396 | 16-08-2016 00:00:00 17-08-2016 00:00:00 | Data e ora in cui i passeggeri sono saliti in auto ed è stata iniziata la corsa. |
puLocationId | string | 266 | 79 161 | Area taxi TLC in cui ha avuto inizio la corsa. |
puMonth | int | 12 | 1 12 | |
puYear | int | 5 | 2018 2017 | |
srFlag | string | 44 | 1 2 | Indica se il viaggio faceva parte di una catena di corse condivise offerte da un'azienda di FHV ad alto volume (ad esempio, Uber Pool, Lyft Line). Per le corse condivise, il valore è 1. Per le corse non condivise, questo campo è Null. NOTA: per la maggior parte delle aziende FHV ad alto volume, vengono segnalate solo le corse condivise che sono state richieste E abbinate a un'altra richiesta di corsa condivisa nel corso del viaggio. Tuttavia, Lyft (numeri di licenza delle basi B02510 + B02844) contrassegna anche le corse per cui è stata richiesta una corsa condivisa ma per cui non è stata trovata una corrispondenza con un altro passeggero, di conseguenza i record delle corse con SR_Flag=1 da tali due basi possono indicare una prima corsa in una catena di corse condivise OPPURE una corsa per cui è stata richiesta una corsa condivisa per cui non è stata trovata una corrispondenza. Gli utenti devono prevedere un numero eccessivo di corse condivise completate per Lyft. |
Anteprima
dispatchBaseNum | pickupDateTime | dropOffDateTime | puLocationId | doLocationId | srFlag | puYear | puMonth |
---|---|---|---|---|---|---|---|
B03157 | 30/06/2019 23:59:57 | 01/07/2019 12:07:21 | 264 | Null | Null | 2019 | 6 |
B01667 | 30/06/2019 23:59:56 | 01/07/2019 12:28:06 | 264 | Null | Null | 2019 | 6 |
B02849 | 30/06/2019 23:59:55 | 01/07/2019 12:14:10 | 264 | Null | Null | 2019 | 6 |
B02249 | 30/06/2019 23:59:53 | 01/07/2019 12:15:53 | 264 | Null | Null | 2019 | 6 |
B00887 | 30/06/2019 23:59:48 | 01/07/2019 12:29:29 | 264 | Null | Null | 2019 | 6 |
B01626 | 30/06/2019 23:59:45 | 01/07/2019 12:18:20 | 264 | Null | Null | 2019 | 6 |
B01259 | 30/06/2019 23:59:44 | 01/07/2019 12:03:15 | 264 | Null | Null | 2019 | 6 |
B01145 | 30/06/2019 23:59:43 | 01/07/2019 12:11:15 | 264 | Null | Null | 2019 | 6 |
B00887 | 30/06/2019 23:59:42 | 01/07/2019 12:34:21 | 264 | Null | Null | 2019 | 6 |
B00821 | 30/06/2019 23:59:40 | 01/07/2019 12:02:57 | 264 | Null | Null | 2019 | 6 |
Accesso ai dati
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Passaggi successivi
Visualizzare il resto dei set di dati nel catalogo dei set di dati aperti.