NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) reseposter
FHV-färdregistret (For-Hire Vehicle) innehåller fält för den utskickade bilens registreringsnummer, datum och tid för upphämtningen, samt taxizonens plats-ID (formfil nedan). Dessa poster genereras från FHV-färdregistret som skickas från basenheterna.
Kommentar
Microsoft tillhandahåller Azure Open Datasets i befintligt fall. Microsoft ger inga garantier, uttryckliga eller underförstådda garantier eller villkor för din användning av datauppsättningarna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkt, följdriktig, särskild, indirekt, tillfällig eller straffbar, till följd av din användning av datauppsättningarna.
Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.
Volym och kvarhållning
Datamängden lagras i Parquet-format. Det finns cirka 500 M rader (5 GB) från och med 2018.
Datamängden innehåller historiska poster som ackumulerats från 2009 till 2018. Du kan använda parameterinställningar i vår SDK till att hämta data inom ett specifikt tidsintervall.
Lagringsplats
Datamängden lagras i Azure-regionen Östra USA. Vi rekommenderar att beräkningsresurser tilldelas i Östra USA av tillhörighetsskäl.
Ytterligare information
NYC Taxi and Limousine Commission (TLC):
Datan samlades in och överlämnades till NYC Taxi and Limousine Commission (TLC) av teknikleverantörer som är godkända av Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Färddatan skapades inte av TLC och TLC garanterar inte korrektheten i dessa data.
Visa den ursprungliga datamängdens plats och de ursprungliga användningsvillkoren.
Kolumner
Name | Datatyp | Unik | Värden (exempel) | beskrivning |
---|---|---|---|---|
dispatchBaseNum | sträng | 1,144 | B02510 B02764 | TLC-basens registreringsnummer för den bas som skickade resan |
doLocationId | sträng | 267 | 265 132 | Den TLC-taxizon där resan avslutades. |
dropOffDateTime | timestamp | 57,110,352 | 2017-07-31 23:59:00 2017-10-15 00:44:34 | Datum och tid när resan avslutades. |
pickupDateTime | timestamp | 111,270,396 | 2016-08-16 00:00:00 2016-08-17 00:00:00 | Datum och tid för när resan inleddes. |
puLocationId | sträng | 266 | 79 161 | Den TLC-taxizon där resan påbörjades. |
puMonth | heltal | 12 | 1 12 | |
puYear | heltal | 5 | 2018 2017 | |
srFlag | sträng | 44 | 1 2 | Anger om resan var en del av en delad körkedja som erbjuds av ett FHV-företag med hög volym (till exempel Uber Pool, Lyft Line). Vid samåkning är värdet 1. För resor som inte är samåkning är fältet null. Obs! För de flesta FHV-företag med hög volym flaggas endast delade turer som begärdes och matchades med en annan begäran om delad resa under resans gång. Lyft (baslicensnummer B02510 + B02844) flaggar dock även resor där samåkning begärdes, men där man inte kunde matcha begäran med en annan passagerare – därför kan reseposter med SR_Flag=1 från de två baserna ANTINGEN avse en första resa i en samåkningskedja ELLER en resa där samåkning begärdes men inte matchades. Användarna kan därför förvänta sig att ett stort antal samåkningar visas från Lyft. |
Förhandsversion
dispatchBaseNum | pickupDateTime | dropOffDateTime | puLocationId | doLocationId | srFlag | puYear | puMonth |
---|---|---|---|---|---|---|---|
B03157 | 2019-06-30 23:59:57 | 2019-07-1 12:07:21 | 264 | null | null | 2019 | 6 |
B01667 | 2019-06-30 23:59:56 | 2019-07-1 12:28:06 | 264 | null | null | 2019 | 6 |
B02849 | 2019-06-30 23:59:55 | 2019-07-1 12:14:10 | 264 | null | null | 2019 | 6 |
B02249 | 2019-06-30 23:59:53 | 2019-07-1 12:15:53 | 264 | null | null | 2019 | 6 |
B00887 | 2019-06-30 23:59:48 | 2019-07-1 12:29:29 | 264 | null | null | 2019 | 6 |
B01626 | 2019-06-30 23:59:45 | 2019-07-1 12:18:20 | 264 | null | null | 2019 | 6 |
B01259 | 2019-06-30 23:59:44 | 2019-07-1 12:03:15 | 264 | null | null | 2019 | 6 |
B01145 | 2019-06-30 23:59:43 | 2019-07-1 12:11:15 | 264 | null | null | 2019 | 6 |
B00887 | 2019-06-30 23:59:42 | 2019-07-1 12:34:21 | 264 | null | null | 2019 | 6 |
B00821 | 2019-06-30 23:59:40 | 2019-07-1 12:02:57 | 264 | null | null | 2019 | 6 |
Dataåtkomst
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Nästa steg
Visa resten av datauppsättningarna i katalogen Öppna datamängder.