NYC Taxi & Limousine Komise - Pronajmutí vozidla (FHV) záznamy jízdy
Záznamy o jízdách pronajatými vozidly obsahují pole zachycující číslo licence dispečinku, datum a čas vyzvednutí a ID oblasti taxi zóny (soubor ve formátu shapefile najdete níže). Tyto záznamy se generují ze záznamů o jízdách pronajatými vozidly odeslaných základnami.
Poznámka:
Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.
Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.
Objem a uchovávání
Tato datová sada se uchovává ve formátu Parquet. K roku 2018 je přibližně 500M řádků (5 GB).
Tato datová sada obsahuje historické záznamy shromážděné mezi lety 2009 a 2018. Pomocí nastavení parametrů v naší sadě SDK můžete načíst data v určitém časovém rozsahu.
Dočasné úložiště
Tato datová sada se uchovává v oblasti Azure Východní USA. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.
Další informace
Newyorská komise pro taxi a limuzíny (TLC):
Data shromáždili a newyorské komisi pro taxi a limuzíny (TLC) je poskytli poskytovatelé technologií autorizovaní v rámci programů TPEP a LPEP (Taxicab Passenger Enhancement Program a Livery Passenger Enhancement Program). Data o jízdách nevytvořila TLC a TLC nečinní žádná prohlášení ohledně přesnosti těchto dat.
Zobrazte původní umístění datové sady a původní podmínky použití.
Sloupce
Name | Datový typ | Jedinečný | Values (sample) | Popis |
---|---|---|---|---|
dispatchBaseNum | string | 1,144 | B02510 B02764 | Číslo licence základny TLC, která jízdu vypravila |
doLocationId | string | 267 | 265 132 | Taxi zóna TLC, ve které se jízda ukončila |
dropOffDateTime | časové razítko | 57,110,352 | 2017-07-31 23:59:00 2017-10-15 00:44:34 | Datum a čas ukončení jízdy |
pickupDateTime | časové razítko | 111,270,396 | 2016-08-16 00:00:00 2016-08-17 00:00:00 | Datum a čas zahájení jízdy |
puLocationId | string | 266 | 79 161 | Taxi zóna TLC, ve které se jízda zahájila |
puMonth | int | 12 | 1 12 | |
puYear | int | 5 | 2018 2017 | |
srFlag | string | 44 | 1 2 | Označuje, jestli byla cesta součástí sdíleného řetězu jízdy nabízeného společností High Volume FHV (například Uber Pool, Lyft Line). V případě sdílených jízd je tato hodnota 1. V případě nesdílených jízd má toto pole hodnotu null. POZNÁMKA: U většiny společností FHV s velkým objemem jsou v průběhu cesty označeny pouze sdílené jízdy, které byly požadovány, a spárovány s jinou žádostí o sdílenou jízdu v průběhu cesty. Společnost Lyft (čísla licencí základen B02510 a B02844) však takto označuje i jízdy, u kterých se požádalo o sdílenou jízdu, ale pro které se nepodařilo najít dalšího spolucestujícího. Záznamy o jízdách z těchto dvou základen s příznakem SR_Flag=1 proto můžou značit BUĎ první jízdu v řetězci sdílené jízdy, NEBO jízdu, u které se požádalo o sdílenou jízdu, ale pro kterou se nepodařilo najít odpovídajícího spolucestujícího. Uživatelé by od společnosti Lyft měli očekávat nadměrný počet úspěšně dokončených sdílených jízd. |
Preview
dispatchBaseNum | pickupDateTime | dropOffDateTime | puLocationId | doLocationId | srFlag | puYear | puMonth |
---|---|---|---|---|---|---|---|
B03157 | 30.6.2019 11:59:57 | 1.7.2019 12:07:21 | 264 | null | null | 2019 | 6 |
B01667 | 30.6.2019 11:59:56 | 1. 7. 2019 12:28:06 | 264 | null | null | 2019 | 6 |
B02849 | 30.6.2019 11:59:55 | 1.7.2019 12:14:10 | 264 | null | null | 2019 | 6 |
B02249 | 30.6.2019 11:59:53 | 1. 7. 2019 12:15:53 | 264 | null | null | 2019 | 6 |
B00887 | 30.6.2019 11:59:48 | 1.7.2019 12:29:29 | 264 | null | null | 2019 | 6 |
B01626 | 30.6.2019 11:59:45 | 1.7.2019 12:18:20 | 264 | null | null | 2019 | 6 |
B01259 | 30.6.2019 11:59:44 | 1.7.2019 12:03:15 | 264 | null | null | 2019 | 6 |
B01145 | 30.6.2019 11:59:43 | 1.7.2019 12:11:15 | 264 | null | null | 2019 | 6 |
B00887 | 30.6.2019 11:59:42 | 1.7.2019 12:34:21 | 264 | null | null | 2019 | 6 |
B00821 | 30.6.2019 11:59:40 | 1.7.2019 12:02:57 | 264 | null | null | 2019 | 6 |
Přístup k datům
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Další kroky
Prohlédněte si zbývající datové sady v katalogu Open Datasets.