NYC Taxi & Limousine Komise - žlutý taxikář záznamy
Záznamy o cestách žlutým taxíkem obsahují pole zachytávající data a časy vyzvednutí a vysazení, místa vyzvednutí a vysazení, ujeté vzdálenosti, jízdné rozdělené na položky, typy sazeb, typy plateb a počty cestujících nahlášené řidičem.
Poznámka:
Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.
Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.
Objem a uchovávání
Tato datová sada se uchovává ve formátu Parquet. K roku 2018 je celkem přibližně 1,5B řádků (50 GB).
Tato datová sada obsahuje historické záznamy shromážděné mezi lety 2009 a 2018. Pomocí nastavení parametrů v naší sadě SDK můžete načíst data v určitém časovém rozsahu.
Dočasné úložiště
Tato datová sada se uchovává v oblasti Azure Východní USA. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.
Další informace
Newyorská komise pro taxi a limuzíny (TLC):
Data shromáždili a newyorské komisi pro taxi a limuzíny (TLC) je poskytli poskytovatelé technologií autorizovaní v rámci programů TPEP a LPEP (Taxicab Passenger Enhancement Program a Livery Passenger Enhancement Program). Data o jízdách nevytvořila TLC a TLC nečinní žádná prohlášení ohledně přesnosti těchto dat.
Zobrazte původní umístění datové sady a původní podmínky použití.
Sloupce
Name | Datový typ | Jedinečný | Values (sample) | Popis |
---|---|---|---|---|
doLocationId | string | 265 | 161 236 | Taxi zóna TLC, ve které se vypnul taxametr |
endLat | double | 961,994 | 41.366138 40.75 | |
endLon | double | 1,144,935 | -73.137393 -73.9824 | |
extra | double | 877 | 0.5 1.0 | Ostatní poplatky a přirážky. V současné době to jsou pouze poplatky za jízdu v dopravní špičce a noční jízdu ve výši 0,50 USD a 1 USD. |
fareAmount | double | 18,935 | 6.5 4.5 | Výše jízdného vypočítaná taxametrem na základě času a vzdálenosti |
zlepšení Surcharge | string | 60 | 0.3 0 | Příplatek 0,30 USD za jízdu z ulice, který se účtuje při nástupu. Tento příplatek se začal vybírat v roce 2015. |
mtaTax | double | 360 | 0.5 -0.5 | Daň MTA ve výši 0,50 USD, která se automaticky připočte na základě naměřené sazby |
passengerCount | int | 64 | 1 2 | Počet cestujících ve vozidle. Tuto hodnotu zadává řidič. |
paymentType | string | 6,282 | CSH CRD | Číselný kód označující způsob, jakým cestující zaplatil za jízdu. 1 = Platební karta; 2 = Hotovost; 3 = Bez poplatků; 4 = Spor; 5 = Neznámé; 6 = Neplatná cesta. |
puLocationId | string | 266 | 237 161 | Taxi zóna TLC, ve které se zapnul taxametr |
puMonth | int | 12 | 3 5 | |
puYear | int | 29 | 2012 2011 | |
rateCodeId | int | 56 | 1 2 | Kód konečné sazby použité na konci jízdy. 1= Standardní sazba; 2= JFK; 3= Newark; 4= Nassau nebo Westchester; 5 = vyjednané jízdné; 6 = Skupinová jízda. |
startLat | double | 833,016 | 41.366138 40.7741 | |
startLon | double | 957,428 | -73.137393 -73.9821 | |
storeAndFwdFlag | string | 8 | N 0 | Tento příznak označuje, zda byl záznam o jízdě uložen v paměti vozidla před odesláním dodavateli, označovaný také jako "obchod a přeposlání", protože vozidlo nemělo připojení k serveru. Y = store and forward trip; N= není obchod a přeposlání cesty. |
tipAmount | double | 12,121 | 1.0 2.0 | Do tohoto pole se automaticky doplní spropitné přes platební kartu. Spropitné v hotovosti se nezahrnuje. |
tollsAmount | double | 6,634 | 5.33 4.8 | Celková výše zaplaceného mýtného během jízdy |
totalAmount | double | 39,707 | 7.0 7.8 | Celková částka účtovaná cestujícím. Nezahrnuje spropitné v hotovosti. |
tpepDropoffDateTime | časové razítko | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | Datum a čas vypnutí taxametru |
tpepPickupDateTime | časové razítko | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | Datum a čas zapnutí taxametru |
tripDistance | double | 14,003 | 1.0 0.9 | Ujetá vzdálenost v mílích hlášená taxametrem |
vendorID | string | 7 | VTS CMT | Kód označující poskytovatele TPEP, který je autorem záznamu. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
vendorID | int | 2 | 2 1 | Kód označující poskytovatele LPEP, který je autorem záznamu. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Preview
vendorID | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | zlepšení Surcharge | tipAmount | tollsAmount | totalAmount | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 24.1.2088 12:25:39 | 1/24/2088 7:28:25 | 0 | 4.05 | 24 | 162 | 0 | N | 2 | 14.5 | 0 | 0.5 | 0.3 | 0 | 0 | 15.3 | 2088 | 1 |
2 | 24.1.2088 12:15:42 | 24.1.2088 12:19:46 | 0 | 0.63 | 41 | 166 | 0 | N | 2 | 4.5 | 0 | 0.5 | 0.3 | 0 | 0 | 5.3 | 2088 | 1 |
2 | 11.4.2084 12:32:24 | 11.4.2084 12:47:41 | 0 | 1.34 | 238 | 236 | 0 | N | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11.4.2084 12:25:53 | 11.4.2084 12:29:00 | 0 | 0.32 | 238 | 238 | 0 | N | 2 | 4 | 0 | 0.5 | 0.3 | 0 | 0 | 4.8 | 2084 | 11 |
2 | 11.4.2084 12:08:33 | 11.4.2084 12:22:24 | 0 | 1.85 | 236 | 238 | 0 | N | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11.4.2084 11:41:35 | 11.4.2084 11:59:41 | 0 | 1.65 | 68 | 237 | 0 | N | 2 | 12.5 | 0 | 0.5 | 0.3 | 0 | 0 | 13.3 | 2084 | 11 |
2 | 11.4.2084 11:27:28 | 11.4.2084 11:39:52 | 0 | 1.07 | 170 | 68 | 0 | N | 2 | 9 | 0 | 0.5 | 0.3 | 0 | 0 | 9.8 | 2084 | 11 |
2 | 11.4.2084 11:19:06 | 11.4.2084 11:26:44 | 0 | 1.3 | 107 | 170 | 0 | N | 2 | 7.5 | 0 | 0.5 | 0.3 | 0 | 0 | 8.3 | 2084 | 11 |
2 | 11.4.2084 11:02:59 | 11.4.2084 11:15:51 | 0 | 1.85 | 113 | 137 | 0 | N | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11.4.2084 10:46:05 | 11.4.2084 10:50:09 | 0 | 0,62 | 231 | 231 | 0 | N | 2 | 4.5 | 0 | 0.5 | 0.3 | 0 | 0 | 5.3 | 2084 | 11 |
Přístup k datům
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Další kroky
Prohlédněte si zbývající datové sady v katalogu Open Datasets.