NYC Taxi & Limousine Komise - green taxi trip records
Záznamy o cestách zeleným taxíkem obsahují pole zachytávající data a časy vyzvednutí a vysazení, místa vyzvednutí a vysazení, ujeté vzdálenosti, jízdné rozdělené na položky, typy sazeb, typy plateb a počty cestujících nahlášené řidičem.
Poznámka:
Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.
Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.
Objem a uchovávání
Tato datová sada se uchovává ve formátu Parquet. K roku 2018 je celkem přibližně 80M řádků (2 GB).
Tato datová sada obsahuje historické záznamy shromážděné mezi lety 2009 a 2018. Pomocí nastavení parametrů v naší sadě SDK můžete načíst data v určitém časovém rozsahu.
Dočasné úložiště
Tato datová sada se uchovává v oblasti Azure Východní USA. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.
Další informace
Newyorská komise pro taxi a limuzíny (TLC):
Data shromáždili a newyorské komisi pro taxi a limuzíny (TLC) je poskytli poskytovatelé technologií autorizovaní v rámci programů TPEP a LPEP (Taxicab Passenger Enhancement Program a Livery Passenger Enhancement Program). Data o jízdách nevytvořila TLC a TLC nečinní žádná prohlášení ohledně přesnosti těchto dat.
Zobrazte původní umístění datové sady a původní podmínky použití.
Sloupce
Name | Datový typ | Jedinečný | Values (sample) | Popis |
---|---|---|---|---|
doLocationId | string | 264 | 74 42 | doLocationID – Taxi zóna TLC, ve které se vypnul taxametr |
dropoffLatitude | double | 109,721 | 40.7743034362793 40.77431869506836 | Zastaralé od verze 2016.07 |
dropoffLongitude | double | 75,502 | -73.95272827148438 -73.95274353027344 | Zastaralé od verze 2016.07 |
extra | double | 202 | 0.5 1.0 | Ostatní poplatky a přirážky. V současné době to jsou pouze poplatky za jízdu v dopravní špičce a noční jízdu ve výši 0,50 USD a 1 USD. |
fareAmount | double | 10,367 | 6.0 5.5 | Výše jízdného vypočítaná taxametrem na základě času a vzdálenosti |
zlepšení Surcharge | string | 92 | 0.3 0 | Příplatek 0,30 USD za jízdu z ulice, který se účtuje při nástupu. Tento příplatek se začal vybírat v roce 2015. |
lpepDropoffDatetime | časové razítko | 58,100,713 | 2016-05-22 00:00:00 2016-05-09 00:00:00 | Datum a čas vypnutí taxametru |
lpepPickupDatetime | časové razítko | 58,157,349 | 2013-10-22 12:40:36 2014-08-09 15:54:25 | Datum a čas zapnutí taxametru |
mtaTax | double | 34 | 0.5 -0.5 | Daň MTA ve výši 0,50 USD, která se automaticky připočte na základě naměřené sazby |
passengerCount | int | 10 | 1 2 | Počet cestujících ve vozidle. Tuto hodnotu zadává řidič. |
paymentType | int | 5 | 2 1 | Číselný kód označující způsob, jakým cestující zaplatil za jízdu. 1 = Platební karta 2 = Hotovost 3 = Bez poplatku 4 = Spor 5 = Neznámý 6 = Neplatná cesta |
pickupLatitude | double | 95,110 | 40.721351623535156 40.721336364746094 | Zastaralé od verze 2016.07 |
pickupLongitude | double | 55,722 | -73.84429931640625 -73.84429168701172 | Zastaralé od verze 2016.07 |
puLocationId | string | 264 | 74 41 | Taxi zóna TLC, ve které se zapnul taxametr |
puMonth | int | 12 | 3 5 | |
puYear | int | 14 | 2015 2016 | |
rateCodeID | int | 7 | 1 5 | Kód konečné sazby použité na konci jízdy. 1= Standardní sazba 2= JFK 3= Newark 4= Nassau nebo Westchester 5= Negotiated jízdné 6= Skupina jízdy |
storeAndFwdFlag | string | 2 | N Y | Tento příznak označuje, zda byl záznam o jízdě uložen v paměti vozidla před odesláním dodavateli, označovaný také jako "obchod a přeposlání", protože vozidlo nemělo připojení k serveru. Y = store and forward trip N= not a store and forward trip |
tipAmount | double | 6,206 | 1.0 2.0 | Výše spropitného – Do tohoto pole se automaticky doplní spropitné přes platební kartu. Spropitné v hotovosti se nezahrnuje. |
tollsAmount | double | 2,150 | 5.54 5.76 | Celková výše zaplaceného mýtného během jízdy |
totalAmount | double | 20,188 | 7.8 6.8 | Celková částka účtovaná cestujícím. Nezahrnuje spropitné v hotovosti. |
tripDistance | double | 7,060 | 0.9 1.0 | Ujetá vzdálenost v mílích hlášená taxametrem |
tripType | int | 3 | 1 2 | Kód, který označuje, jestli se jednalo o jízdu z ulice nebo objednanou jízdu přes dispečink, a který se přiřazuje automaticky na základě naměřené sazby, ale který může řidič upravit. 1= Street-hail 2= Dispatch |
vendorID | int | 2 | 2 1 | Kód označující poskytovatele LPEP, který je autorem záznamu. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Preview
vendorID | lpepPickupDatetime | lpepDropoffDatetime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeID | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | zlepšení Surcharge | tipAmount | tollsAmount | totalAmount | tripType | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 24.6.2081 5:40:37 | 24.6.2081 18:42:47 | 0 | 16.95 | 93 | 117 | 0 | N | 0 | 52 | 0 | 0.5 | 0.3 | 0 | 2.16 | 55.96 | 0 | 2081 | 6 |
2 | 28.11.2030 12:19:29 | 11/28/2030 12:25:37 | 0 | 1.08 | 42 | 247 | 0 | N | 2 | 6.5 | 0 | 0.5 | 0.3 | 0 | 0 | 7.3 | 0 | 2030 | 11 |
2 | 28.11.2030 12:14:50 | 28.11.2030 12:14:54 | 0 | 0.03 | 42 | 42 | 5 | N | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 5 | 2 | 2030 | 11 |
2 | 11.14.2020 11:38:07 | 11.14.2020 11:42:22 | 0 | 0.63 | 129 | 129 | 0 | N | 2 | 4.5 | 0 | 0.5 | 0.3 | 0 | 0 | 6.3 | 0 | 2020 | 11 |
2 | 11.14.2020 9:55:36 | 11.14.2020 10:04:54 | 0 | 3.8 | 82 | 138 | 0 | N | 2 | 12.5 | 0 | 0.5 | 0.3 | 0 | 0 | 14.3 | 0 | 2020 | 11 |
2 | 26.8.2019 18:18:37 | 26.8.2019 19:19:35 | 0 | 0 | 264 | 264 | 0 | N | 2 | 0 | 0 | 0.5 | 0.3 | 0 | 0 | 1.8 | 0 | 2019 | 8 |
2 | 1.7.2019 8:28:33 | 1.7.2019 8:32:33 | 0 | 0.71 | 7 | 7 | 0 | N | 1 | 5 | 0 | 0.5 | 0.3 | 1.74 | 0 | 7.54 | 0 | 2019 | 7 |
2 | 1.7.2019 12:04:53 | 1.7.2019 12:21:56 | 0 | 2.71 | 223 | 145 | 0 | N | 2 | 13 | 0.5 | 0.5 | 0.3 | 0 | 0 | 14.3 | 0 | 2019 | 7 |
2 | 1.7.2019 12:04:11 | 1.7.2019 12:21:15 | 0 | 3,14 | 166 | 142 | 0 | N | 2 | 14.5 | 0.5 | 0.5 | 0.3 | 0 | 0 | 18.55 | 0 | 2019 | 7 |
2 | 1.7.2019 12:03:37 | 1.7.2019 12:09:27 | 0 | 0.78 | 74 | 74 | 0 | N | 1 | 6 | 0.5 | 0.5 | 0.3 | 1,46 | 0 | 8.76 | 0 | 2019 | 7 |
Přístup k datům
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
# Display data statistic information
display(nyc_tlc_df, summary = True)
Další kroky
Prohlédněte si zbývající datové sady v katalogu Open Datasets.