NYC Taxi & Limousine Kommissionen - grön taxi resa poster
Den gröna taxins färdposter innehåller fält som visar datum och tid för upphämtning och avlämning, plats för upphämtning och avlämning, körsträcka, specificerade priser, tarifftyper, betalningssätt och förarrapporterade passagerarantal.
Kommentar
Microsoft tillhandahåller Azure Open Datasets i befintligt fall. Microsoft ger inga garantier, uttryckliga eller underförstådda garantier eller villkor för din användning av datauppsättningarna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkt, följdriktig, särskild, indirekt, tillfällig eller straffbar, till följd av din användning av datauppsättningarna.
Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.
Volym och kvarhållning
Datamängden lagras i Parquet-format. Det finns cirka 80 miljoner rader (2 GB) totalt från och med 2018.
Datamängden innehåller historiska poster som ackumulerats från 2009 till 2018. Du kan använda parameterinställningar i vår SDK till att hämta data inom ett specifikt tidsintervall.
Lagringsplats
Datamängden lagras i Azure-regionen Östra USA. Vi rekommenderar att beräkningsresurser tilldelas i Östra USA av tillhörighetsskäl.
Ytterligare information
NYC Taxi and Limousine Commission (TLC):
Datan samlades in och överlämnades till NYC Taxi and Limousine Commission (TLC) av teknikleverantörer som är godkända av Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Färddatan skapades inte av TLC och TLC garanterar inte korrektheten i dessa data.
Visa den ursprungliga datamängdens plats och de ursprungliga användningsvillkoren.
Kolumner
Name | Datatyp | Unik | Värden (exempel) | beskrivning |
---|---|---|---|---|
doLocationId | sträng | 264 | 74 42 | DOLocationID för den TLC-taxizon där taxametern kopplades från. |
dropoffLatitude | dubbel | 109,721 | 40.7743034362793 40.77431869506836 | Inaktuellt från och med 2016.07 |
dropoffLongitude | dubbel | 75,502 | -73.95272827148438 -73.95274353027344 | Inaktuellt från och med 2016.07 |
extra | dubbel | 202 | 0.5 1.0 | Övriga tilläggsavgifter. Detta inkluderar för närvarande endast avgifter på $0,50 och $1 vid rusningstrafik och på natten. |
fareAmount | dubbel | 10,367 | 6.0 5.5 | Taxan för tid och avstånd som beräknas av mätaren. |
improvementSurcharge | sträng | 92 | 0.3 0 | $0,30 i förbättringsavgift för utvärderade gatuanropade resor vid flaggan. Förbättringsavgiften började användas 2015. |
lpepDropoffDatetime | timestamp | 58,100,713 | 2016-05-22 00:00:00 2016-05-09 00:00:00 | Datum och tid då mätaren kopplades från. |
lpepPickupDatetime | timestamp | 58,157,349 | 2013-10-22 12:40:36 2014-08-09 15:54:25 | Datum och tid då mätaren användes. |
mtaTax | dubbel | 34 | 0.5 -0.5 | $0,50 i MTA-skatt tillämpas automatiskt baserat på den mätartaxa som används. |
passengerCount | heltal | 10 | 1 2 | Antal passagerare i fordonet. Detta är ett värde som anges av föraren. |
paymentType | heltal | 5 | 2 1 | En numerisk kod som visar hur passageraren betalade för resan. 1= Kreditkort 2= Kontant 3= Avgift 4= Tvist 5= Okänd 6= Annullerad resa |
pickupLatitude | dubbel | 95,110 | 40.721351623535156 40.721336364746094 | Inaktuellt från och med 2016.07 |
pickupLongitude | dubbel | 55,722 | -73.84429931640625 -73.84429168701172 | Inaktuellt från och med 2016.07 |
puLocationId | sträng | 264 | 74 41 | TLC-taxizon där taxametern användes. |
puMonth | heltal | 12 | 3 5 | |
puYear | heltal | 14 | 2015 2016 | |
rateCodeID | heltal | 7 | 1 5 | Den slutliga kodtaxa som används när resan avslutats. 1= Standardpris 2= JFK 3= Newark 4= Nassau eller Westchester 5= Förhandlad biljett 6= Gruppresa |
storeAndFwdFlag | sträng | 2 | N Y | Den här flaggan anger om reseposten hölls i fordonets minne innan den skickades till leverantören, även känd som "lagra och vidarebefordra", eftersom fordonet inte hade någon anslutning till servern. Y = butik och framåt resa N = inte en butik och framåt resa |
tipAmount | dubbel | 6,206 | 1.0 2.0 | Dricksbelopp – Det här fältet fylls i automatiskt med kreditkortsdricks. Kontantdricks visas inte. |
tollsAmount | dubbel | 2,150 | 5.54 5.76 | Sammanlagt belopp för alla tullavgifter som betalats under resan. |
totalAmount | dubbel | 20,188 | 7.8 6.8 | Det totala belopp som debiteras passagerarna. Kontantdricks ingår inte. |
tripDistance | dubbel | 7,060 | 0.9 1.0 | Den utförda resans längd i miles enligt taxametern. |
tripType | heltal | 3 | 1 2 | En kod visar om taxin anropades på gatan eller var en beställning som automatiskt tilldelas, baserat på den mätartaxa som användes men som kan ändras av föraren. 1= Street-hail 2= Dispatch |
vendorID | heltal | 2 | 2 1 | En kod som visar den LPEP-leverantör som tillhandahöll registret. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Förhandsversion
vendorID | lpepPickupDatetime | lpepDropoffDatetime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeID | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | tripType | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 2081-06-24 17:40:37 | 2081-06-24 18:42:47 | 1 | 16.95 | 93 | 117 | 1 | N | 1 | 52 | 1 | 0,5 | 0,3 | 0 | 2.16 | 55.96 | 1 | 2081 | 6 |
2 | 2030-01-28 12:19:29 | 2030-01-28 12:25:37 | 1 | 1,08 | 42 | 247 | 1 | N | 2 | 6.5 | 0 | 0,5 | 0,3 | 0 | 0 | 7.3 | 1 | 2030 | 11 |
2 | 2030-01-28 12:14:50 | 2030-01-28 12:14:54 | 1 | 0.03 | 42 | 42 | 5 | N | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 5 | 2 | 2030 | 11 |
2 | 2020-11-14 11:38:07 | 2020-11-14 11:42:22 | 1 | 0.63 | 129 | 129 | 1 | N | 2 | 4,5 | 1 | 0,5 | 0,3 | 0 | 0 | 6.3 | 1 | 2020 | 11 |
2 | 2020-01-14 09:55:36 | 2020-11-14 10:04:54 | 1 | 3,8 | 82 | 138 | 1 | N | 2 | 12.5 | 1 | 0,5 | 0,3 | 0 | 0 | 14,3 | 1 | 2020 | 11 |
2 | 2019-08-26 16:18:37 | 2019-08-26 16:19:35 | 1 | 0 | 264 | 264 | 1 | N | 2 | 1 | 0 | 0,5 | 0,3 | 0 | 0 | 1.8 | 1 | 2019 | 8 |
2 | 2019-07-1 08:28:33 | 2019-07-1 08:32:33 | 1 | 0.71 | 7 | 7 | 1 | N | 1 | 5 | 0 | 0,5 | 0,3 | 1.74 | 0 | 7.54 | 1 | 2019 | 7 |
2 | 2019-07-1 12:04:53 | 2019-07-1 12:21:56 | 1 | 2.71 | 223 | 145 | 1 | N | 2 | 13 | 0,5 | 0,5 | 0,3 | 0 | 0 | 14,3 | 1 | 2019 | 7 |
2 | 2019-07-1 12:04:11 | 2019-07-1 12:21:15 | 1 | 3.14 | 166 | 142 | 1 | N | 2 | 14,5 | 0,5 | 0,5 | 0,3 | 0 | 0 | 18.55 | 1 | 2019 | 7 |
2 | 2019-07-1 12:03:37 | 2019-07-1 12:09:27 | 1 | -0,78 | 74 | 74 | 1 | N | 1 | 6 | 0,5 | 0,5 | 0,3 | 1,46 | 0 | 8.76 | 1 | 2019 | 7 |
Dataåtkomst
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
# Display data statistic information
display(nyc_tlc_df, summary = True)
Nästa steg
Visa resten av datauppsättningarna i katalogen Öppna datamängder.