NYC Taxi & Limousine Commission - żółte rekordy przejazdów taksówką
Rekordy dotyczące przejazdów żółtymi taksówkami zawierają pola daty i godziny rozpoczęcia oraz zakończenia kursu, miejsca rozpoczęcia i zakończenia kursu, pokonanej odległości, wyszczególnionych opłat, taryfy, metody płatności oraz liczby pasażerów podanej przez kierowcę.
Uwaga
Firma Microsoft udostępnia zestawy danych Platformy Azure open na zasadzie "tak, jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wtórne, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.
Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.
Wolumin i przechowywanie
Ten zestaw danych jest przechowywany w formacie Parquet. W sumie do 2018 r. istnieje około 1,5B wierszy (50 GB).
Ten zestaw danych zawiera historyczne rekordy z lat 2009–2018. Aby pobrać dane z konkretnego przedziału czasowego, należy użyć ustawień parametrów w zestawie SDK.
Lokalizacja usługi Storage
Ten zestaw danych jest przechowywany w regionie platformy Azure Wschodnie stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.
Dodatkowe informacje
Komisja ds. taksówek i limuzyn miasta Nowy Jork (TLC):
Dane zostały zebrane i dostarczone do TLC przez dostawców technologii uczestniczących w programach TPEP/LPEP (Taxicab & Livery Passenger Enhancement Program). Dane dotyczące przejazdów nie zostały utworzone przez TLC i komisja nie gwarantuje rzetelności tych danych.
Wyświetl oryginalną lokalizację zestawu danych i oryginalne warunki użytkowania.
Kolumny
Nazwisko | Typ danych | Unikatowe | Wartości (przykładowe) | opis |
---|---|---|---|---|
doLocationId | string | 265 | 161 236 | Strefa taksówkowa TLC, w której wyłączono taksometr. |
endLat | double | 961,994 | 41.366138 40.75 | |
endLon | double | 1,144,935 | -73.137393 -73.9824 | |
Dodatkowych | double | 877 | 0.5 1.0 | Różne opłaty dodatkowe. Obecnie ta wartość obejmuje tylko opłaty w wysokości 0,50 USD i 1 USD stosowane w godzinach szczytu i w nocy. |
fareAmount | double | 18,935 | 6.5 4.5 | Opłata za czas i odległość według taksometru. |
improvementSurcharge | string | 60 | 0.3 0 | Opłata dodatkowa na fundusz modernizacyjny w wysokości 0,30 USD, naliczana w momencie rozpoczęcia przejazdu. Pobieranie tej opłaty dodatkowej rozpoczęto w roku 2015. |
mtaTax | double | 360 | 0.5 -0.5 | Podatek miejski (MTA) w wysokości 0,50 USD, naliczany automatycznie w zależności od stosowanej taryfy taksometru. |
pasażerCount | int | 64 | 1 2 | Liczba pasażerów w pojeździe. Tę wartość wprowadza kierowca. |
paymentType | string | 6,282 | CSH CRD | Kod liczbowy oznaczający metodę płatności za przejazd. 1 = Karta kredytowa; 2 = Gotówka; 3 = Brak opłat; 4 = Spór; 5 = Nieznany; 6 = Podróż unieważniona. |
puLocationId | string | 266 | 237 161 | Strefa taksówkowa TLC, w której włączono taksometr. |
puMonth | int | 12 | 3 5 | |
puYear | int | 29 | 2012 2011 | |
rateCodeId | int | 56 | 1 2 | Kod taryfy stosowanej w momencie zakończenia przejazdu. 1 = stawka standardowa; 2= JFK; 3 = Newark; 4 = Nassau lub Westchester; 5 = wynegocjowane taryfy; 6 = Jazda grupowa. |
startLat | double | 833,016 | 41.366138 40.7741 | |
startLon | double | 957,428 | -73.137393 -73.9821 | |
storeAndFwdFlag | string | 8 | N 0 | Ta flaga wskazuje, czy rekord podróży był przechowywany w pamięci pojazdu przed wysłaniem do dostawcy, znany również jako "przechowywanie i przekazywanie", ponieważ pojazd nie miał połączenia z serwerem. Y = przechowywanie i przesyłanie dalej; N = nie sklep i podróż do przodu. |
tipAmount | double | 12,121 | 1.0 2.0 | To pole jest wypełniane automatycznie w przypadku napiwków doliczonych do płatności kartą kredytową. Nie obejmuje napiwków w gotówce. |
tollsAmount | double | 6,634 | 5.33 4.8 | Łączna kwota wszystkich opłat drogowych uiszczonych podczas przejazdu. |
totalAmount | double | 39,707 | 7.0 7.8 | Łączna opłata obciążająca pasażerów. Nie obejmuje napiwków w gotówce. |
tpepDropoffDateTime | timestamp | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | Data i godzina wyłączenia taksometru. |
tpepPickupDateTime | timestamp | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | Data i godzina włączenia taksometru. |
tripDistance | double | 14,003 | 1.0 0.9 | Odległość przejazdu w milach według taksometru. |
identyfikator dostawcy | string | 7 | VTS CMT | Kod wskazujący dostawcę danego rekordu w ramach programu TPEP. 1= Creative Mobile Technologies, LLC; 2 = VeriFone Inc. |
identyfikator dostawcy | int | 2 | 2 1 | Kod wskazujący dostawcę danego rekordu w ramach programu LPEP. 1= Creative Mobile Technologies, LLC; 2 = VeriFone Inc. |
Podgląd
identyfikator dostawcy | tpepPickupDateTime | tpepDropoffDateTime | pasażerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | Dodatkowych | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 1/24/2088 12:25:39 | 1/24/2088 7:28:25 | 1 | 4.05 | 24 | 162 | 1 | N | 2 | 14,5 | 0 | 0.5 | 0.3 | 0 | 0 | 15,3 | 2088 | 1 |
2 | 1/24/2088 12:15:42 | 1/24/2088 12:19:46 AM | 1 | 0.63 | 41 | 166 | 1 | N | 2 | 4.5 | 0 | 0.5 | 0.3 | 0 | 0 | 5.3 | 2088 | 1 |
2 | 11/4/2084 12:32:24 | 11/4/2084 12:47:41 PM | 1 | 1.34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 12:25:53 | 11/4/2084 12:29:00 | 1 | 0.32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0.5 | 0.3 | 0 | 0 | 4.8 | 2084 | 11 |
2 | 11/4/2084 12:08:33 | 11/4/2084 12:22:24 PM | 1 | 1.85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 11:41:35 | 11/4/2084 11:59:41 AM | 1 | 1.65 | 68 | 237 | 1 | N | 2 | 12.5 | 0 | 0.5 | 0.3 | 0 | 0 | 13.3 | 2084 | 11 |
2 | 11/4/2084 11:27:28 AM | 11/4/2084 11:39:52 | 1 | 1.07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0.5 | 0.3 | 0 | 0 | 9.8 | 2084 | 11 |
2 | 11.04.2084 11:19:06 | 11/4/2084 11:26:44 AM | 1 | 1.3 | 107 | 170 | 1 | N | 2 | 7.5 | 0 | 0.5 | 0.3 | 0 | 0 | 8.3 | 2084 | 11 |
2 | 11/4/2084 11:02:59 | 11/4/2084 11:15:51 AM | 1 | 1.85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11.04.2084 10:46:05 | 11.04.2084 10:50:09 | 1 | 0.62 | 231 | 231 | 1 | N | 2 | 4.5 | 0 | 0.5 | 0.3 | 0 | 0 | 5.3 | 2084 | 11 |
Dostęp do danych
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Następne kroki
Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwieranie zestawów danych).