NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) rekordy podróży
Rekordy przejazdów pojazdami na wynajem obejmują pola zawierające numer licencji centrali oraz datę i godzinę odebrania pasażera, jak również identyfikator lokalizacji strefy taksówkowej (plik kształtu poniżej). Te rekordy są generowane na podstawie danych przesyłanych do systemu FHV Trip Record przez centrale.
Uwaga
Firma Microsoft udostępnia zestawy danych Platformy Azure open na zasadzie "tak, jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wtórne, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.
Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.
Wolumin i przechowywanie
Ten zestaw danych jest przechowywany w formacie Parquet. Od 2018 r. istnieje około 500 mln wierszy (5 GB).
Ten zestaw danych zawiera historyczne rekordy z lat 2009–2018. Aby pobrać dane z konkretnego przedziału czasowego, należy użyć ustawień parametrów w zestawie SDK.
Lokalizacja usługi Storage
Ten zestaw danych jest przechowywany w regionie platformy Azure Wschodnie stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.
Dodatkowe informacje
Komisja ds. taksówek i limuzyn miasta Nowy Jork (TLC):
Dane zostały zebrane i dostarczone do TLC przez dostawców technologii uczestniczących w programach TPEP/LPEP (Taxicab & Livery Passenger Enhancement Program). Dane dotyczące przejazdów nie zostały utworzone przez TLC i komisja nie gwarantuje rzetelności tych danych.
Wyświetl oryginalną lokalizację zestawu danych i oryginalne warunki użytkowania.
Kolumny
Nazwisko | Typ danych | Unikatowe | Wartości (przykładowe) | opis |
---|---|---|---|---|
dispatchBaseNum | string | 1,144 | B02510 B02764 | Numer licencji TLC bazy, z której wysłano przejazd |
doLocationId | string | 267 | 265 132 | Strefa taksówkowa TLC, w której zakończył się przejazd. |
dropOffDateTime | timestamp | 57,110,352 | 2017-07-31 23:59:00 2017-10-15 00:44:34 | Data i godzina zakończenia przejazdu przez pasażera. |
pickupDateTime | timestamp | 111,270,396 | 2016-08-16 00:00:00 2016-08-17 00:00:00 | Data i godzina rozpoczęcia przejazdu przez pasażera. |
puLocationId | string | 266 | 79 161 | Strefa taksówkowa TLC, w której rozpoczął się przejazd. |
puMonth | int | 12 | 1 12 | |
puYear | int | 5 | 2018 2017 | |
srFlag | string | 44 | 1 2 | Wskazuje, czy podróż była częścią udostępnionego łańcucha przejazdów oferowanego przez firmę o dużej wielkości FHV (na przykład Uber Pool, Lyft Line). W przypadku wspólnych przejazdów to pole zawiera wartość 1. W przypadku przejazdów, które nie były wspólne, to pole ma wartość null. UWAGA: W przypadku większości firm o dużej wielkości FHV zażądano tylko przejazdów udostępnionych, które zostały żądane i dopasowane do innego żądania wspólnej jazdy w trakcie podróży są oflagowane. Jednak firma Lyft (numery licencji bazy: B02510 i B02844) oznacza w ten sposób także zamówione przejazdy wspólne, do których nie udało się dopasować zamówienia innego pasażera — a zatem rekordy przejazdów z oznaczeniem SR_Flag=1 z tych dwóch baz mogą oznaczać pierwszy przejazd w ramach ciągu wspólnych przejazdów LUB przejazd, dla którego zamówiono przejazd wspólny, ale nie dopasowano innego pasażera. Użytkownicy powinni uwzględnić potencjalne przeszacowanie liczby przejazdów wspólnych zrealizowanych przez firmę Lyft. |
Podgląd
dispatchBaseNum | pickupDateTime | dropOffDateTime | puLocationId | doLocationId | srFlag | puYear | puMonth |
---|---|---|---|---|---|---|---|
B03157 | 30.06.2019 11:59:57 | 7/1/2019 12:07:21 | 264 | null | null | 2019 | 6 |
B01667 | 30.06.2019 11:59:56 | 7/1/2019 12:28:06 | 264 | null | null | 2019 | 6 |
B02849 | 30.06.2019 11:59:55 | 7/1/2019 12:14:10 | 264 | null | null | 2019 | 6 |
B02249 | 30.06.2019 11:59:53 | 7/1/2019 12:15:53 | 264 | null | null | 2019 | 6 |
B00887 | 30.06.2019 11:59:48 | 7/1/2019 12:29:29 AM | 264 | null | null | 2019 | 6 |
B01626 | 30.06.2019 11:59:45 | 7/1/2019 12:18:20 | 264 | null | null | 2019 | 6 |
B01259 | 30.06.2019 11:59:44 | 7/1/2019 12:03:15 | 264 | null | null | 2019 | 6 |
B01145 | 30.06.2019 11:59:43 | 7/1/2019 12:11:15 | 264 | null | null | 2019 | 6 |
B00887 | 30.06.2019 11:59:42 | 7/1/2019 12:34:21 | 264 | null | null | 2019 | 6 |
B00821 | 30.06.2019 11:59:40 | 7/1/2019 12:02:57 | 264 | null | null | 2019 | 6 |
Dostęp do danych
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Następne kroki
Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwieranie zestawów danych).