共用方式為


NYC Taxi Limousine Commission (紐約市計程車和禮車委員會) - 營運汽車 (FHV) 車程記錄

租用車輛 (“FHV”) 行程記錄包括擷取分派公司授權號碼以及上車日期、時間和計程車區域位置識別碼 (下列形狀檔) 的欄位。 這些記錄是根據公司提交的 FHV 行程記錄所產生。

注意

Microsoft 依「現況」提供 Azure 開放資料集。 針對 貴用戶對資料集的使用方式,Microsoft 不提供任何明示或默示的擔保、保證或條件。 在 貴用戶當地法律允許的範圍內,針對因使用資料集而導致的任何直接性、衍生性、特殊性、間接性、附隨性或懲罰性損害或損失,Microsoft 概不承擔任何責任。

此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。

資料量與保留期

此資料集以 Parquet 格式儲存, 截至 2018 年為止,約有 5 億個資料列 (5GB)。

此資料集包含從 2009 年累積到 2018 年的歷程記錄。 在我們的 SDK 中,您可以使用參數設定來擷取特定時間範圍內的資料。

儲存位置

此資料集儲存於美國東部 Azure 區域。 建議您在美國東部配置計算資源,以確保同質性。

其他資訊

紐約市計程車委員會 (TLC):

資料由依計程車與載客量加強計劃 (TPEP/LPEP) 授權的技術提供者收集,並提供給紐約市計程車委員會 (TLC)。 行程資料並非由 TLC 所建立,且 TLC 不保證這些資料的準確性。

檢視原始資料集位置原始使用規定

資料行

名稱 資料類型 唯一 Values (sample) 描述
dispatchBaseNum 字串 1,144 B02510 B02764 已分派行程之公司的 TLC 公司授權號碼
doLocationId 字串 267 265 132 行程結束的 TLC 計程車區域。
dropOffDateTime timestamp 57,110,352 2017-07-31 23:59:00 2017-10-15 00:44:34 行程下車的日期和時間。
pickupDateTime timestamp 111,270,396 2016-08-16 00:00:00 2016-08-17 00:00:00 行程接送的日期和時間。
puLocationId 字串 266 79 161 行程開始的 TLC 計程車區域。
puMonth int 12 1 12
puYear int 5 2018 2017
srFlag 字串 44 1 和 2 指出該行程是否屬於高運量 FHV 公司 (例如 Uber Pool、Lyft Line) 所提供的共乘鏈。 針對共乘的行程,值為 1。 針對非共乘的行程,此欄位為 Null。 注意: 對於大多數大量 FHV 公司,只有要求並符合旅程過程中另一個共用乘車要求的共享車程,才會為已標幟狀態。 但是,Lyft (公司執照編號 B02510 + B02844) 也會標幟要求共乘但未成功與另一位乘客配對共乘的行程,因此這兩間公司的 SR_Flag = 1 行程記錄可能是指共乘行程鏈中的第一趟行程,也可能是指已要求但未配對到乘客的共乘行程。 使用者可以預期 Lyft 成功完成的共乘行程數量會超量。

預覽​​

dispatchBaseNum pickupDateTime dropOffDateTime puLocationId doLocationId srFlag puYear puMonth
B03157 6/30/2019 11:59:57 PM 7/1/2019 12:07:21 AM 264 null null 2019 6
B01667 6/30/2019 11:59:56 PM 7/1/2019 12:28:06 AM 264 null null 2019 6
B02849 6/30/2019 11:59:55 PM 7/1/2019 12:14:10 AM 264 null null 2019 6
B02249 6/30/2019 11:59:53 PM 7/1/2019 12:15:53 AM 264 null null 2019 6
B00887 6/30/2019 11:59:48 PM 7/1/2019 12:29:29 AM 264 null null 2019 6
B01626 6/30/2019 11:59:45 PM 7/1/2019 12:18:20 AM 264 null null 2019 6
B01259 6/30/2019 11:59:44 PM 7/1/2019 12:03:15 AM 264 null null 2019 6
B01145 6/30/2019 11:59:43 PM 7/1/2019 12:11:15 AM 264 null null 2019 6
B00887 6/30/2019 11:59:42 PM 7/1/2019 12:34:21 AM 264 null null 2019 6
B00821 6/30/2019 11:59:40 PM 7/1/2019 12:02:57 AM 264 null null 2019 6

資料存取

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcFhv

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

下一步

檢視開放資料集目錄中的其餘資料集。