你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

纽约市出租车和豪车委员会 - 黄色出租车行程记录

黄色的出租车行程记录包括捕获以下信息的字段:上车和下车日期/时间、上车和下车位置、行程距离、逐条记录的车费、费率类型、付款类型和司机报告的乘客数。

注意

Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。

此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。

数量和保留期

此数据集以 Parquet 格式存储。 截至 2018 年,总共约有 15 亿行 (50 GB)。

此数据集包括从 2009 年到 2018 年累积的历史记录。 可使用我们的 SDK 中的参数设置来提取特定时间范围内的数据。

存储位置

此数据集存储在美国东部 Azure 区域。 建议将计算资源分配到美国东部地区,以实现相关性。

其他信息

纽约出租车和豪华轿车委员会 (TLC):

数据是由 Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP) 授权的技术提供商收集并提供给纽约出租车和豪华轿车委员会 (TLC)。 行程数据不是由 TLC 创建的,因此 TLC 不对这些数据的准确性做任何声明。

查看原始数据集位置原始使用条款

名称 数据类型 唯一 值(示例) 说明
doLocationId 字符串 265 161 236 未使用出租车计价器的 TLC 出租车区域。
endLat Double 961,994 41.366138 40.75
endLon Double 1,144,935 -73.137393 -73.9824
extra Double 877 0.5 1.0 其他杂费和附加费。 目前,这仅包括 0.50 美元和 1 美元的高峰时段费和跨夜费用。
fareAmount Double 18,935 6.5 4.5 计价器计算的时间和距离费用。
improvementSurcharge 字符串 60 0.3 0 已针对行程的起步价征收 0.30 美元的改进附加费。 自 2015 年起开始征收改进附加费。
mtaTax Double 360 0.5 -0.5 根据使用的计量费率自动触发的 0.50 美元 MTA 税。
passengerCount int 64 1 2 车辆中的乘客人数。 这是驾驶员输入的值。
paymentType string 6,282 CSH CRD 表示乘客如何支付行程费用的数字代码。 1 = 信用卡;2 = 现金;3 = 免费;4 = 争议;5 = 未知;6 = 失效行程。
puLocationId 字符串 266 237 161 使用了出租车计价器的 TLC 出租车区域。
puMonth int 12 3 5
puYear int 29 2012 2011
rateCodeId int 56 1 2 行程结束时实行的最终费率代码。 1 = 标准费率;2 = JFK;3 = Newark;4 = Nassau 或 Westchester;5 = 议价票价;6 = 拼车。
startLat Double 833,016 41.366138 40.7741
startLon Double 957,428 -73.137393 -73.9821
storeAndFwdFlag 字符串 8 N 0 此标志指示是否先将行程记录保存在车辆内存中,然后再发送到供应商(也称为“存储并转发”),因为车辆未连接到服务器。 Y =“存储并转发”行程;N = 非“存储并转发”行程。
tipAmount Double 12,121 1.0 2.0 此字段自动填充信用卡小费。 不包括现金小费。
tollsAmount Double 6,634 5.33 4.8 行程中支付的所有通行费总额。
totalAmount Double 39,707 7.0 7.8 向乘客收取的总金额。 不含现金小费。
tpepDropoffDateTime timestamp 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 未使用计价器的日期和时间。
tpepPickupDateTime timestamp 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 采用了计价器的日期和时间。
tripDistance Double 14,003 1.0 0.9 出租车计价器报告的所经过的行程距离(以英里为单位)。
vendorID string 7 VTS CMT 指示提供记录的 TPEP 提供商的代码。 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.
vendorID int 2 2 1 指示提供记录的 LPEP 提供商的代码。 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc.

预览

vendorID tpepPickupDateTime tpepDropoffDateTime passengerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount puYear puMonth
2 2088/1/24,凌晨 0:25:39 2088/1/24,早上 7:28:25 1 4.05 24 162 1 N 2 14.5 0 0.5 0.3 0 0 15.3 2088 1
2 2088/1/24,凌晨 0:15:42 2088/1/24,凌晨 0:19:46 1 0.63 41 166 1 N 2 4.5 0 0.5 0.3 0 0 5.3 2088 1
2 2084/11/4,中午 12:32:24 2084/11/4,中午 12:47:41 1 1.34 238 236 1 N 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 2084/11/4,中午 12:25:53 2084/11/4,中午 12:29:00 1 0.32 238 238 1 N 2 4 0 0.5 0.3 0 0 4.8 2084 11
2 2084/11/4,中午 12:08:33 2084/11/4,中午 12:22:24 1 1.85 236 238 1 N 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 2084/11/4,上午 11:41:35 2084/11/4,上午 11:59:41 1 1.65 68 237 1 N 2 12.5 0 0.5 0.3 0 0 13.3 2084 11
2 2084/11/4,上午 11:27:28 2084/11/4,上午 11:39:52 1 1.07 170 68 1 N 2 9 0 0.5 0.3 0 0 9.8 2084 11
2 2084/11/4,上午 11:19:06 2084/11/4,上午 11:26:44 1 1.3 107 170 1 N 2 7.5 0 0.5 0.3 0 0 8.3 2084 11
2 2084/11/4,上午 11:02:59 2084/11/4,上午 11:15:51 1 1.85 113 137 1 N 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 2084/11/4,上午 10:46:05 2084/11/4,上午 10:50:09 1 0.62 231 231 1 N 2 4.5 0 0.5 0.3 0 0 5.3 2084 11

数据访问

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

后续步骤

查看开放数据集目录中的其余数据集。