你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

纽约市出租车和豪车委员会 - 黄色出租车行程记录

黄色的出租车行程记录包括捕获以下信息的字段:上车和下车日期/时间、上车和下车位置、行程距离、逐条记录的车费、费率类型、付款类型和司机报告的乘客数。

注意

Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。

此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。

数量和保留期

此数据集以 Parquet 格式存储。 截至 2018 年,总共约有 15 亿行 (50 GB)。 从 2019 年开始,大批量行程记录被单独记录。

此数据集包含从 2009 年到 2025 年累积的历史记录。 可使用我们的 SDK 中的参数设置来提取特定时间范围内的数据。

存储位置

此数据集存储在美国东部 Azure 区域。 建议将计算资源分配到美国东部地区,以实现相关性。

其他信息

纽约市出租车和豪华轿车委员会 (TLC):

这些数据由经过出租车和租赁汽车乘客改进计划 (TPEP/LPEP) 授权的技术提供商收集并提供给纽约市出租车和豪车委员会 (TLC)。 行程数据并非由 TLC 创建,并且 TLC 不对这些数据的准确性作出任何陈述。

查看原始数据集位置原始使用条款

名称 数据类型 唯一 值(示例) 说明
doLocationId 字符串 265 161 236 未使用出租车计价器的 TLC 出租车区域。
endLat double 961,994 41.366138 40.75
endLon double 1,144,935 -73.137393 -73.9824
extra double 877 0.5 1.0 其他杂费和附加费。 目前,这仅包含 0.50 美元和 1 美元的高峰时段及夜间收费。
fareAmount double 18,935 6.5 4.5 计价器计算的时间和距离费用。
improvementSurcharge 字符串 60 0.3 0 已针对行程的起步价征收 0.30 美元的改进附加费。 自 2015 年起开始征收改进附加费。
mtaTax double 360 0.5 -0.5 根据使用的计量费率自动触发的 0.50 美元 MTA 税。
passengerCount int 64 1 2 车辆中的乘客人数。 这是由司机输入的值。
paymentType 字符串 6,282 CSH CRD 表示乘客如何支付行程费用的数字代码。 1 = 信用卡;2 = 现金;3 = 免费;4 = 争议;5 = 未知;6 = 失效行程。
puLocationId 字符串 266 237 161 使用了出租车计价器的 TLC 出租车区域。
puMonth int 12 3 5
puYear int 29 2012 2011
rateCodeId int 56 1 2 行程结束时实行的最终费率代码。 1 = 标准费率;2 = JFK;3 = Newark;4 = Nassau 或 Westchester;5 = 议价票价;6 = 拼车。
startLat double 833,016 41.366138 40.7741
startLon double 957,428 -73.137393 -73.9821
storeAndFwdFlag 字符串 8 N 0 此标志指示在发送到供应商(也称为“存储和转发”)之前是否将行程记录保存在车辆内存中,因为车辆没有与服务器的连接。 Y =“存储并转发”行程;N = 非“存储并转发”行程。
tipAmount double 12,121 1.0 2.0 此字段会自动填充信用卡小费。 不包括现金小费。
tollsAmount double 6,634 5.33 4.8 行程中支付的所有通行费总额。
totalAmount double 39,707 7.0 7.8 向乘客收取的总金额。 不含现金小费。
tpepDropoffDateTime 时间戳 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 未使用计价器的日期和时间。
tpepPickupDateTime 时间戳 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 使用了计价器的日期和时间。
tripDistance double 14,003 1.0 0.9 出租车计价器报告的已行驶距离(以英里为单位)。
vendorID 字符串 7 VTS CMT 指示提供该记录的 TPEP 提供商的代码。 1= Creative Mobile Technologies, LLC;2= VeriFone Inc.
vendorID int 2 2 1 指示提供该记录的 LPEP 提供商的代码。 1= Creative Mobile Technologies, LLC;2= VeriFone Inc.

预览

vendorID tpepPickupDateTime tpepDropoffDateTime passengerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount puYear puMonth
2 2088/1/24,凌晨 0:25:39 2088/1/24,早上 7:28:25 1 4.05 24 162 1 N 2 14.5 0 0.5 0.3 0 0 15.3 2088 1
2 2088/1/24,凌晨 0:15:42 2088/1/24,凌晨 0:19:46 1 0.63 41 166 1 N 2 4.5 0 0.5 0.3 0 0 5.3 2088 1
2 2084/11/4,中午 12:32:24 2084/11/4,中午 12:47:41 1 1.34 238 236 1 N 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 2084/11/4,中午 12:25:53 2084/11/4,中午 12:29:00 1 0.32 238 238 1 N 2 4 0 0.5 0.3 0 0 4.8 2084 11
2 2084/11/4,中午 12:08:33 2084/11/4,中午 12:22:24 1 1.85 236 238 1 N 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 2084/11/4,上午 11:41:35 2084/11/4,上午 11:59:41 1 1.65 68 237 1 N 2 12.5 0 0.5 0.3 0 0 13.3 2084 11
2 2084/11/4,上午 11:27:28 2084/11/4,上午 11:39:52 1 1.07 170 68 1 N 2 9 0 0.5 0.3 0 0 9.8 2084 11
2 2084/11/4,上午 11:19:06 2084/11/4,上午 11:26:44 1 1.3 107 170 1 N 2 7.5 0 0.5 0.3 0 0 8.3 2084 11
2 2084/11/4,上午 11:02:59 2084/11/4,上午 11:15:51 1 1.85 113 137 1 N 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 2084/11/4,上午 10:46:05 2084/11/4,上午 10:50:09 1 0.62 231 231 1 N 2 4.5 0 0.5 0.3 0 0 5.3 2084 11

数据访问

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://dori-uw-1.kuma-moon.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

后续步骤

查看开放数据集目录中的其余数据集。