你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
黄色的出租车行程记录包括捕获以下信息的字段:上车和下车日期/时间、上车和下车位置、行程距离、逐条记录的车费、费率类型、付款类型和司机报告的乘客数。
注意
Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。
此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。
数量和保留期
此数据集以 Parquet 格式存储。 截至 2018 年,总共约有 15 亿行 (50 GB)。 从 2019 年开始,大批量行程记录被单独记录。
此数据集包含从 2009 年到 2025 年累积的历史记录。 可使用我们的 SDK 中的参数设置来提取特定时间范围内的数据。
存储位置
此数据集存储在美国东部 Azure 区域。 建议将计算资源分配到美国东部地区,以实现相关性。
其他信息
纽约市出租车和豪华轿车委员会 (TLC):
这些数据由经过出租车和租赁汽车乘客改进计划 (TPEP/LPEP) 授权的技术提供商收集并提供给纽约市出租车和豪车委员会 (TLC)。 行程数据并非由 TLC 创建,并且 TLC 不对这些数据的准确性作出任何陈述。
列
| 名称 | 数据类型 | 唯一 | 值(示例) | 说明 |
|---|---|---|---|---|
| doLocationId | 字符串 | 265 | 161 236 | 未使用出租车计价器的 TLC 出租车区域。 |
| endLat | double | 961,994 | 41.366138 40.75 | |
| endLon | double | 1,144,935 | -73.137393 -73.9824 | |
| extra | double | 877 | 0.5 1.0 | 其他杂费和附加费。 目前,这仅包含 0.50 美元和 1 美元的高峰时段及夜间收费。 |
| fareAmount | double | 18,935 | 6.5 4.5 | 计价器计算的时间和距离费用。 |
| improvementSurcharge | 字符串 | 60 | 0.3 0 | 已针对行程的起步价征收 0.30 美元的改进附加费。 自 2015 年起开始征收改进附加费。 |
| mtaTax | double | 360 | 0.5 -0.5 | 根据使用的计量费率自动触发的 0.50 美元 MTA 税。 |
| passengerCount | int | 64 | 1 2 | 车辆中的乘客人数。 这是由司机输入的值。 |
| paymentType | 字符串 | 6,282 | CSH CRD | 表示乘客如何支付行程费用的数字代码。 1 = 信用卡;2 = 现金;3 = 免费;4 = 争议;5 = 未知;6 = 失效行程。 |
| puLocationId | 字符串 | 266 | 237 161 | 使用了出租车计价器的 TLC 出租车区域。 |
| puMonth | int | 12 | 3 5 | |
| puYear | int | 29 | 2012 2011 | |
| rateCodeId | int | 56 | 1 2 | 行程结束时实行的最终费率代码。 1 = 标准费率;2 = JFK;3 = Newark;4 = Nassau 或 Westchester;5 = 议价票价;6 = 拼车。 |
| startLat | double | 833,016 | 41.366138 40.7741 | |
| startLon | double | 957,428 | -73.137393 -73.9821 | |
| storeAndFwdFlag | 字符串 | 8 | N 0 | 此标志指示在发送到供应商(也称为“存储和转发”)之前是否将行程记录保存在车辆内存中,因为车辆没有与服务器的连接。 Y =“存储并转发”行程;N = 非“存储并转发”行程。 |
| tipAmount | double | 12,121 | 1.0 2.0 | 此字段会自动填充信用卡小费。 不包括现金小费。 |
| tollsAmount | double | 6,634 | 5.33 4.8 | 行程中支付的所有通行费总额。 |
| totalAmount | double | 39,707 | 7.0 7.8 | 向乘客收取的总金额。 不含现金小费。 |
| tpepDropoffDateTime | 时间戳 | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | 未使用计价器的日期和时间。 |
| tpepPickupDateTime | 时间戳 | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | 使用了计价器的日期和时间。 |
| tripDistance | double | 14,003 | 1.0 0.9 | 出租车计价器报告的已行驶距离(以英里为单位)。 |
| vendorID | 字符串 | 7 | VTS CMT | 指示提供该记录的 TPEP 提供商的代码。 1= Creative Mobile Technologies, LLC;2= VeriFone Inc. |
| vendorID | int | 2 | 2 1 | 指示提供该记录的 LPEP 提供商的代码。 1= Creative Mobile Technologies, LLC;2= VeriFone Inc. |
预览
| vendorID | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | puYear | puMonth |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2 | 2088/1/24,凌晨 0:25:39 | 2088/1/24,早上 7:28:25 | 1 | 4.05 | 24 | 162 | 1 | N | 2 | 14.5 | 0 | 0.5 | 0.3 | 0 | 0 | 15.3 | 2088 | 1 |
| 2 | 2088/1/24,凌晨 0:15:42 | 2088/1/24,凌晨 0:19:46 | 1 | 0.63 | 41 | 166 | 1 | N | 2 | 4.5 | 0 | 0.5 | 0.3 | 0 | 0 | 5.3 | 2088 | 1 |
| 2 | 2084/11/4,中午 12:32:24 | 2084/11/4,中午 12:47:41 | 1 | 1.34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
| 2 | 2084/11/4,中午 12:25:53 | 2084/11/4,中午 12:29:00 | 1 | 0.32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0.5 | 0.3 | 0 | 0 | 4.8 | 2084 | 11 |
| 2 | 2084/11/4,中午 12:08:33 | 2084/11/4,中午 12:22:24 | 1 | 1.85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
| 2 | 2084/11/4,上午 11:41:35 | 2084/11/4,上午 11:59:41 | 1 | 1.65 | 68 | 237 | 1 | N | 2 | 12.5 | 0 | 0.5 | 0.3 | 0 | 0 | 13.3 | 2084 | 11 |
| 2 | 2084/11/4,上午 11:27:28 | 2084/11/4,上午 11:39:52 | 1 | 1.07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0.5 | 0.3 | 0 | 0 | 9.8 | 2084 | 11 |
| 2 | 2084/11/4,上午 11:19:06 | 2084/11/4,上午 11:26:44 | 1 | 1.3 | 107 | 170 | 1 | N | 2 | 7.5 | 0 | 0.5 | 0.3 | 0 | 0 | 8.3 | 2084 | 11 |
| 2 | 2084/11/4,上午 11:02:59 | 2084/11/4,上午 11:15:51 | 1 | 1.85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
| 2 | 2084/11/4,上午 10:46:05 | 2084/11/4,上午 10:50:09 | 1 | 0.62 | 231 | 231 | 1 | N | 2 | 4.5 | 0 | 0.5 | 0.3 | 0 | 0 | 5.3 | 2084 | 11 |
数据访问
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://dori-uw-1.kuma-moon.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
后续步骤
查看开放数据集目录中的其余数据集。