Комиссия по такси и лимузинам Нью-Йорка — записи о поездках на прокатном транспорте (служба FHV)
Записи о поездках, предоставленные For-Hire Vehicle (FHV), которые содержат поля с номером лицензии в диспетчерском центре, дату и время посадки пассажиров, а также идентификатор местоположения такси (файл ниже). Эти записи формируются на основе записей о поездках, отправляемых из баз компании FHV.
Примечание.
Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.
Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.
Объем данных и их хранение
Этот набор данных хранится в формате Parquet. По состоянию на 2018 г. он включал около 500 млн строк (5 ГБ).
Этот набор данных содержит архивные записи, собранные с 2009 по 2018 гг. Вы можете использовать параметры из нашего пакета SDK, чтобы получить данные за определенный диапазон времени.
Место хранения
Этот набор данных хранится в регионе Azure "Восточная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионе "Восточная часть США".
Дополнительная информация:
NYC Taxi and Limousine Commission (TLC).
Данные собраны и предоставлены комиссии NYC Taxi and Limousine Commission (TLC) поставщиками технологий, авторизованными в соответствии с программами Taxicab & Livery Passenger Enhancement (TPEP/LPEP). Данные поездок не создавались TLC, и TLC не несет ответственности за их достоверность.
Просмотрите исходное местоположение набора данных и исходные условия использования.
Столбцы
Имя. | Тип данных | Уникальный | Значения (пример) | Description |
---|---|---|---|---|
dispatchBaseNum | строка | 1144 | B02510 B02764 | Номер лицензии базы отправки TLC, которая обслуживала поездку |
doLocationId | строка | 267 | 265 132 | Зона работы такси TLC, в которой завершилась поездка. |
dropOffDateTime | TIMESTAMP | 57110352 | 2017-07-31 23:59:00 2017-10-15 00:44:34 | Дата и время высадки пассажира. |
pickupDateTime | TIMESTAMP | 111270396 | 2016-08-16 00:00:00 2016-08-17 00:00:00 | Дата и время посадки пассажиров. |
puLocationId | строка | 266 | 79 161 | Зона работы такси TLC, в которой началась поездка. |
puMonth | INT | 12 | 1 12 | |
puYear | INT | 5 | 2018 2017 | |
srFlag | строка | 44 | 1 2 | Указывает, была ли поездка частью цепочки совместных поездок, которую предоставляет компания прокатных автомобилей (например, Uber Pool, Lyft Line). Для общих поездок используется значение 1. Для остальных поездок используется значение null. ПРИМЕЧАНИЕ. Для большинства компаний FHV с высоким объемом, только общие поездки, которые были запрошены И соответствуют другому запросу общей поездки в течение путешествия помечаются. Однако Lyft (базовые номера лицензий B02510 + B02844) также отмечает поездки, для которых была запрошена совместная поездка, но не был успешно сопоставлен другой пассажир. Таким образом, записи с параметром SR_Flag=1 от этих двух баз могут указывать ЛИБО первую поездку в цепочке, ЛИБО ту поездку, для которой было запрошено совместное путешествие, но не был найден попутчик. Пользователям следует учитывать, что число совместных поездок, успешно завершенных компанией Lyft, может быть завышено. |
Предварительный просмотр
dispatchBaseNum | pickupDateTime | dropOffDateTime | puLocationId | doLocationId | srFlag | puYear | puMonth |
---|---|---|---|---|---|---|---|
B03157 | 6/30/2019 11:59:57 PM | 7/1/2019 12:07:21 AM | 264 | null | null | 2019 | 6 |
B01667 | 6/30/2019 11:59:56 PM | 7/1/2019 12:28:06 AM | 264 | null | null | 2019 | 6 |
B02849 | 6/30/2019 11:59:55 PM | 7/1/2019 12:14:10 AM | 264 | null | null | 2019 | 6 |
B02249 | 6/30/2019 11:59:53 PM | 7/1/2019 12:15:53 AM | 264 | null | null | 2019 | 6 |
B00887 | 6/30/2019 11:59:48 PM | 7/1/2019 12:29:29 AM | 264 | null | null | 2019 | 6 |
B01626 | 6/30/2019 11:59:45 PM | 7/1/2019 12:18:20 AM | 264 | null | null | 2019 | 6 |
B01259 | 6/30/2019 11:59:44 PM | 7/1/2019 12:03:15 AM | 264 | null | null | 2019 | 6 |
B01145 | 6/30/2019 11:59:43 PM | 7/1/2019 12:11:15 AM | 264 | null | null | 2019 | 6 |
B00887 | 6/30/2019 11:59:42 PM | 7/1/2019 12:34:21 AM | 264 | null | null | 2019 | 6 |
B00821 | 6/30/2019 11:59:40 PM | 7/1/2019 12:02:57 AM | 264 | null | null | 2019 | 6 |
Доступ к данным
Записные книжки Azure
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Следующие шаги
Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.