Комиссия по такси и лимузинам Нью-Йорка — желтые записи о поездках на такси
Записи поездок в такси, отмеченные желтым, включают такие поля, как время или дата посадки и высадки пассажиров, пункты посадки и высадки, расстояние поездки, детализированные пассажирские тарифы, виды тарифа, виды оплаты и отчет водителя о количестве пассажиров.
Примечание.
Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.
Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.
Объем данных и их хранение
Этот набор данных хранится в формате Parquet. По состоянию на 2018 год он содержит около 1,5 млрд строк (50 ГБ).
Этот набор данных содержит архивные записи, собранные с 2009 по 2018 гг. Вы можете использовать параметры из нашего пакета SDK, чтобы получить данные за определенный диапазон времени.
Место хранения
Этот набор данных хранится в регионе Azure "Восточная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионе "Восточная часть США".
Дополнительная информация:
NYC Taxi and Limousine Commission (TLC).
Данные собраны и предоставлены комиссии NYC Taxi and Limousine Commission (TLC) поставщиками технологий, авторизованными в соответствии с программами Taxicab & Livery Passenger Enhancement (TPEP/LPEP). Данные поездок не создавались TLC, и TLC не несет ответственности за их достоверность.
Просмотрите исходное местоположение набора данных и исходные условия использования.
Столбцы
Имя. | Тип данных | Уникальный | Значения (пример) | Description |
---|---|---|---|---|
doLocationId | строка | 265 | 161 236 | Зона работы такси TLC, в которой был выключен таксометр. |
endLat | двойной точности | 961 994 | 41,366138 40,75 | |
endLon | двойной точности | 1 144 935 | –73,137393 –73,9824 | |
extra | двойной точности | 877 | 0.5 1.0 | Прочие начисления и доплаты. Сейчас включает только доплату в размере 0,50 доллара США и 1 доллар США за милю за поездку в час пик и в ночное время. |
fareAmount | двойной точности | 18 935 | 6,5 4,5 | Время и расстояние поездки по таксометру. |
improvementSurcharge | строка | 60 | 0.3 0 | Начальная фиксированная плата для поездок, по которым после оценки была начислена дополнительная плата в размере 0,30 доллара США за милю. Дополнительная плата взимается с 2015 года. |
mtaTax | двойной точности | 360 | 0.5 -0.5 | Налог MTA в сумме 0,50 доллара США, который автоматически начисляется в зависимости от применяемого тарифа. |
passengerCount | INT | 64 | 1 2 | Количество пассажиров такси. Это значение указывает водитель. |
paymentType | строка | 6282 | CSH CRD | Код способа оплаты поездки пассажиром. 1 = кредитная карта; 2 = наличные; 3 = бесплатно; 4 = спор; 5 = неизвестно; 6 = аннулированная поездка. |
puLocationId | строка | 266 | 237 161 | Зона работы такси TLC, в которой был включен таксометр. |
puMonth | INT | 12 | 5 | |
puYear | INT | 29 | 2012 2011 | |
rateCodeId | INT | 56 | 1 2 | Код тарифа окончательного счета, выставляемого в конце поездки. 1 = стандартный тариф; 2 = аэропорт им. Джона Ф. Кеннеди; 3 = Ньюарк; 4 = Нассау или Вестчестер; 5 = цена договорная; 6 = групповая поездка. |
startLat | двойной точности | 833 016 | 41,366138 40,7741 | |
startLon | двойной точности | 957 428 | –73,137393 –73,9821 | |
storeAndFwdFlag | строка | 8 | N 0 | Данный флаг указывает на то, хранилась ли запись поездки в памяти транспортного средства перед отправкой поставщику, также известная как «сохранение и пересылка», поскольку у транспортного средства не было соединения с сервером. Y = поездка "сохранение и пересылка"; N = не поездка "сохранение и пересылка". |
tipAmount | двойной точности | 12 121 | 1.0 2.0 | Это поле автоматически заполняется для чаевых, оплаченных с помощью кредитной карты. Чаевые в наличной форме не учитываются. |
tollsAmount | двойной точности | 6634 | 5,33 4,8 | Общая сумма сборов, уплаченных во время поездки. |
totalAmount | двойной точности | 39 707 | 7,0 7,8 | Общая сумма, удержанная с пассажиров. Не включает чаевые в наличной форме. |
tpepDropoffDateTime | TIMESTAMP | 290 185 010 | 07.11.2010 01:29:00 03.11.2013 01:22:00 | Дата и время выключения таксометра. |
tpepPickupDateTime | TIMESTAMP | 289 948 585 | 07.11.2010 01:00:00 01.11.2009 01:05:00 | Дата и время включения таксометра. |
tripDistance | двойной точности | 14 003 | 1,0 0,9 | Дальность поездки в милях по таксометру. |
vendorID | строка | 7 | VTS CMT | Код поставщика TPEP, предоставившего запись. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
vendorID | INT | 2 | 2 1 | Код, указывающий поставщика услуг LPEP, который предоставил запись. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Предварительный просмотр
vendorID | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 24.01.2088 00:25:39 | 24.01.2088 07:28:25 | 1 | 4,05 | 24 | 162 | 1 | N | 2 | 14,5 | 0 | 0,5 | 0,3 | 0 | 0 | 15,3 | 2088 | 1 |
2 | 24.01.2088 00:15:42 | 24.01.2088 00:19:46 | 1 | 0,63 | 41 | 166 | 1 | N | 2 | 4,5 | 0 | 0,5 | 0,3 | 0 | 0 | 5,3 | 2088 | 1 |
2 | 04.11.2084 12:32:24 | 04.11.2084 12:47:41 | 1 | 1,34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0,5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 04.11.2084 12:25:53 | 04.11.2084 12:29:00 | 1 | 0,32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0,5 | 0,3 | 0 | 0 | 4,8 | 2084 | 11 |
2 | 04.11.2084 12:08:33 | 04.11.2084 12:22:24 | 1 | 1,85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0,5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 04.11.2084 11:41:35 | 04.11.2084 11:59:41 | 1 | 1,65 | 68 | 237 | 1 | N | 2 | 12.5 | 0 | 0,5 | 0,3 | 0 | 0 | 13,3 | 2084 | 11 |
2 | 04.11.2084 11:27:28 | 04.11.2084 11:39:52 | 1 | 1,07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0,5 | 0,3 | 0 | 0 | 9,8 | 2084 | 11 |
2 | 04.11.2084 11:19:06 | 04.11.2084 11:26:44 | 1 | 1,3 | 107 | 170 | 1 | N | 2 | 7.5 | 0 | 0,5 | 0,3 | 0 | 0 | 8.3 | 2084 | 11 |
2 | 04.11.2084 11:02:59 | 04.11.2084 11:15:51 | 1 | 1,85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0,5 | 0,3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 04.11.2084 10:46:05 | 04.11.2084 10:50:09 | 1 | 0,62 | 231 | 231 | 1 | N | 2 | 4,5 | 0 | 0,5 | 0,3 | 0 | 0 | 5,3 | 2084 | 11 |
Доступ к данным
Записные книжки Azure
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Следующие шаги
Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.