Comissão de Táxis e Limusines de Nova York – registros de corridas de táxis amarelos
Os registros de viagem de táxi amarelo incluem campos que capturam as datas/horas de partida e chegada, os locais de partida e chegada, as distâncias, as tarifas discriminadas, os tipos de taxa, os tipos de pagamento e as contagens de passageiro relatadas pelo motorista.
Observação
A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.
Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.
Volume e retenção
Este conjunto de dados está armazenado no formato Parquet. Há cerca de 1,5 bilhão de linhas (50 GB) no total desde 2018.
Este conjunto de dados contém registros históricos acumulados de 2009 a 2018. Você pode usar as configurações de parâmetro no nosso SDK para buscar dados em um intervalo de tempo específico.
Local de armazenamento
Este conjunto de dados está armazenado na região Leste dos EUA do Azure. É recomendável alocar recursos de computação no Leste dos EUA para afinidade.
Informações adicionais
TLC (Comissão de Táxis e Limusines) de Nova York:
Os dados foram coletados e fornecidos à TLC (Comissão de Táxis e Limusines) de Nova York por provedores de tecnologia autorizados nos TPEP/LPEP (Programas de Melhoria de Táxi e Locação para Passageiros). Os dados de viagem não foram criados pela TLC. A TLC não fornece qualquer garantia quanto à precisão desses dados.
Veja o local original do conjuntos de dados e os termos de uso originais.
Colunas
Nome | Tipo de dados | Exclusivo | Valores (exemplo) | Descrição |
---|---|---|---|---|
doLocationId | string | 265 | 161 236 | Zona de Táxi da TLC em que o taxímetro foi desativado. |
endLat | double | 961,994 | 41.366138 40.75 | |
endLon | double | 1,144,935 | -73.137393 -73.9824 | |
extra | double | 877 | 0.5 1.0 | Extras e taxas adicionais diversas. No momento, inclui somente as cobranças de US$ 0,50 e US$ 1,00 na hora do rush e pernoite. |
fareAmount | double | 18,935 | 6.5 4.5 | A taxa de tempo e distância calculada pelo medidor. |
improvementSurcharge | string | 60 | 0.3 0 | Taxa adicional de melhoria de US$ 0,30 avaliada em viagens na troca de bandeira. A taxa adicional de melhoria começou a ser cobrada em 2015. |
mtaTax | double | 360 | 0.5 -0.5 | Taxa de MTA de US$ 0,50 automaticamente acionada com base na taxa medida em uso. |
passengerCount | INT | 64 | 1 2 | O número de passageiros no veículo. Este é um valor inserido pelo condutor. |
paymentType | string | 6\.282 | CSH CRD | Um código numérico que indica como o passageiro pagou pela viagem. 1= Cartão de crédito, 2= Em dinheiro, 3= Sem cobrança, 4= Disputa, 5= Desconhecido, 6= Viagem anulada. |
puLocationId | string | 266 | 237 161 | Zona de Táxi da TLC em que o taxímetro foi ativado. |
puMonth | INT | 12 | 3 5 | |
puYear | INT | 29 | 2012 2011 | |
rateCodeId | INT | 56 | 1 2 | O código da taxa final em vigor ao final da viagem. 1 = Taxa padrão, 2 = JFK, 3 = Newark, 4 = Nassau ou Westchester, 5 = Valor negociado, 6 = Corrida de grupo. |
startLat | double | 833,016 | 41.366138 40.7741 | |
startLon | double | 957,428 | -73.137393 -73.9821 | |
storeAndFwdFlag | string | 8 | N 0 | Esse sinalizador indica se o registro da corrida foi mantido na memória do veículo antes de ser enviado ao fornecedor, também conhecido como "armazenar e encaminhar", porque o veículo não tinha uma conexão com o servidor. Y = armazenar e encaminhar corrida, N = não armazenar e encaminhar corrida. |
tipAmount | double | 12,121 | 1.0 2.0 | Este campo é preenchido automaticamente com as gorjetas de cartão de crédito. Gorjetas em dinheiro não são incluídas. |
tollsAmount | double | 6,634 | 5.33 4.8 | Valor total de todos os pedágios pagos na viagem. |
totalAmount | double | 39,707 | 7.0 7.8 | O valor total cobrado aos passageiros. Não inclui gorjetas em dinheiro. |
tpepDropoffDateTime | timestamp | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | Data e hora em que o medidor foi desativado. |
tpepPickupDateTime | timestamp | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | Data e hora em que o medidor foi ativado. |
tripDistance | double | 14,003 | 1.0 0.9 | A distância percorrida na viagem em milhas, informada pelo taxímetro. |
vendorID | string | 7 | VTS CMT | Código que indica o provedor de TPEP que forneceu o registro. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
vendorID | INT | 2 | 2 1 | Um código que indica o provedor de LPEP que forneceu o registro. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Versão Prévia
vendorID | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 1/24/2088 12:25:39 AM | 1/24/2088 7:28:25 AM | 1 | 4.05 | 24 | 162 | 1 | N | 2 | 14,5 | 0 | 0,5 | 0.3 | 0 | 0 | 15.3 | 2088 | 1 |
2 | 1/24/2088 12:15:42 AM | 1/24/2088 12:19:46 AM | 1 | 0.63 | 41 | 166 | 1 | N | 2 | 4.5 | 0 | 0,5 | 0.3 | 0 | 0 | 5,3 | 2088 | 1 |
2 | 11/4/2084 12:32:24 PM | 11/4/2084 12:47:41 PM | 1 | 1.34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0,5 | 0.3 | 0 | 0 | 10,8 | 2084 | 11 |
2 | 11/4/2084 12:25:53 PM | 11/4/2084 12:29:00 PM | 1 | 0,32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0,5 | 0.3 | 0 | 0 | 4.8 | 2084 | 11 |
2 | 11/4/2084 12:08:33 PM | 11/4/2084 12:22:24 PM | 1 | 1.85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0,5 | 0.3 | 0 | 0 | 10,8 | 2084 | 11 |
2 | 11/4/2084 11:41:35 AM | 11/4/2084 11:59:41 AM | 1 | 1.65 | 68 | 237 | 1 | N | 2 | 12.5 | 0 | 0,5 | 0.3 | 0 | 0 | 13.3 | 2084 | 11 |
2 | 11/4/2084 11:27:28 AM | 11/4/2084 11:39:52 AM | 1 | 1.07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0,5 | 0.3 | 0 | 0 | 9.8 | 2084 | 11 |
2 | 11/4/2084 11:19:06 AM | 11/4/2084 11:26:44 AM | 1 | 1,3 | 107 | 170 | 1 | N | 2 | 7.5 | 0 | 0,5 | 0.3 | 0 | 0 | 8.3 | 2084 | 11 |
2 | 11/4/2084 11:02:59 AM | 11/4/2084 11:15:51 AM | 1 | 1.85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0,5 | 0.3 | 0 | 0 | 10,8 | 2084 | 11 |
2 | 11/4/2084 10:46:05 AM | 11/4/2084 10:50:09 AM | 1 | 0.62 | 231 | 231 | 1 | N | 2 | 4.5 | 0 | 0,5 | 0.3 | 0 | 0 | 5,3 | 2084 | 11 |
Acesso de dados
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Próximas etapas
Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.