Comissão de táxis e limusines de Nova York – registros de corridas de táxis verdes
Os registros de viagem de táxi verde incluem campos que capturam as datas/horas de partida e chegada, os locais de partida e chegada, as distâncias, as tarifas discriminadas, os tipos de taxa, os tipos de pagamento e as contagens de passageiro relatadas pelo motorista.
Observação
A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.
Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.
Volume e retenção
Este conjunto de dados está armazenado no formato Parquet. Existem cerca de 80 milhões de linhas (2 GB) desde 2018.
Este conjunto de dados contém registros históricos acumulados de 2009 a 2018. Você pode usar as configurações de parâmetro no nosso SDK para buscar dados em um intervalo de tempo específico.
Local de armazenamento
Este conjunto de dados está armazenado na região Leste dos EUA do Azure. É recomendável alocar recursos de computação no Leste dos EUA para afinidade.
Informações adicionais
TLC (Comissão de Táxis e Limusines) de Nova York:
Os dados foram coletados e fornecidos à TLC (Comissão de Táxis e Limusines) de Nova York por provedores de tecnologia autorizados nos TPEP/LPEP (Programas de Melhoria de Táxi e Locação para Passageiros). Os dados de viagem não foram criados pela TLC. A TLC não fornece qualquer garantia quanto à precisão desses dados.
Veja o local original do conjuntos de dados e os termos de uso originais.
Colunas
Nome | Tipo de dados | Exclusivo | Valores (exemplo) | Descrição |
---|---|---|---|---|
doLocationId | string | 264 | 74 42 | DOLocationID Zona de táxi da TLC em que o taxímetro foi desativado. |
dropoffLatitude | double | 109,721 | 40.7743034362793 40.77431869506836 | Preterido desde julho de 2016 |
dropoffLongitude | double | 75,502 | -73.95272827148438 -73.95274353027344 | Preterido desde julho de 2016 |
extra | double | 202 | 0.5 1.0 | Extras e taxas adicionais diversas. No momento, inclui somente as cobranças de US$ 0,50 e US$ 1,00 na hora do rush e pernoite. |
fareAmount | double | 10,367 | 6.0 5.5 | A taxa de tempo e distância calculada pelo medidor. |
improvementSurcharge | string | 92 | 0.3 0 | Taxa adicional de melhoria de US$ 0,30 avaliada em viagens solicitadas na troca de bandeira. A taxa adicional de melhoria começou a ser cobrada em 2015. |
lpepDropoffDatetime | timestamp | 58,100,713 | 2016-05-22 00:00:00 2016-05-09 00:00:00 | Data e hora em que o medidor foi desativado. |
lpepPickupDatetime | timestamp | 58,157,349 | 2013-10-22 12:40:36 2014-08-09 15:54:25 | Data e hora em que o medidor foi ativado. |
mtaTax | double | 34 | 0.5 -0.5 | Taxa de MTA de US$ 0,50 automaticamente acionada com base na taxa medida em uso. |
passengerCount | INT | 10 | 1 2 | O número de passageiros no veículo. Este é um valor inserido pelo condutor. |
paymentType | INT | 5 | 2 1 | Um código numérico que indica como o passageiro pagou pela viagem. 1= Cartão de crédito 2= Em dinheiro 3= Sem cobrança 4= Disputa 5= Desconhecido 6= Viagem anulada |
pickupLatitude | double | 95,110 | 40.721351623535156 40.721336364746094 | Preterido desde julho de 2016 |
pickupLongitude | double | 55,722 | -73.84429931640625 -73.84429168701172 | Preterido desde julho de 2016 |
puLocationId | string | 264 | 74 41 | Zona de Táxi da TLC em que o taxímetro foi ativado. |
puMonth | INT | 12 | 3 5 | |
puYear | INT | 14 | 2015 2016 | |
rateCodeID | INT | 7 | 1 5 | O código da taxa final em vigor ao final da viagem. 1 = Taxa padrão 2 = JFK 3 = Newark 4 = Nassau ou Westchester 5 = Valor negociado 6 = Corrida de grupo |
storeAndFwdFlag | string | 2 | N Y | Esse sinalizador indica se o registro da corrida foi mantido na memória do veículo antes de ser enviado ao fornecedor, também conhecido como "armazenar e encaminhar", porque o veículo não tinha uma conexão com o servidor. Y = armazenar e encaminhar corrida N = não armazenar e encaminhar corrida |
tipAmount | double | 6,206 | 1.0 2.0 | Valor da gorjeta – este campo é preenchido automaticamente em caso de gorjetas pagas com cartão de crédito. Gorjetas em dinheiro não são incluídas. |
tollsAmount | double | 2,150 | 5.54 5.76 | Valor total de todos os pedágios pagos na viagem. |
totalAmount | double | 20,188 | 7.8 6.8 | O valor total cobrado aos passageiros. Não inclui gorjetas em dinheiro. |
tripDistance | double | 7,060 | 0.9 1.0 | A distância percorrida na viagem em milhas, informada pelo taxímetro. |
tripType | INT | 3 | 1 2 | Um código que indica se a viagem foi de rua ou de expedição, atribuído automaticamente com base na taxa medida em uso, mas que pode ser alterado pelo motorista. 1= Corrida não agendada 2= Corrida agendada |
vendorID | INT | 2 | 2 1 | Um código que indica o provedor de LPEP que forneceu o registro. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Versão Prévia
vendorID | lpepPickupDatetime | lpepDropoffDatetime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeID | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | tripType | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 6/24/2081 5:40:37 PM | 6/24/2081 6:42:47 PM | 1 | 16.95 | 93 | 117 | 1 | N | 1 | 52 | 1 | 0,5 | 0.3 | 0 | 2.16 | 55.96 | 1 | 2081 | 6 |
2 | 11/28/2030 12:19:29 AM | 11/28/2030 12:25:37 AM | 1 | 1.08 | 42 | 247 | 1 | N | 2 | 6.5 | 0 | 0,5 | 0.3 | 0 | 0 | 7.3 | 1 | 2030 | 11 |
2 | 11/28/2030 12:14:50 AM | 11/28/2030 12:14:54 AM | 1 | 0.03 | 42 | 42 | 5 | N | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 5 | 2 | 2030 | 11 |
2 | 11/14/2020 11:38:07 AM | 11/14/2020 11:42:22 AM | 1 | 0.63 | 129 | 129 | 1 | N | 2 | 4.5 | 1 | 0,5 | 0.3 | 0 | 0 | 6.3 | 1 | 2020 | 11 |
2 | 11/14/2020 9:55:36 AM | 11/14/2020 10:04:54 AM | 1 | 3.8 | 82 | 138 | 1 | N | 2 | 12.5 | 1 | 0,5 | 0.3 | 0 | 0 | 14,3 | 1 | 2020 | 11 |
2 | 8/26/2019 4:18:37 PM | 8/26/2019 4:19:35 PM | 1 | 0 | 264 | 264 | 1 | N | 2 | 1 | 0 | 0,5 | 0.3 | 0 | 0 | 1.8 | 1 | 2019 | 8 |
2 | 7/1/2019 8:28:33 AM | 7/1/2019 8:32:33 AM | 1 | 0.71 | 7 | 7 | 1 | N | 1 | 5 | 0 | 0,5 | 0.3 | 1.74 | 0 | 7.54 | 1 | 2019 | 7 |
2 | 7/1/2019 12:04:53 AM | 7/1/2019 12:21:56 AM | 1 | 2.71 | 223 | 145 | 1 | N | 2 | 13 | 0,5 | 0,5 | 0.3 | 0 | 0 | 14,3 | 1 | 2019 | 7 |
2 | 7/1/2019 12:04:11 AM | 7/1/2019 12:21:15 AM | 1 | 3.14 | 166 | 142 | 1 | N | 2 | 14,5 | 0,5 | 0,5 | 0.3 | 0 | 0 | 18.55 | 1 | 2019 | 7 |
2 | 7/1/2019 12:03:37 AM | 7/1/2019 12:09:27 AM | 1 | 0,78 | 74 | 74 | 1 | N | 1 | 6 | 0,5 | 0,5 | 0.3 | 1.46 | 0 | 8.76 | 1 | 2019 | 7 |
Acesso de dados
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
# Display data statistic information
display(nyc_tlc_df, summary = True)
Próximas etapas
Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.