NYC Taxi & Limousine Commission - registros de viagem de táxi verde
Os registos de corridas de "green taxi" incluem campos que registam as datas/horas de recolha e entrega, as localizações de recolha e entrega, as distâncias das corridas, tarifas discriminadas, tipos de taxas, tipos de pagamentos e contagens de passageiros feitas pelo motorista.
Nota
A Microsoft fornece os Conjuntos de Dados Abertos do Azure "no estado em que se encontram". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições em relação ao seu uso dos conjuntos de dados. Na medida permitida pela legislação local, a Microsoft se isenta de qualquer responsabilidade por quaisquer danos ou perdas, incluindo diretos, consequenciais, especiais, indiretos, incidentais ou punitivos, resultantes do uso dos conjuntos de dados por parte do cliente.
Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.
Volume e retenção
Este conjunto de dados é armazenado no formato Parquet. Existem cerca de 80 milhões de linhas (2 GB) no total em 2018.
Este conjunto de dados contém registos históricos acumulados de 2009 a 2018. Pode utilizar as definições de parâmetros no nosso SDK para obter os dados num intervalo de tempo específico.
Localização de armazenamento
Este conjunto de dados é armazenado na região do Azure E.U.A. Leste. A alocação de recursos de computação nos E.U.A. Leste é recomendada por questões de afinidade.
Informações adicionais
Comissão de Táxis e Limusinas (TLC) de Nova Iorque:
Os dados foram recolhidos e fornecidos à Comissão de Táxis e Limusinas (TLC) de Nova Iorque por fornecedores de tecnologia autorizados ao abrigo dos Programas Taxicab e Livery Passenger Enhancement (TPEP/LPEP). Os dados das corridas não foram criados pela TLC, a qual não assume qualquer responsabilidade pela exatidão desses dados.
Exiba o local original do conjunto de dados e os termos de uso originais.
Colunas
Name | Tipo de dados | Exclusivo | Values (sample) | Description |
---|---|---|---|---|
doLocationId | string | 264 | 74 42 | A Zona de Táxi da TLC DOLocationID na qual o taxímetro foi desligado. |
dropoffLatitude | duplo | 109,721 | 40.7743034362793 40.77431869506836 | Descontinuado desde 07 de 2016 em diante |
dropoffLongitude | duplo | 75,502 | -73.95272827148438 -73.95274353027344 | Descontinuado desde 07 de 2016 em diante |
extra | duplo | 202 | 0.5 1.0 | Extras e outras cobranças diversas. Atualmente, só inclui a hora de ponta de 0,50 $ e de 1,00 $ e a bandeirada com a sobretaxa noturna. |
fareAmount | duplo | 10,367 | 6.0 5.5 | A bandeirada de hora e distância calculada pelo taxímetro. |
melhoriaSobretaxa | string | 92 | 0.3 0 | Sobretaxa de melhoria ambiental de 0,30 $ para corridas com clientes apanhados na rua e com bandeirada. A sobretaxa de melhoria começou a ser cobrada em 2015. |
lpepDropoffDatahora | carimbo de data/hora | 58,100,713 | 2016-05-22 00:00:00 2016-05-09 00:00:00 | A data e hora em que o taxímetro foi desativado. |
lpepPickupDatahora | carimbo de data/hora | 58,157,349 | 2013-10-22 12:40:36 2014-08-09 15:54:25 | A data e hora em que o taxímetro foi ativado. |
mtaImposto | duplo | 34 | 0.5 -0.5 | Taxa de 0,50 $ da Área Metropolitana que é acionada automaticamente com base na bandeirada do taxímetro que está a ser utilizada. |
passengerCount | número inteiro | 10 | 1 2 | O número de passageiros no veículo. Este valor é introduzido pelo motorista. |
Tipo de pagamento | número inteiro | 5 | 2 1 | Um código numérico que significa o modo como o passageiro pagou a viagem. 1= Cartão de crédito 2= Dinheiro 3= Sem custos 4= Disputa 5= Desconhecido 6= Viagem anulada |
captaçãoLatitude | duplo | 95,110 | 40.721351623535156 40.721336364746094 | Descontinuado desde 07 de 2016 em diante |
captaçãoLongitude | duplo | 55,722 | -73.84429931640625 -73.84429168701172 | Descontinuado desde 07 de 2016 em diante |
puLocationId | string | 264 | 74 41 | A Zona de Táxi da TLC na qual o taxímetro foi ligado. |
puMês | número inteiro | 12 | 3 5 | |
puAno | número inteiro | 14 | 2015 2016 | |
rateCodeID | número inteiro | 7 | 1 5 | O código da tarifa final em vigor no final da viagem. 1= Taxa normal 2= JFK 3= Newark 4= Nassau ou Westchester 5= Tarifa negociada 6= Viagem de grupo |
storeAndFwdFlag | string | 2 | N Y | Esse sinalizador indica se o registro de viagem foi mantido na memória do veículo antes de enviar ao fornecedor, também conhecido como "armazenar e encaminhar", porque o veículo não tinha uma conexão com o servidor. Y= armazenar e encaminhar viagem N= não é uma loja e viagem de encaminhamento |
gorjetaMontante | duplo | 6,206 | 1.0 2.0 | Montante da gorjeta - este campo é preenchido automaticamente para gorjetas pagas com cartão de crédito. Não inclui gorjetas pagas em dinheiro. |
PortagensMontante | duplo | 2,150 | 5.54 5.76 | Montante total de todas as portagens pagas na viagem. |
totalAmount | duplo | 20,188 | 7.8 6.8 | O montante total cobrado aos passageiros. Não inclui gorjetas pagas em dinheiro. |
tripDistância | duplo | 7,060 | 0.9 1.0 | A distância percorrida da viagem em milhas, conforme mostrada no taxímetro. |
tripType | número inteiro | 3 | 1 2 | Um código que indica se o cliente da corrida foi apanhado na rua ou se ligou para o serviço de táxis que é atribuído automaticamente com base na tarifa do taxímetro em uso, mas que pode ser alterada pelo motorista. 1= Rua-granizo 2= Despacho |
ID do fornecedor | número inteiro | 2 | 2 1 | Um código que indica o fornecedor LPEP que forneceu o registo. 1= Tecnologias Móveis Criativas, LLC; 2= VeriFone Inc. |
Pré-visualizar
ID do fornecedor | lpepPickupDatahora | lpepDropoffDatahora | passengerCount | tripDistância | puLocationId | doLocationId | rateCodeID | storeAndFwdFlag | Tipo de pagamento | fareAmount | extra | mtaImposto | melhoriaSobretaxa | gorjetaMontante | PortagensMontante | totalAmount | tripType | puAno | puMês |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 24/6/2081 17:40:37 | 24/6/2081 18:42:47 | 1 | 16.95 | 93 | 117 | 1 | N | 1 | 52 | 1 | 0.5 | 0.3 | 0 | 2.16 | 55.96 | 1 | 2081 | 6 |
2 | 28/11/2030 12:19:29 | 28/11/2030 12:25:37 | 1 | 1.08 | 42 | 247 | 1 | N | 2 | 6.5 | 0 | 0.5 | 0.3 | 0 | 0 | 7.3 | 1 | 2030 | 11 |
2 | 28/11/2030 12:14:50 | 28/11/2030 12:14:54 | 1 | 0.03 | 42 | 42 | 5 | N | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 5 | 2 | 2030 | 11 |
2 | 14/11/2020 11:38:07 | 14/11/2020 11:42:22 | 1 | 0.63 | 129 | 129 | 1 | N | 2 | 4,5 | 1 | 0.5 | 0.3 | 0 | 0 | 6.3 | 1 | 2020 | 11 |
2 | 14/11/2020 09:55:36 | 14/11/2020 10:04:54 | 1 | 3,8 | 82 | 138 | 1 | N | 2 | 12.5 | 1 | 0.5 | 0.3 | 0 | 0 | 14.3 | 1 | 2020 | 11 |
2 | 26/08/2019 16:18:37 | 26/08/2019 16:19:35 | 1 | 0 | 264 | 264 | 1 | N | 2 | 1 | 0 | 0.5 | 0.3 | 0 | 0 | 1.8 | 1 | 2019 | 8 |
2 | 01/07/2019 08:28:33 | 01/07/2019 08:32:33 | 1 | 0.71 | 7 | 7 | 1 | N | 1 | 5 | 0 | 0.5 | 0.3 | 1.74 | 0 | 7.54 | 1 | 2019 | 7 |
2 | 01/07/2019 12:04:53 | 01/07/2019 12:21:56 | 1 | 2.71 | 223 | 145 | 1 | N | 2 | 13 | 0.5 | 0.5 | 0.3 | 0 | 0 | 14.3 | 1 | 2019 | 7 |
2 | 01/07/2019 12:04:11 | 01/07/2019 12:21:15 | 1 | 3,14 | 166 | 142 | 1 | N | 2 | 14,5 | 0.5 | 0.5 | 0.3 | 0 | 0 | 18.55 | 1 | 2019 | 7 |
2 | 01/07/2019 12:03:37 | 01/07/2019 12:09:27 | 1 | 0,78 | 74 | 74 | 1 | N | 1 | 6 | 0.5 | 0.5 | 0.3 | 1.46 | 0 | 8.76 | 1 | 2019 | 7 |
Acesso a dados
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
# Display data statistic information
display(nyc_tlc_df, summary = True)
Próximos passos
Exiba o restante dos conjuntos de dados no catálogo Open Datasets.