NYC 택시 및 리무진 협회 - FHV(임대 차량) 여행 기록
“FHV”(For-Hire Vehicle) 이동 레코드에는 배차 기준 라이선스 번호 및 픽업 날짜/시간, 택시 승차 구역 위치 ID(아래의 도형 파일)를 캡처하는 필드가 포함됩니다. 이러한 레코드는 기준에 따라 제출된 FHV 이동 레코드에서 생성됩니다.
참고 항목
Microsoft는 Azure Open Datasets를 “있는 그대로” 제공합니다. Microsoft는 귀하의 데이터 세트 사용과 관련하여 어떠한 명시적이거나 묵시적인 보증, 보장 또는 조건을 제공하지 않습니다. 귀하가 거주하는 지역의 법규가 허용하는 범위 내에서 Microsoft는 귀하의 데이터 세트 사용으로 인해 발생하는 일체의 직접적, 결과적, 특별, 간접적, 부수적 또는 징벌적 손해 또는 손실을 비롯한 모든 손해 또는 손실에 대한 모든 책임을 부인합니다.
이 데이터 세트는 Microsoft가 원본 데이터를 받은 원래 사용 약관에 따라 제공됩니다. 데이터 세트에는 Microsoft가 제공한 데이터가 포함될 수 있습니다.
볼륨 및 보존
이 데이터 세트는 Parquet 형식으로 저장됩니다. 2018년 기준 약 5억 개의 행(5GB)이 있습니다.
이 데이터 세트는 2009년부터 2018년까지 누적된 기록 레코드를 포함합니다. SDK의 매개 변수 설정을 사용하여 특정 시간 범위의 데이터를 가져올 수 있습니다.
스토리지 위치
이 데이터 세트는 미국 동부 Azure 지역에 저장됩니다. 선호도를 위해 미국 동부에 컴퓨팅 리소스를 할당하는 것이 좋습니다.
추가 정보
NYC TLC(택시 및 리무진 위원회):
데이터는 TPEP/LPEP(Taxicab & Livery Passenger Enhancement Programs)에 따라 승인된 기술 공급 기업에 의해 수집되어 NYC TLC(택시 및 리무진 위원회)에 제공되었습니다. 이동 데이터는 TLC에서 만든 것이 아니며, TLC는 이 데이터의 정확성에 관해 어떠한 진술도 하지 않습니다.
원래 데이터 세트 위치 및 원래 사용 약관을 확인합니다.
열
이름 | 데이터 형식 | 고유한 | 값(샘플) | 설명 |
---|---|---|---|---|
dispatchBaseNum | string | 1,144 | B02510 B02764 | 차량을 배차한 기지 본사의 TLC 기본 라이선스 번호 |
doLocationId | string | 267 | 265 132 | 이동이 끝난 TLC 택시 승차 구역입니다. |
dropOffDateTime | timestamp | 57,110,352 | 2017-07-31 23:59:00 2017-10-15 00:44:34 | 이동 하차 날짜 및 시간입니다. |
pickupDateTime | timestamp | 111,270,396 | 2016-08-16 00:00:00 2016-08-17 00:00:00 | 이동 승차 날짜 및 시간입니다. |
puLocationId | string | 266 | 79 161 | 이동이 시작된 TLC 택시 승차 구역입니다. |
puMonth | int | 12 | 1 12 | |
puYear | int | 5 | 2018 2017 | |
srFlag | string | 44 | 1 2 | 이동이 승차 공유 서비스(예: Uber Pool, Lyft Line)에서 제공한 공유 승차 체인의 일부였는지를 나타냅니다. 공유 이동의 경우 값은 1입니다. 비공유 승차의 경우 이 필드는 null입니다. 참고: 대부분의 대량 FHV 회사의 경우, 요청되었으며 여행 과정에서 다른 공유 라이드 요청과 일치하는 공유 라이드만 표시됩니다. 그러나 Lyft(기본 라이선스 번호 B02510 + B02844)는 요청되었지만 다른 승객이 성공적으로 이동 공유와 일치하지 않은 공유 승차에도 승차 플래그를 지정하므로, 해당 두 기본에서 SR_Flag=1인 이동 레코드는 공유 이동 체인의 첫 번째 이동을 나타내거나, 공유 승차가 요청되었지만 일치하지 않은 이동을 나타낼 수 있습니다. 사용자는 Lyft에 의해 완료된 성공적으로 공유된 이동 수가 실제보다 크다는 사실을 예상해야 합니다. |
미리 보기를
dispatchBaseNum | pickupDateTime | dropOffDateTime | puLocationId | doLocationId | srFlag | puYear | puMonth |
---|---|---|---|---|---|---|---|
B03157 | 6/30/2019 11:59:57 PM | 7/1/2019 12:07:21 AM | 264 | null | null | 2019 | 6 |
B01667 | 6/30/2019 11:59:56 PM | 7/1/2019 12:28:06 AM | 264 | null | null | 2019 | 6 |
B02849 | 6/30/2019 11:59:55 PM | 7/1/2019 12:14:10 AM | 264 | null | null | 2019 | 6 |
B02249 | 6/30/2019 11:59:53 PM | 7/1/2019 12:15:53 AM | 264 | null | null | 2019 | 6 |
B00887 | 6/30/2019 11:59:48 PM | 7/1/2019 12:29:29 AM | 264 | null | null | 2019 | 6 |
B01626 | 6/30/2019 11:59:45 PM | 7/1/2019 12:18:20 AM | 264 | null | null | 2019 | 6 |
B01259 | 6/30/2019 11:59:44 PM | 7/1/2019 12:03:15 AM | 264 | null | null | 2019 | 6 |
B01145 | 6/30/2019 11:59:43 PM | 7/1/2019 12:11:15 AM | 264 | null | null | 2019 | 6 |
B00887 | 6/30/2019 11:59:42 PM | 7/1/2019 12:34:21 AM | 264 | null | null | 2019 | 6 |
B00821 | 6/30/2019 11:59:40 PM | 7/1/2019 12:02:57 AM | 264 | null | null | 2019 | 6 |
데이터 액세스
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcFhv
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcFhv(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
다음 단계
Open Datasets 카탈로그에서 나머지 데이터 세트를 봅니다.