COVID-19 追蹤專案
COVID Tracking Project 資料集可提供美國各州和領土的最新檢測數量、確診案例數量、住院治療數量和患者的治療結果數據。
如需此資料集的詳細資訊,請參閱專案 GitHub 存放庫。
注意
Microsoft 依「現況」提供 Azure 開放資料集。 針對 貴用戶對資料集的使用方式,Microsoft 不提供任何明示或默示的擔保、保證或條件。 在 貴用戶當地法律允許的範圍內,針對因使用資料集而導致的任何直接性、衍生性、特殊性、間接性、附隨性或懲罰性損害或損失,Microsoft 概不承擔任何責任。
此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。
資料集
已修改的資料集版本提供 CSV、JSON、JSON-Lines 與 Parquet 格式。
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.csv
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.json
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.jsonl
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet
所有已修改的版本皆新增了 ISO 3166 次級行政區代碼和載入時間,並使用以底線分隔的小寫資料行名稱。
未經處理資料:'https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/latest/daily.json'
已修改及未經處理的舊版資料:https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/
https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/
資料量
所有資料集都會每天更新。 截至 2020 年 5月 13 日為止,這些資料集包含了 4,100 個資料列 (CSV 574 KB、JSON 1.8 MB、JSONL 1.8 MB、Parquet 334 KB)。
資料來源
此資料最初由 Atlantic 的 COVID Tracking Project 發佈。 系統會使用 states_daily_4p_et.csv 檔案從 COVID 追蹤 GitHub 存放庫擷取未經處理的資料。 如需這個資料集的詳細資訊及其 COVID 追蹤專案 API 的原點,請參閱專案 GitHub 存放庫。
資料品質
COVID 追蹤專案會對各州的資料品質進行評等,並提供資料品質評量的進一步資訊。 如需詳細資訊,請參閱 COVID 追蹤專案資料分頁。 GitHub 存放庫中的資料可能落後 API 資料一小時;因此若要存取最新資料,就必須使用 API。
授權和使用權限出處
此資料是根據 Apache 2.0 授權版本之條款及條件。
該資料的一切使用,均必需保留所有著作權、專利、商標和出處聲明。
連絡人
對於新型冠狀病毒 (COVID-19) Data Lake 中的這個資料集或其他資料集如有任何問題,請連絡 askcovid19dl@microsoft.com。
資料行
名稱 | 資料類型 | 唯一 | Values (sample) | 描述 |
---|---|---|---|---|
date | date | 420 | 2020-11-10 2021-01-30 | 收集每日總人數的日期。 |
date_checked | 字串 | 9,487 | 2020-12-01T00:00:00Z 2020-09-01T00:00:00Z | 已取代 |
死亡 | smallint | 7,327 | 2 5 | 到目前為止,因新型冠狀病毒 (COVID-19) 而死亡的總人數。 |
death_increase | smallint | 429 | 1 和 2 | 已取代 |
fips | smallint | 56 | 26 55 | 人口普查聯邦資訊處理標準 (FIPS) 州代碼 |
fips_code | 字串 | 60 | 53 25 | 人口普查聯邦資訊處理標準 (FIPS) 州代碼 |
雜湊 | 字串 | 20,780 | 63df8cccd23a5476bab2d8111b138e4c9becd35e c606cd6990f16086b5382e12d84f6206172d493d | 這筆記錄的雜湊 |
住院 | int | 7,641 | 89995 4 | 已取代 |
hospitalized_cumulative | int | 7,641 | 89995 4 | 到目前為止,因新型冠狀病毒 (COVID-19) 而前往醫院就診的總人數,包括之後康復或死亡者。 |
hospitalized_currently | smallint | 3,886 | 8 13 | 在這天,因新型冠狀病毒 (COVID-19) 而住院的人數。 |
hospitalized_increase | smallint | 615 | 1 和 2 | 已取代 |
in_icu_cumulative | smallint | 2,295 | 990 220 | 到目前為止,因新型冠狀病毒 (COVID-19) 而進入加護病房 (ICU) 的總人數,包括之後康復或死亡者。 |
in_icu_currently | smallint | 1,643 | 2 8 | 在這天,因新型冠狀病毒 (COVID-19) 而進入加護病房 (ICU) 的總人數。 |
iso_country | 字串 | 1 | 美國 | ISO 3166 國碼或地區碼 |
iso_subdivision | 字串 | 57 | US-UM US-WA | ISO 3166 子行政區代碼 |
last_update_et | timestamp | 9,487 | 2020-12-01 00:00:00 2020-09-01 00:00:00 | 這天資料的上次更新時間 |
load_time | timestamp | 1 | 2021-04-26 00:06:49.883000 | 將資料從來源載入 Azure 的日期和時間 |
negative | int | 10,864 | 305972 2140 | 到目前為止,曾接受新型冠狀病毒 (COVID-19) 檢測並呈現陰性的總人數。 |
negative_increase | int | 7,328 | 6 17 | 已取代 |
on_ventilator_cumulative | smallint | 677 | 411 412 | 到目前為止,因新型冠狀病毒 (COVID-19) 而使用人工呼吸器的總人數,包括之後康復或死亡者。 |
on_ventilator_currently | smallint | 837 | 4 10 | 在這天,因新型冠狀病毒 (COVID-19) 而使用人工呼吸器的人數。 |
暫止 | smallint | 944 | 2 17 | 檢測結果未定的檢測數。 |
pos_neg | int | 18,282 | 2140 2 | 已取代 |
positive | int | 16,837 | 2 1 | 到目前為止,曾接受新型冠狀病毒 (COVID-19) 檢測並呈現陽性的總人數。 |
positive_increase | smallint | 4,754 | 1 和 2 | 已取代 |
已復原 | int | 8,286 | 29 19 | 到目前為止,曾感染新型冠狀病毒 (COVID-19) 而康復的總人數。 |
state | 字串 | 56 | MI PA | 二個字母的州代碼。 |
總計 | int | 18,283 | 2140 2 | 已取代 |
total_test_results | int | 18,648 | 2140 3 | 州提供的檢測結果總計 |
total_test_results_increase | int | 13,463 | 1 和 2 | 已取代 |
預覽
date | state | positive | hospitalized_currently | hospitalized_cumulative | on_ventilator_currently | data_quality_grade | last_update_et | 雜湊 | date_checked | 死亡 | 住院 | 總計 | total_test_results | pos_neg | fips | death_increase | hospitalized_increase | negative_increase | positive_increase | total_test_results_increase | fips_code | iso_subdivision | load_time | iso_country | negative | in_icu_cumulative | on_ventilator_cumulative | 已復原 | in_icu_currently |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2021-03-07 | AK | 56886 | 33 | 1,293 | 2 | null | 3/5/2021 3:59:00 AM | dc4bccd4bb885349d7e94d6fed058e285d4be164 | 3/5/2021 3:59:00 AM | 305 | 1,293 | 56886 | 1731628 | 56886 | 2 | 0 | 0 | 0 | 0 | 0 | 2 | US-AK | 4/26/2021 12:06:49 AM | 美國 | |||||
2021-03-07 | AL | 499819 | 494 | 45976 | null | 3/7/2021 11:00:00 AM | 997207b430824ea40b8eb8506c19a93e07bc972e | 3/7/2021 11:00:00 AM | 10148 | 45976 | 2431530 | 2323788 | 2431530 | 1 | -1 | 0 | 2087 | 408 | 23:47 | 1 | US-AL | 4/26/2021 12:06:49 AM | 美國 | 1931711 | 2,676 | 1515 | 295690 | ||
2021-03-07 | AR | 324818 | 335 | 14926 | 65 | null | 3/7/2021 12:00:00 AM | 50921aeefba3e30d31623aa495b47fb2ecc72fae | 3/7/2021 12:00:00 AM | 5319 | 14926 | 2805534 | 2736442 | 2805534 | 5 | 22 | 11 | 3,267 | 165 | 3380 | 5 | US-AR | 4/26/2021 12:06:49 AM | 美國 | 2480716 | 1533 | 315517 | 141 | |
2021-03-07 | AS | 0 | null | 12/1/2020 12:00:00 AM | 96d23f888c995b9a7f3b4b864de6414f45c728ff | 12/1/2020 12:00:00 AM | 0 | 2140 | 2140 | 2140 | 60 | 0 | 0 | 0 | 0 | 0 | 60 | US-AS | 4/26/2021 12:06:49 AM | 美國 | 2140 | ||||||||
2021-03-07 | AZ | 826454 | 963 | 57907 | 143 | null | 3/7/2021 12:00:00 AM | 0437a7a96f4471666f775e63e86923eb5cbd8cdf | 3/7/2021 12:00:00 AM | 16,328 | 57907 | 3899464 | 7908105 | 3899464 | 4 | 5 | 44 | 13678 | 13:35 | 45110 | 4 | US-AZ | 4/26/2021 12:06:49 AM | 美國 | 3073010 | 273 | |||
2021-03-07 | CA | 3501394 | 4291 | null | 3/7/2021 2:59:00 AM | 63c5c0fd2daef2fb65150e9db486de98ed3f7b72 | 3/7/2021 2:59:00 AM | 3501394 | 49646014 | 3501394 | 6 | 258 | 0 | 0 | 3816 | 133186 | 6 | US-CA | 4/26/2021 12:06:49 AM | 美國 | 1,159 | ||||||||
2021-03-07 | CO | 436602 | 326 | 23904 | null | 3/7/2021 1:59:00 AM | 444746cda3a596f183f3fa3269c8cab68704e819 | 3/7/2021 1:59:00 AM | 5989 | 23904 | 2636060 | 6415123 | 2636060 | 8 | 3 | 18 | 0 | 840 | 38163 | 8 | US-CO | 4/26/2021 12:06:49 AM | 美國 | 2199458 | |||||
2021-03-07 | CT | 285330 | 428 | 12257 | null | 3/4/2021 11:59:00 PM | bcc0f7bc8c2bf77eec31b25f8b59d510f679d3e7 | 3/4/2021 11:59:00 PM | 7704 | 12257 | 285330 | 6520366 | 285330 | 9 | 0 | 0 | 0 | 0 | 0 | 9 | US-CT | 4/26/2021 12:06:49 AM | 美國 | ||||||
2021-03-07 | DC | 41419 | 150 | 16 | null | 3/6/2021 12:00:00 AM | a3aa0d623d538807fb9577ad64354f48cf728cc8 | 3/6/2021 12:00:00 AM | 1030 | 41419 | 1261363 | 41419 | 11 | 0 | 0 | 0 | 146 | 5726 | 11 | US-DC | 4/26/2021 12:06:49 AM | 美國 | 29570 | 38 | |||||
2021-03-07 | DE | 88354 | 104 | null | 3/6/2021 6:00:00 PM | 059d870e689d5cc19c35f5eb398214d7d9856373 | 3/6/2021 6:00:00 PM | 1473 | 633424 | 1431942 | 633424 | 10 | 9 | 0 | 917 | 215 | 5867 | 10 | US-DE | 4/26/2021 12:06:49 AM | 美國 | 545070 | 13 |
資料存取
Azure Notebooks
裝載於 Azure Blob 儲存體上,不同資料集檔案格式的 URL:
使用 Pandas 中從 HTTP URL 下載的內建功能,下載資料集檔案。 Pandas 具有各種檔案格式的讀取器:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet ")
df.head(10)
df.dtypes
df.groupby('state').first().filter(['date','positive', 'death'])
df.groupby(df.state).agg({'state': 'count','positive_increase': 'sum','death_increase': 'sum'})
df_NY=df[df['state'] == 'NY']
df_NY.plot(kind='line',x='date',y="positive",grid=True)
df_NY.plot(kind='line',x='date',y="positive_increase",grid=True)
df_NY.plot(kind='line',x='date',y="death",grid=True)
df_NY.plot(kind='line',x='date',y="death_increase",grid=True)
df_US=df.groupby(df.date).agg({'positive': 'sum','positive_increase': 'sum','death':'sum','death_increase': 'sum'}).reset_index()
df_US.plot(kind='line',x='date',y="positive",grid=True)
df_US.plot(kind='line',x='date',y="positive_increase",grid=True)
df_US.plot(kind='line',x='date',y="death",grid=True)
df_US.plot(kind='line',x='date',y="death_increase",grid=True)
Azure Databricks
此平台/封裝組合沒有可用的樣本。
Azure Synapse
此平台/封裝組合沒有可用的樣本。
下一步
檢視開放資料集目錄中的其餘資料集。