共用方式為


COVID-19 追蹤專案

COVID Tracking Project 資料集可提供美國各州和領土的最新檢測數量、確診案例數量、住院治療數量和患者的治療結果數據。

如需此資料集的詳細資訊,請參閱專案 GitHub 存放庫

注意

Microsoft 依「現況」提供 Azure 開放資料集。 針對 貴用戶對資料集的使用方式,Microsoft 不提供任何明示或默示的擔保、保證或條件。 在 貴用戶當地法律允許的範圍內,針對因使用資料集而導致的任何直接性、衍生性、特殊性、間接性、附隨性或懲罰性損害或損失,Microsoft 概不承擔任何責任。

此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。

資料集

已修改的資料集版本提供 CSV、JSON、JSON-Lines 與 Parquet 格式。

所有已修改的版本皆新增了 ISO 3166 次級行政區代碼和載入時間,並使用以底線分隔的小寫資料行名稱。

未經處理資料:'https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/latest/daily.json'

已修改及未經處理的舊版資料:https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/

https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/

資料量

所有資料集都會每天更新。 截至 2020 年 5月 13 日為止,這些資料集包含了 4,100 個資料列 (CSV 574 KB、JSON 1.8 MB、JSONL 1.8 MB、Parquet 334 KB)。

資料來源

此資料最初由 Atlantic 的 COVID Tracking Project 發佈。 系統會使用 states_daily_4p_et.csv 檔案從 COVID 追蹤 GitHub 存放庫擷取未經處理的資料。 如需這個資料集的詳細資訊及其 COVID 追蹤專案 API 的原點,請參閱專案 GitHub 存放庫

資料品質

COVID 追蹤專案會對各州的資料品質進行評等,並提供資料品質評量的進一步資訊。 如需詳細資訊,請參閱 COVID 追蹤專案資料分頁。 GitHub 存放庫中的資料可能落後 API 資料一小時;因此若要存取最新資料,就必須使用 API。

授權和使用權限出處

此資料是根據 Apache 2.0 授權版本之條款及條件。

該資料的一切使用,均必需保留所有著作權、專利、商標和出處聲明。

連絡人

對於新型冠狀病毒 (COVID-19) Data Lake 中的這個資料集或其他資料集如有任何問題,請連絡 askcovid19dl@microsoft.com。

資料行

名稱 資料類型 唯一 Values (sample) 描述
date date 420 2020-11-10 2021-01-30 收集每日總人數的日期。
date_checked 字串 9,487 2020-12-01T00:00:00Z 2020-09-01T00:00:00Z 已取代
死亡 smallint 7,327 2 5 到目前為止,因新型冠狀病毒 (COVID-19) 而死亡的總人數。
death_increase smallint 429 1 和 2 已取代
fips smallint 56 26 55 人口普查聯邦資訊處理標準 (FIPS) 州代碼
fips_code 字串 60 53 25 人口普查聯邦資訊處理標準 (FIPS) 州代碼
雜湊 字串 20,780 63df8cccd23a5476bab2d8111b138e4c9becd35e c606cd6990f16086b5382e12d84f6206172d493d 這筆記錄的雜湊
住院 int 7,641 89995 4 已取代
hospitalized_cumulative int 7,641 89995 4 到目前為止,因新型冠狀病毒 (COVID-19) 而前往醫院就診的總人數,包括之後康復或死亡者。
hospitalized_currently smallint 3,886 8 13 在這天,因新型冠狀病毒 (COVID-19) 而住院的人數。
hospitalized_increase smallint 615 1 和 2 已取代
in_icu_cumulative smallint 2,295 990 220 到目前為止,因新型冠狀病毒 (COVID-19) 而進入加護病房 (ICU) 的總人數,包括之後康復或死亡者。
in_icu_currently smallint 1,643 2 8 在這天,因新型冠狀病毒 (COVID-19) 而進入加護病房 (ICU) 的總人數。
iso_country 字串 1 美國 ISO 3166 國碼或地區碼
iso_subdivision 字串 57 US-UM US-WA ISO 3166 子行政區代碼
last_update_et timestamp 9,487 2020-12-01 00:00:00 2020-09-01 00:00:00 這天資料的上次更新時間
load_time timestamp 1 2021-04-26 00:06:49.883000 將資料從來源載入 Azure 的日期和時間
negative int 10,864 305972 2140 到目前為止,曾接受新型冠狀病毒 (COVID-19) 檢測並呈現陰性的總人數。
negative_increase int 7,328 6 17 已取代
on_ventilator_cumulative smallint 677 411 412 到目前為止,因新型冠狀病毒 (COVID-19) 而使用人工呼吸器的總人數,包括之後康復或死亡者。
on_ventilator_currently smallint 837 4 10 在這天,因新型冠狀病毒 (COVID-19) 而使用人工呼吸器的人數。
暫止 smallint 944 2 17 檢測結果未定的檢測數。
pos_neg int 18,282 2140 2 已取代
positive int 16,837 2 1 到目前為止,曾接受新型冠狀病毒 (COVID-19) 檢測並呈現陽性的總人數。
positive_increase smallint 4,754 1 和 2 已取代
已復原 int 8,286 29 19 到目前為止,曾感染新型冠狀病毒 (COVID-19) 而康復的總人數。
state 字串 56 MI PA 二個字母的州代碼。
總計 int 18,283 2140 2 已取代
total_test_results int 18,648 2140 3 州提供的檢測結果總計
total_test_results_increase int 13,463 1 和 2 已取代

預覽​​

date state positive hospitalized_currently hospitalized_cumulative on_ventilator_currently data_quality_grade last_update_et 雜湊 date_checked 死亡 住院 總計 total_test_results pos_neg fips death_increase hospitalized_increase negative_increase positive_increase total_test_results_increase fips_code iso_subdivision load_time iso_country negative in_icu_cumulative on_ventilator_cumulative 已復原 in_icu_currently
2021-03-07 AK 56886 33 1,293 2 null 3/5/2021 3:59:00 AM dc4bccd4bb885349d7e94d6fed058e285d4be164 3/5/2021 3:59:00 AM 305 1,293 56886 1731628 56886 2 0 0 0 0 0 2 US-AK 4/26/2021 12:06:49 AM 美國
2021-03-07 AL 499819 494 45976 null 3/7/2021 11:00:00 AM 997207b430824ea40b8eb8506c19a93e07bc972e 3/7/2021 11:00:00 AM 10148 45976 2431530 2323788 2431530 1 -1 0 2087 408 23:47 1 US-AL 4/26/2021 12:06:49 AM 美國 1931711 2,676 1515 295690
2021-03-07 AR 324818 335 14926 65 null 3/7/2021 12:00:00 AM 50921aeefba3e30d31623aa495b47fb2ecc72fae 3/7/2021 12:00:00 AM 5319 14926 2805534 2736442 2805534 5 22 11 3,267 165 3380 5 US-AR 4/26/2021 12:06:49 AM 美國 2480716 1533 315517 141
2021-03-07 AS 0 null 12/1/2020 12:00:00 AM 96d23f888c995b9a7f3b4b864de6414f45c728ff 12/1/2020 12:00:00 AM 0 2140 2140 2140 60 0 0 0 0 0 60 US-AS 4/26/2021 12:06:49 AM 美國 2140
2021-03-07 AZ 826454 963 57907 143 null 3/7/2021 12:00:00 AM 0437a7a96f4471666f775e63e86923eb5cbd8cdf 3/7/2021 12:00:00 AM 16,328 57907 3899464 7908105 3899464 4 5 44 13678 13:35 45110 4 US-AZ 4/26/2021 12:06:49 AM 美國 3073010 273
2021-03-07 CA 3501394 4291 null 3/7/2021 2:59:00 AM 63c5c0fd2daef2fb65150e9db486de98ed3f7b72 3/7/2021 2:59:00 AM 3501394 49646014 3501394 6 258 0 0 3816 133186 6 US-CA 4/26/2021 12:06:49 AM 美國 1,159
2021-03-07 CO 436602 326 23904 null 3/7/2021 1:59:00 AM 444746cda3a596f183f3fa3269c8cab68704e819 3/7/2021 1:59:00 AM 5989 23904 2636060 6415123 2636060 8 3 18 0 840 38163 8 US-CO 4/26/2021 12:06:49 AM 美國 2199458
2021-03-07 CT 285330 428 12257 null 3/4/2021 11:59:00 PM bcc0f7bc8c2bf77eec31b25f8b59d510f679d3e7 3/4/2021 11:59:00 PM 7704 12257 285330 6520366 285330 9 0 0 0 0 0 9 US-CT 4/26/2021 12:06:49 AM 美國
2021-03-07 DC 41419 150 16 null 3/6/2021 12:00:00 AM a3aa0d623d538807fb9577ad64354f48cf728cc8 3/6/2021 12:00:00 AM 1030 41419 1261363 41419 11 0 0 0 146 5726 11 US-DC 4/26/2021 12:06:49 AM 美國 29570 38
2021-03-07 DE 88354 104 null 3/6/2021 6:00:00 PM 059d870e689d5cc19c35f5eb398214d7d9856373 3/6/2021 6:00:00 PM 1473 633424 1431942 633424 10 9 0 917 215 5867 10 US-DE 4/26/2021 12:06:49 AM 美國 545070 13

資料存取

Azure Notebooks

裝載於 Azure Blob 儲存體上,不同資料集檔案格式的 URL:

CSV:https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.csv

JSON:https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.json

JSON:https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.jsonl

Parquet:https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet

使用 Pandas 中從 HTTP URL 下載的內建功能,下載資料集檔案。 Pandas 具有各種檔案格式的讀取器:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet ")
df.head(10)

df.dtypes

df.groupby('state').first().filter(['date','positive', 'death'])

df.groupby(df.state).agg({'state': 'count','positive_increase': 'sum','death_increase': 'sum'})

df_NY=df[df['state'] == 'NY']
df_NY.plot(kind='line',x='date',y="positive",grid=True)
df_NY.plot(kind='line',x='date',y="positive_increase",grid=True)
df_NY.plot(kind='line',x='date',y="death",grid=True)
df_NY.plot(kind='line',x='date',y="death_increase",grid=True)

df_US=df.groupby(df.date).agg({'positive': 'sum','positive_increase': 'sum','death':'sum','death_increase': 'sum'}).reset_index()

df_US.plot(kind='line',x='date',y="positive",grid=True)
df_US.plot(kind='line',x='date',y="positive_increase",grid=True)
df_US.plot(kind='line',x='date',y="death",grid=True)
df_US.plot(kind='line',x='date',y="death_increase",grid=True)



Azure Databricks

此平台/封裝組合沒有可用的樣本。

Azure Synapse

此平台/封裝組合沒有可用的樣本。

下一步

檢視開放資料集目錄中的其餘資料集。