Případy COVID-19 Evropského střediska pro prevenci a kontrolu nemocí (ECDC)
Nejnovější dostupná veřejná data o geografické distribuci případů COVID-19 po celém světě z Evropského centra pro prevenci a kontrolu nemocí (ECDC). Každý řádek/položka obsahuje počet nových případů nahlášených za den pro jednotlivé země nebo oblasti.
Poznámka:
Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.
Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.
Datové sady
Upravené verze této datové sady jsou k dispozici ve formátech CSV, JSON, JSON-Lines a Parquet a aktualizují se každý den:
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.csv
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.json
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.jsonl
- https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet
Do všech upravených verzí byly přidány kódy iso_country_region a časy načtení. Pro názvy sloupců jsou použita malá písmena s podtržítky jako oddělovači.
Nezpracovaná data: https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/latest/ECDCCases.csv
Předchozí verze upravených a nezpracovaných dat: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/ecdc_cases/
Objem dat
K 28. květnu 2020 obsahovaly 19 876 řádků (CSV 1,5 MB, JSON 4,9 MB, JSONL 4,9 MB, Parquet 54,1 kB).
Zdroj dat
Nezpracovaná data se denně ingestují ze souboru CSV ECDC. Další informace o této datové sadě, včetně jejího původu, najdete na stránce shromažďování dat ECDC.
Kvalita dat
ECDC negarantuje přesnost ani včasnost těchto dat. Přečtěte si právní omezení.
Přisuzování práv k licencím a používání
Tato data jsou dostupná a lze je používat na základě zásad autorských práv ECDC uvedených tady. V případě libovolného dokumentu, jehož autorská práva přísluší třetí straně, je třeba k reprodukci získat povolení od držitele autorských práv.
Je třeba vždy uvést ECDC jako původní zdroj těchto dat. Toto potvrzení musí být zahrnuto v každé kopii materiálu.
Kontakt
Pokud máte v souvislosti s touto datovou sadou nebo jinými datovými sadami v datovém jezeře COVID-19 nějaké dotazy nebo připomínky, kontaktujte askcovid19dl@microsoft.com.
Sloupce
Name | Datový typ | Jedinečný | Values (sample) | Popis |
---|---|---|---|---|
cases | smallint | 5,515 | 1 2 | Počet nahlášených případů |
continent_exp | string | 6 | Evropa Afrika | Název kontinentu |
countries_and_territories | string | 214 | Kanada Belgie | Názve země nebo teritoria |
country_territory_code | string | 213 | KOR ISL | Třímístný kód země nebo teritoria |
date_rep | datum | 350 | 2020-12-11 2020-11-22 | Datum zprávy |
den | smallint | 31 | 14 13 | Den měsíce |
smrti | smallint | 1 049 | 1 2 | Počet nahlášených úmrtí |
geo_id | string | 214 | CA SE | Identifikátor zeměpisné oblasti |
iso_country | string | 214 | USA | Kód ISO 3166 země nebo oblasti |
load_date | časové razítko | 0 | 2021-04-26 00:06:22.123000 | Datum načtení dat do Azure |
měs | smallint | 12 | 10 8 | Číslo měsíce |
rok | smallint | 2 | 2020 2019 | Year (Rok) |
Preview
date_rep | den | měs | rok | cases | smrti | countries_and_territories | geo_id | country_territory_code | continent_exp | load_date | iso_country |
---|---|---|---|---|---|---|---|---|---|---|---|
2020-12-14 | 14 | 12 | 2020 | 746 | 6 | Afghánistán | AF | AFG | Asie | 26.4.2021 12:06:22 | AF |
2020-12-13 | 13 | 12 | 2020 | 298 | 9 | Afghánistán | AF | AFG | Asie | 26.4.2021 12:06:22 | AF |
2020-12-12 | 12 | 12 | 2020 | 113 | 11 | Afghánistán | AF | AFG | Asie | 26.4.2021 12:06:22 | AF |
2020-12-11 | 11 | 12 | 2020 | 63 | 10 | Afghánistán | AF | AFG | Asie | 26.4.2021 12:06:22 | AF |
2020-12-10 | 10 | 12 | 2020 | 202 | 16 | Afghánistán | AF | AFG | Asie | 26.4.2021 12:06:22 | AF |
2020-12-09 | 9 | 12 | 2020 | 135 | 13 | Afghánistán | AF | AFG | Asie | 26.4.2021 12:06:22 | AF |
2020-12-08 | 8 | 12 | 2020 | 200 | 6 | Afghánistán | AF | AFG | Asie | 26.4.2021 12:06:22 | AF |
2020-12-07 | 7 | 12 | 2020 | 210 | 26 | Afghánistán | AF | AFG | Asie | 26.4.2021 12:06:22 | AF |
2020-12-06 | 6 | 12 | 2020 | 234 | 10 | Afghánistán | AF | AFG | Asie | 26.4.2021 12:06:22 | AF |
2020-12-05 | 5 | 12 | 2020 | 235 | 18 | Afghánistán | AF | AFG | Asie | 26.4.2021 12:06:22 | AF |
Přístup k datům
Azure Notebooks
Tento poznámkový blok dokumentuje adresy URL a vzorový kód pro přístup k Evropskému centru pro prevenci a kontrolu nemocí (ECDC) Covid-19 – adresy URL datových sad různých formátů souborů datových sad hostovaných ve službě Azure Blob Storage:¶ CSV: https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.csv
Stáhněte si soubor datové sady pomocí integrované funkce ke stažení z adresy URL http v Knihovně Pandas. Pandas má čtenáře pro různé formáty souborů:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet")
df.head(10)
df.dtypes
df.groupby('countries_and_territories').first().filter(['continent_exp','cases', 'deaths','date_rep'])
df.groupby('continent_exp').agg({'countries_and_territories': 'count','cases': 'count','deaths': 'count'})
import plotly.graph_objects as go
import plotly.express as px
import matplotlib.pyplot as plt
df.loc[: , ['countries_and_territories', 'cases', 'deaths']].groupby(['countries_and_territories'
]).max().sort_values(by='cases',ascending=False).reset_index()[:15].style.background_gradient(cmap='rainbow')
df_Worldwide=df[df['countries_and_territories']=='United_States_of_America']
df.plot(kind='line',x='date_rep',y="cases",grid=True)
df.plot(kind='line',x='date_rep',y="deaths",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="confirmed_change",grid=True)
#df_Worldwide.plot(kind='line',x='date_rep',y="deaths_change",grid=True)
Azure Databricks
Ukázka není k dispozici pro tuto kombinaci platformy nebo balíčku.
Azure Synapse
Ukázka není k dispozici pro tuto kombinaci platformy nebo balíčku.
Příklady
Podívejte se na příklady použití této datové sady:
- Analýza dat COVID s využitím bezserverového koncového bodu Synapse SQL
- Lineární regresní analýza dat COVID pomocí koncového bodu SQL ve službě Azure Synapse Analytics
Další kroky
Prohlédněte si zbývající datové sady v katalogu Open Datasets.