Azure 開放資料集
使用公開的資料集改進機器學習模型的正確性。 若要節省資料探索和準備的時間,請使用專為機器學習專案所準備的策展資料集。
交通運輸
健康情況與基因體學
資料集 |
描述 |
COVID-19 資料湖 |
新型冠狀病毒 (COVID-19) Data Lake 集合集結了各種來源的新型冠狀病毒 (COVID-19) 相關資料集,涵蓋檢測及病患結果追蹤資料、社交距離政策、醫院量能、人潮流動情況等。 |
COVID-19 開放研究資料集 |
COVID-19 和新冠肺炎相關學術文章的全文檢索和中繼資料資料集,已經過最佳化可供電腦讀取,並可供全球研究社群使用。 |
基因體學資料湖 |
「基因體學資料湖」提供多種免費可用的公用資料集,可整合到您的基因體學分析工作流程及應用程式。 本資料集包含基因體序列、變異資訊,以及 BAM、FASTA、VCF、CSV 檔案格式的主體/樣本中繼資料。 |
人力和經濟效益
人口和安全
資料集 |
描述 |
美國人口數 (依郡排列) |
美國各縣 2000 和 2010 年十年一度普查的美國人口數 (依性別和種族)。 此資料集的資料來源為美國人口普查局。 |
美國人口數 (依郵遞區號排列) |
美國各郵遞區號 2010 年十年一度普查的美國人口數 (依性別和種族)。 此資料集的資料來源為美國人口普查局。 |
波士頓安全資料 |
閱讀向波士頓市通報的 311 通話相關資料。 此資料集以 Parquet 格式儲存,並每日更新。 |
芝加哥安全資料 |
閱讀向芝加哥市通報的 311 通話相關資料。 此資料集以 Parquet 格式儲存,並每日更新。 |
紐約市安全資料 |
此資料集包含 2010 年至今所有的紐約市 311 服務要求。 此資料集以 Parquet 格式儲存,並每日更新。 |
舊金山安全資料 |
舊金山的消防部門服務通話和 311 案件。 此資料集包含從 2015 年累積至今的歷史記錄。 |
西雅圖安全資料 |
西雅圖消防部門 911 調度中心。 此資料集會每日更新,並包含 2010 年累積至今的歷史記錄 |
補充和一般資料集
資料集 |
描述 |
糖尿病 |
糖尿病資料集有 442 份具有 10 項特徵的範例,因此很適合作為機器學習演算法入門。 |
OJ 銷售模擬資料 |
此資料集衍生自 Dominick 的 OJ 資料集,內含額外的模擬資料,旨在提供可輕鬆於 Azure Machine Learning 上同時定型數千個模型的資料集。 |
手寫數字的 MNIST 資料庫 |
手寫數字的 MNIST 資料庫包含一個訓練集 (共有 60,000 個範例) 及一個測試集 (共有 10,000 個範例)。 數字已大小正規化且在固定大小的影像置中。 |
Microsoft 新聞建議資料集 |
Microsoft 新聞資料集 (MIND) 為適用於新聞推薦研究的大型資料集。 其旨在為新聞推薦的資料集樹立典範,推動新聞推薦與推薦系統的研究。 |
國定假日 |
來自 PyPI 假日套件和 Wikipedia 的全球國定假日資料,涵蓋 1970 年至 2099 年的 38 個國家或地區。 |
俄文開放語音轉換文字 |
Russian Open STT 是俄文的大型開放語音轉換文字資料集 |