共用方式為


在 機器學習 Studio 中使用範例資料集 (傳統)

適用於:適用。機器學習 Studio(傳統版)不適用。Azure 機器學習

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

當您在 機器學習 Studio 中建立新的工作區時,預設會包含許多範例數據集和實驗。 Azure AI 資源庫中的範例模型會使用這些範例數據集中的許多範例。 其他則包含在機器學習中通常使用的各種數據類型範例。

這些數據集中有一些可在 Azure Blob 記憶體中使用。 針對這些數據集,下表提供直接連結。 您可以使用匯入數據模組,在實驗中使用這些數據集。

這些範例數據集的其餘部分可在您工作區的 [已儲存數據集] 下取得。 您可以在 機器學習 Studio 中實驗畫布左側的模組調色盤中找到此專案(傳統)。 您可以將數據集拖曳至實驗畫布,以在您自己的實驗中使用任何數據集。

資料集

資料集名稱 資料集說明
成人收入普查二進位分類資料集 1994年人口普查資料庫的子集,使用16歲以上的工作成年人,調整后的收入指數為100>。

使用方式:使用人口統計來將人口分類,以預測個人年收入是否超過 5 萬元。

相關研究:Kohavi, R.、Becker, B. (1996 年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文:加州大學資訊與計算機科學學院
機場代碼數據集 美國機場代碼。

此數據集包含每個美國機場的一個數據列,提供機場標識符和名稱以及位置城市和州。
汽車價格資料 (原始) 依構造和型號分類的汽車相關資訊,包括價格、性能 (例如汽缸數和油耗),以及保險風險評分。

風險分數一開始與自動價格相關聯。 然後它會在精算師稱為符號化的程序中根據實際風險進行調整。 若值為 +3,表示該汽車屬於高風險,若值為 -3,表示大致而言很安全。

使用方式:使用迴歸或多變量分類,依特性預測風險評分。

相關研究:Schlimmer, J.C.(1987 年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文:加州大學資訊與計算機科學學院
Bike Rental UCI 數據集 UCI Bike Rental 數據集,以位於華盛頓特區維護自行車出租網路的資本 Bikeshare 公司的實際數據為基礎。

2011 年和 2012 年,數據集每天各有一個數據列,總共 17,379 個數據列。 每小時自行車出租的範圍從1到977。
比爾蓋茨 RGB 影像 公開可用的圖像檔已轉換成 CSV 資料。

轉換影像的程式代碼是在使用 K-Means 叢集模型詳細數據頁面的色彩量化中提供。
獻血數據 臺灣新竹市輸血服務中心血捐資料庫的數據子集。

捐贈者數據報括上次捐贈後的月份,以及捐款頻率,或捐款總數、上次捐贈時間,以及獻血量。

使用方式: 目標是通過分類預測捐贈者是否在 2007 年 3 月獻血,其中 1 表示目標期間的捐贈者,以及 0 個非捐贈者。

相關研究: 葉,I.C.,(2008年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文:加州大學資訊與計算機科學學院

Yeh、I-Cheng、Yang、King-Jang 和 Ting、Tao-Ming,“使用 Bernoulli 序列對 RFM 模型的知識探索,”專家系統與應用程式,2008 年, https://dx.doi.org/10.1016/j.eswa.2008.07.018
乳腺癌數據 腫瘤研究所提供的三個癌症相關數據集之一,經常出現在機器學習文學中。 結合診斷資訊與實驗室分析中約300個組織樣本的特徵。

使用方式: 根據9個屬性分類癌症類型,其中有些是線性的,有些是類別。

相關研究: 沃爾伯格,W.H.,街,W.N.,和芒加里亞,O.L.(1995年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文:加州大學資訊與計算機科學學院
乳腺癌特徵 數據集包含 102K 個可疑區域(候選)X 光影像的資訊,每個區域都有 117 個特徵所描述。 這些功能是專屬的,其意義不會由數據集建立者(西門子醫療保健)透露。
乳腺癌資訊 數據集包含 X 光影像每個可疑區域的其他資訊。 每個範例都會提供有關乳腺癌特徵數據集中對應數據列編號的資訊(例如卷標、患者標識碼、修補程式相對於整個影像的座標)。 每個患者都有一些範例。 對於患有癌症的患者,有些例子是陽性的,有些是負面的。 對於沒有癌症的患者,所有的例子都是負面的。 數據集有 102K 個範例。 數據集有偏差,0.6% 的點為正數,其餘則為負數。 此數據集由西門子醫療保健公司提供。
共用 CRM Appetency 標籤 KDD Cup 2009 客戶關係預測挑戰 (orange_small_train_appetency.labels) 中的標籤。
共用 CRM 流失標籤 KDD Cup 2009 客戶關係預測挑戰 (orange_small_train_churn.labels) 中的標籤。
共用 CRM 資料集 此資料來自 KDD Cup 2009 客戶關係預測挑戰 (orange_small_train.data.zip)。

資料集包含來自法國電信公司 Orange 的 50K 個客戶。 每個客戶都有 230 項不具名的特性,其中有 190 項數值特性和 40 項類別特性。 這些特性非常稀疏。
共用 CRM 向上銷售標籤 來自 KDD Cup 2009 客戶關係預測挑戰 (orange_large_train_upselling.labels) 的標籤
能源效率回歸數據 以12個不同的建築形狀為基礎的模擬能源配置檔集合。 這些建築以八個特徵區分。 這包括玻璃區域、玻璃區分佈和方向。

使用方式: 使用回歸或分類,根據兩個實際值回應的其中一個來預測能源效率評等。 針對多類別分類,會將回應變數四捨五入為最接近的整數。

相關研究: 西法拉,A. & Tsanas,A. (2012年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文:加州大學資訊與計算機科學學院
航班誤點資料 美國交通部收集的 TranStats 資料所包含的客機航班準點率資料(準點)。

此資料集涵蓋的其間為 2013 年 4 月至 10 月。 上傳至 機器學習 Studio(傳統版)之前,數據集已處理如下:
  • 數據集經過篩選,只涵蓋美國大陸70個最繁忙的機場
  • 取消的航班標示為延遲超過15分鐘
  • 分流航班被篩選掉
  • 已選取下列數據行:Year、Month、DayofMonth、DayOfWeek、Carrier、OriginAirportID、DestAirportID、CRSDepTime、DepDelay、DepDel15、CRSArrTime、ArrDelay、ArrDel15、Canceled
航班準時效能 (未經處理) 從 2011 年 10 月起,美國 內飛機抵達和起飛的記錄。

使用量: 預測航班延誤。

相關研究: 來自美國交通 https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time部。
森林火災數據 包含天氣數據,例如溫度和濕度索引和風速。 這些數據取自葡萄牙東北部的一個地區,加上森林火災記錄。

使用方式: 這是一項困難的回歸工作,其目標是預測森林火災被燒毀的區域。

相關研究: 科特斯,P.,和莫萊斯,A.(2008年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文:加州大學資訊與計算機科學學院

[Cortez 和 Morais, 2007] P. Cortez 和 A. Morais. 使用氣象數據預測森林火災的數據採礦方法。 在J.Neves、M.F.Santos和J.Machado Eds.,人工智慧的新趨勢,第13屆 EPIA 2007 - 葡萄牙人工智慧會議,12月,葡萄牙吉馬雷斯,512-523,2007年。 APPIA,ISBN-13 978-989-95618-0-9。 可在: http://www.dsi.uminho.pt/~pcortez/fires.pdf取得。
德國信用卡 UCI 資料集 UCI Statlog (德國信用卡) 資料集 (Statlog+German+Credit+Data),使用 german.data 檔案。

此資料集會將申請者 (以一組屬性說明) 分類為低或高信用風險。 每個範例代表一名申請者。 共有 20 項特性 (包括數值和類別) 以及一個二進位標籤 (信用風險值)。 高信用風險項目的標籤 = 2,低信用風險項目的標籤 = 1。 將低風險範例誤判為高風險的成本為 1,而將高風險範例誤判為低風險的成本為 5。
IMDB 影片標題 資料集包含 Twitter 推文中分級影片的資訊:IMDB 影片識別碼、影片名稱、內容類型、製作年份。 資料集中有 1 萬 7 千部影片。 該資料集在論文 "S. Dooms, T. De Pessemier and L. Martens" 中推出。 MovieTweetings:收集自 Twitter 的影片分級資料集。 Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013."
鳶尾花兩個類別數據 這也許是在模式辨識文獻中找到的已知資料庫。 數據集相對較小,包含來自三個虹膜品種的 50 個花瓣測量範例。

使用方式: 從度量預測鳶尾花類型。

相關研究: 費舍爾,洛杉磯(1988年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文:加州大學資訊與計算機科學學院
電影推文 資料集是 Movie Tweetings 資料集的擴充版本。 資料集包含 17 萬個影片的分級,擷取自 Twitter 上結構良好的推文。 每個執行個體代表推文,並且是 Tuple:使用者識別碼、IMDB 影片識別碼、分級、時間戳記、推文的收藏數,以及這個推文的轉推數。 資料集是由 A. Said、S. Dooms、B. Loni 和 D. Tikk 為 Recommender Systems Challenge 2014 提供。
不同汽車的油耗資料 此數據集是 Carnegie Mellon University StatLib 連結庫所提供數據集的稍微修改版本。 數據集用於1983年美國統計協會博覽會。

數據列出每加侖英里的各種汽車的燃油消耗量。 它也包括汽缸數目、發動機排量、馬力、總重量和加速等資訊。

使用方式: 根據三個多重值離散屬性和五個連續屬性預測燃油經濟性。

相關研究: 卡內基梅隆大學StatLib(1993年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文:加州大學資訊與計算機科學學院
Pima Indians 糖尿病二元分類數據集 國家糖尿病研究所和消化和腎臟疾病資料庫的一部分數據。 數據集經過篩選,以專注於皮瑪印度遺產的女性患者。 數據報括血糖和胰島素水準等醫療數據,以及生活方式因素。

使用方式: 預測主體是否患有糖尿病(二元分類)。

相關研究: 西吉利托,V. (1990年)。 UCI 機器學習 存放庫 https://archive.ics.uci.edu/ml“ 。 CA 歐文:加州大學資訊與計算機科學學院
餐廳顧客資料 一組關於顧客的中繼資料,包括人口統計和喜好。

使用方式:將此資料集與其他兩個餐廳資料集搭配使用,以使推薦系統定型並進行測試。

相關研究:Bache, K. 和 Lichman, M.(2013 年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 Irvine, CA:University of California, School of Information and Computer Science.
餐廳特色資料 一組關於餐廳及其特色的中繼資料,例如食物類型、用餐風格和地點等。

使用方式:將此資料集與其他兩個餐廳資料集搭配使用,以使推薦系統定型並進行測試。

相關研究:Bache, K. 和 Lichman, M.(2013 年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 Irvine, CA:University of California, School of Information and Computer Science.
餐廳評等 包含使用者給予餐廳的評等,最低為 0,最高為 2。

使用方式:將此資料集與其他兩個餐廳資料集搭配使用,以使推薦系統定型並進行測試。

相關研究:Bache, K. 和 Lichman, M.(2013 年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 Irvine, CA:University of California, School of Information and Computer Science.
Steel Annealing 多類別數據集 此數據集包含一系列來自鋼鐵退火試驗的記錄。 它包含產生的鋼型別的實體屬性(寬度、厚度、類型(線圈、工作表等)。

使用方式: 預測兩個數值類別屬性中的任何一個;強度或強度。 您也可以分析屬性之間的相互關聯。

鋼級遵循一套標準,由 SAE 和其他組織定義。 您要尋找特定的「等級」(類別變數),並想要瞭解所需的值。

相關研究: 斯特林,D. 和邦廷,W.(NA)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文:加州大學資訊與計算機科學學院

您可以在這裡找到鋼級實用指南: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
望遠鏡數據 高能伽瑪粒子高載以及背景噪音的記錄,這兩者都是使用蒙特卡洛過程仿真的。

類比的目的是提高地面大氣切倫科夫伽馬望遠鏡的精確度。 這是通過利用統計方法來區分所需的信號(切倫科夫輻射陣雨)和背景噪音(上層大氣中宇宙射線起始的有聲雨)。

數據已經過預先處理,以建立長軸的長軸的長方形叢集,面向相機中心。 這個橢圓形(通常稱為Hillas 參數)的特性是可用於辨識的影像參數之一。

使用方式: 預測淋浴影像是否代表訊號或背景噪音。

注意: 簡單的分類精確度對這項數據並不有意義,因為將背景事件分類為訊號比將訊號事件分類為背景更差。 若要比較不同的分類器,應該使用 ROC 圖形。 接受背景事件作為訊號的機率必須低於下列其中一個臨界值:0.01、0.02、0.05、0.1 或 0.2。

此外,請注意,背景事件的數量(h,對直音速淋浴)被低估。 在實際測量中,h 或雜訊類別代表大部分的事件。

相關研究: 博克,R.K.(1995年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文:加州大學信息學院
天氣資料集 NOAA 提供的每小時起降天候觀測值 (將 201304 的資料合併至 201310)。

天氣資料涵蓋從機場天候觀測站進行的觀測,涵蓋期間為 2013 年 4 月至 10 月。 上傳至 機器學習 Studio(傳統版)之前,數據集已處理如下:
  • 氣象站標識碼已對應至對應的機場標識碼
  • 與70個最繁忙的機場沒有關聯的氣象站被篩選掉
  • Date 數據行已分割成個別的 Year、Month 和 Day 數據行
  • 已選取下列數據行:AirportID、Year、Month、Day、Time、TimeZone、SkyCondition、 Visibility、WeatherType、DryBulbFarenheit、DryBulbCelsius、WetBulbFarenheit、WetBulbCelsius、DewPointFarenheit、DewPointCelsius、RelativeHumidity、WindSpeed、WindDirection、ValueForWindCharacter、StationPressure、PressureTendency、PressureChange、SeaLevelPressure、RecordType、HourlyPrecip、Altimeter
Wikipedia SP 500 資料集 資料是從 Wikipedia (https://www.wikipedia.org/) 上每家 S&P 500 公司的文章衍生而來 (儲存為 XML 資料)。

上傳至 機器學習 Studio(傳統版)之前,數據集會以下列方式處理:
  • 擷取每個特定公司的文字內容
  • 拿掉Wiki格式設定
  • 拿掉非英數位元
  • 將所有文字轉換成小寫
  • 已新增已知的公司類別

請注意,對某些公司而言,找不到某篇文章,所以記錄筆數小於 500 筆。
direct_marketing.csv 數據集包含客戶數據,以及其回應直接郵件行銷活動的指示。 每個數據列都代表客戶。 數據集包含使用者人口統計和過去行為的九個特徵,以及三個標籤數據行(流覽、轉換和支出)。 Visit 是二進位數據行,指出客戶在行銷活動之後流覽過。 轉換表示客戶已購買某些專案。 支出是花費的金額。 此數據集是由 Kevin Hillstrom 提供的 MineThatData 電子郵件分析和數據採礦挑戰。
lyrl2004_tokens_test.csv RCV1-V2 路透社新聞數據集的測試範例功能。 數據集有 781K 篇新聞文章及其標識碼(數據集的第一個數據行)。 每個發行項都會標記化、停用字詞和字幹。 大衛已提供數據集。 D. 吊楔。
lyrl2004_tokens_train.csv RCV1-V2 路透社新聞數據集中訓練範例的功能。 數據集有 23K 篇新聞文章及其標識碼(數據集的第一個數據行)。 每個發行項都會標記化、停用字詞和字幹。 大衛已提供數據集。 D. 吊楔。
network_intrusion_detection.csv
來自 KDD Cup 1999 知識探索和數據採礦工具競賽 (kddcup99.html) 的數據集。

數據集已下載並儲存在 Azure Blob 記憶體中(network_intrusion_detection.csv),並同時包含定型和測試數據集。 定型數據集有大約 126K 個數據列和 43 個數據行,包括標籤。 三個數據行是標籤資訊的一部分,40 個數據行包含數值和字串/類別特徵,可用於定型模型。 測試數據有大約 22.5K 個測試範例,與定型數據中的 43 個數據行相同。
rcv1-v2.topics.qrels.csv RCV1-V2 路透社新聞數據集中新聞文章的主題指派。 新聞文章可以指派給數個主題。 每個數據列的格式為「<主題名稱><檔標識碼> 1」。 數據集包含 2.6M 主題指派。 大衛已提供數據集。 D. 吊楔。
student_performance.txt 這些數據來自 KDD Cup 2010 學生績效評估挑戰(學生績效評估)。 使用的數據是Algebra_2008_2009定型集(Stamper、J.、Niculescu-Mizil、A.、Ritter、S.、Gordon、G.J.和 Koedinger、K.R.(2010年)。 代數 I 2008-2009。 KDD Cup 2010 教育數據採礦挑戰賽的挑戰數據集。 在downloads.jsp尋找它。

數據集已下載並儲存在 Azure Blob 記憶體中(student_performance.txt),並包含來自學生輔導系統的記錄檔。 提供的功能包括問題識別碼及其簡短描述、學生標識碼、時間戳,以及學生在以正確方式解決問題之前所做的嘗試次數。 原始數據集有8.9M筆記錄;此數據集已向下取樣到前 100K 個數據列。 數據集有 23 個不同類型的索引標籤分隔數據行:數值、類別和時間戳。

下一步