在機器學習 Studio 中使用範例資料集（傳統）

發行項
01/19/2018

適用於： 適用。機器學習 Studio（傳統版）不適用。 Azure 機器學習

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。建議您在該日期之前轉換成 Azure Machine Learning。

自 2021 年 12 月 1 日起，您將無法建立新的 Machine Learning 工作室 (傳統) 資源。在 2024 年 8 月 31 日之前，您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

請參閱將機器學習專案從 ML 工作室 (傳統) 移至 Azure Machine Learning 的相關資訊。
深入了解 Azure Machine Learning

ML 工作室 (傳統) 文件即將淘汰，未來將不再更新。

當您在機器學習 Studio 中建立新的工作區時，預設會包含許多範例數據集和實驗。 Azure AI 資源庫中的範例模型會使用這些範例數據集中的許多範例。其他則包含在機器學習中通常使用的各種數據類型範例。

這些數據集中有一些可在 Azure Blob 記憶體中使用。針對這些數據集，下表提供直接連結。您可以使用匯入數據模組，在實驗中使用這些數據集。

這些範例數據集的其餘部分可在您工作區的 [已儲存數據集] 下取得。您可以在機器學習 Studio 中實驗畫布左側的模組調色盤中找到此專案（傳統）。您可以將數據集拖曳至實驗畫布，以在您自己的實驗中使用任何數據集。

資料集

資料集名稱	資料集說明
成人收入普查二進位分類資料集	1994年人口普查資料庫的子集，使用16歲以上的工作成年人，調整后的收入指數為100>。使用方式：使用人口統計來將人口分類，以預測個人年收入是否超過 5 萬元。相關研究：Kohavi, R.、Becker, B. (1996 年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文：加州大學資訊與計算機科學學院
機場代碼數據集	美國機場代碼。此數據集包含每個美國機場的一個數據列，提供機場標識符和名稱以及位置城市和州。
汽車價格資料 (原始)	依構造和型號分類的汽車相關資訊，包括價格、性能 (例如汽缸數和油耗)，以及保險風險評分。風險分數一開始與自動價格相關聯。然後它會在精算師稱為符號化的程序中根據實際風險進行調整。若值為 +3，表示該汽車屬於高風險，若值為 -3，表示大致而言很安全。使用方式：使用迴歸或多變量分類，依特性預測風險評分。相關研究：Schlimmer, J.C.(1987 年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文：加州大學資訊與計算機科學學院
Bike Rental UCI 數據集	UCI Bike Rental 數據集，以位於華盛頓特區維護自行車出租網路的資本 Bikeshare 公司的實際數據為基礎。 2011 年和 2012 年，數據集每天各有一個數據列，總共 17,379 個數據列。每小時自行車出租的範圍從1到977。
比爾蓋茨 RGB 影像	公開可用的圖像檔已轉換成 CSV 資料。轉換影像的程式代碼是在使用 K-Means 叢集模型詳細數據頁面的色彩量化中提供。
獻血數據	臺灣新竹市輸血服務中心血捐資料庫的數據子集。捐贈者數據報括上次捐贈後的月份，以及捐款頻率，或捐款總數、上次捐贈時間，以及獻血量。使用方式：目標是通過分類預測捐贈者是否在 2007 年 3 月獻血，其中 1 表示目標期間的捐贈者，以及 0 個非捐贈者。相關研究：葉，I.C.，（2008年）。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文：加州大學資訊與計算機科學學院 Yeh、I-Cheng、Yang、King-Jang 和 Ting、Tao-Ming，“使用 Bernoulli 序列對 RFM 模型的知識探索，”專家系統與應用程式，2008 年， https://dx.doi.org/10.1016/j.eswa.2008.07.018
乳腺癌數據	腫瘤研究所提供的三個癌症相關數據集之一，經常出現在機器學習文學中。結合診斷資訊與實驗室分析中約300個組織樣本的特徵。使用方式：根據9個屬性分類癌症類型，其中有些是線性的，有些是類別。相關研究：沃爾伯格，W.H.，街，W.N.，和芒加里亞，O.L.（1995年）。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文：加州大學資訊與計算機科學學院
乳腺癌特徵	數據集包含 102K 個可疑區域（候選）X 光影像的資訊，每個區域都有 117 個特徵所描述。這些功能是專屬的，其意義不會由數據集建立者（西門子醫療保健）透露。
乳腺癌資訊	數據集包含 X 光影像每個可疑區域的其他資訊。每個範例都會提供有關乳腺癌特徵數據集中對應數據列編號的資訊（例如卷標、患者標識碼、修補程式相對於整個影像的座標）。每個患者都有一些範例。對於患有癌症的患者，有些例子是陽性的，有些是負面的。對於沒有癌症的患者，所有的例子都是負面的。數據集有 102K 個範例。數據集有偏差，0.6% 的點為正數，其餘則為負數。此數據集由西門子醫療保健公司提供。
共用 CRM Appetency 標籤	KDD Cup 2009 客戶關係預測挑戰 (orange_small_train_appetency.labels) 中的標籤。
共用 CRM 流失標籤	KDD Cup 2009 客戶關係預測挑戰 (orange_small_train_churn.labels) 中的標籤。
共用 CRM 資料集	此資料來自 KDD Cup 2009 客戶關係預測挑戰 (orange_small_train.data.zip)。資料集包含來自法國電信公司 Orange 的 50K 個客戶。每個客戶都有 230 項不具名的特性，其中有 190 項數值特性和 40 項類別特性。這些特性非常稀疏。
共用 CRM 向上銷售標籤	來自 KDD Cup 2009 客戶關係預測挑戰（orange_large_train_upselling.labels）的標籤。
能源效率回歸數據	以12個不同的建築形狀為基礎的模擬能源配置檔集合。這些建築以八個特徵區分。這包括玻璃區域、玻璃區分佈和方向。使用方式：使用回歸或分類，根據兩個實際值回應的其中一個來預測能源效率評等。針對多類別分類，會將回應變數四捨五入為最接近的整數。相關研究：西法拉，A. & Tsanas，A. （2012年）。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文：加州大學資訊與計算機科學學院
航班誤點資料	美國交通部收集的 TranStats 資料所包含的客機航班準點率資料(準點)。此資料集涵蓋的其間為 2013 年 4 月至 10 月。上傳至機器學習 Studio（傳統版）之前，數據集已處理如下：數據集經過篩選，只涵蓋美國大陸70個最繁忙的機場取消的航班標示為延遲超過15分鐘分流航班被篩選掉已選取下列數據行：Year、Month、DayofMonth、DayOfWeek、Carrier、OriginAirportID、DestAirportID、CRSDepTime、DepDelay、DepDel15、CRSArrTime、ArrDelay、ArrDel15、Canceled
航班準時效能（未經處理）	從 2011 年 10 月起，美國內飛機抵達和起飛的記錄。使用量：預測航班延誤。相關研究：來自美國交通 https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time部。
森林火災數據	包含天氣數據，例如溫度和濕度索引和風速。這些數據取自葡萄牙東北部的一個地區，加上森林火災記錄。使用方式：這是一項困難的回歸工作，其目標是預測森林火災被燒毀的區域。相關研究：科特斯，P.，和莫萊斯，A.（2008年）。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文：加州大學資訊與計算機科學學院 [Cortez 和 Morais， 2007] P. Cortez 和 A. Morais. 使用氣象數據預測森林火災的數據採礦方法。在J.Neves、M.F.Santos和J.Machado Eds.，人工智慧的新趨勢，第13屆 EPIA 2007 - 葡萄牙人工智慧會議，12月，葡萄牙吉馬雷斯，512-523,2007年。 APPIA，ISBN-13 978-989-95618-0-9。可在： http://www.dsi.uminho.pt/~pcortez/fires.pdf取得。
德國信用卡 UCI 資料集	UCI Statlog (德國信用卡) 資料集 (Statlog+German+Credit+Data)，使用 german.data 檔案。此資料集會將申請者 (以一組屬性說明) 分類為低或高信用風險。每個範例代表一名申請者。共有 20 項特性 (包括數值和類別) 以及一個二進位標籤 (信用風險值)。高信用風險項目的標籤 = 2，低信用風險項目的標籤 = 1。將低風險範例誤判為高風險的成本為 1，而將高風險範例誤判為低風險的成本為 5。
IMDB 影片標題	資料集包含 Twitter 推文中分級影片的資訊：IMDB 影片識別碼、影片名稱、內容類型、製作年份。資料集中有 1 萬 7 千部影片。該資料集在論文 "S. Dooms, T. De Pessemier and L. Martens" 中推出。 MovieTweetings：收集自 Twitter 的影片分級資料集。 Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013."
鳶尾花兩個類別數據	這也許是在模式辨識文獻中找到的已知資料庫。數據集相對較小，包含來自三個虹膜品種的 50 個花瓣測量範例。使用方式：從度量預測鳶尾花類型。相關研究：費舍爾，洛杉磯（1988年）。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文：加州大學資訊與計算機科學學院
電影推文	資料集是 Movie Tweetings 資料集的擴充版本。資料集包含 17 萬個影片的分級，擷取自 Twitter 上結構良好的推文。每個執行個體代表推文，並且是 Tuple：使用者識別碼、IMDB 影片識別碼、分級、時間戳記、推文的收藏數，以及這個推文的轉推數。資料集是由 A. Said、S. Dooms、B. Loni 和 D. Tikk 為 Recommender Systems Challenge 2014 提供。
不同汽車的油耗資料	此數據集是 Carnegie Mellon University StatLib 連結庫所提供數據集的稍微修改版本。數據集用於1983年美國統計協會博覽會。數據列出每加侖英里的各種汽車的燃油消耗量。它也包括汽缸數目、發動機排量、馬力、總重量和加速等資訊。使用方式：根據三個多重值離散屬性和五個連續屬性預測燃油經濟性。相關研究：卡內基梅隆大學StatLib（1993年）。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文：加州大學資訊與計算機科學學院
Pima Indians 糖尿病二元分類數據集	國家糖尿病研究所和消化和腎臟疾病資料庫的一部分數據。數據集經過篩選，以專注於皮瑪印度遺產的女性患者。數據報括血糖和胰島素水準等醫療數據，以及生活方式因素。使用方式：預測主體是否患有糖尿病（二元分類）。相關研究：西吉利托，V. （1990年）。 UCI 機器學習存放庫 https://archive.ics.uci.edu/ml“ 。 CA 歐文：加州大學資訊與計算機科學學院
餐廳顧客資料	一組關於顧客的中繼資料，包括人口統計和喜好。使用方式：將此資料集與其他兩個餐廳資料集搭配使用，以使推薦系統定型並進行測試。相關研究：Bache, K. 和 Lichman, M.(2013 年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 Irvine, CA:University of California, School of Information and Computer Science.
餐廳特色資料	一組關於餐廳及其特色的中繼資料，例如食物類型、用餐風格和地點等。使用方式：將此資料集與其他兩個餐廳資料集搭配使用，以使推薦系統定型並進行測試。相關研究：Bache, K. 和 Lichman, M.(2013 年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 Irvine, CA:University of California, School of Information and Computer Science.
餐廳評等	包含使用者給予餐廳的評等，最低為 0，最高為 2。使用方式：將此資料集與其他兩個餐廳資料集搭配使用，以使推薦系統定型並進行測試。相關研究：Bache, K. 和 Lichman, M.(2013 年)。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 Irvine, CA:University of California, School of Information and Computer Science.
Steel Annealing 多類別數據集	此數據集包含一系列來自鋼鐵退火試驗的記錄。它包含產生的鋼型別的實體屬性（寬度、厚度、類型（線圈、工作表等）。使用方式：預測兩個數值類別屬性中的任何一個;強度或強度。您也可以分析屬性之間的相互關聯。鋼級遵循一套標準，由 SAE 和其他組織定義。您要尋找特定的「等級」（類別變數），並想要瞭解所需的值。相關研究：斯特林，D. 和邦廷，W.（NA）。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文：加州大學資訊與計算機科學學院您可以在這裡找到鋼級實用指南： https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
望遠鏡數據	高能伽瑪粒子高載以及背景噪音的記錄，這兩者都是使用蒙特卡洛過程仿真的。類比的目的是提高地面大氣切倫科夫伽馬望遠鏡的精確度。這是通過利用統計方法來區分所需的信號（切倫科夫輻射陣雨）和背景噪音（上層大氣中宇宙射線起始的有聲雨）。數據已經過預先處理，以建立長軸的長軸的長方形叢集，面向相機中心。這個橢圓形（通常稱為Hillas 參數）的特性是可用於辨識的影像參數之一。使用方式：預測淋浴影像是否代表訊號或背景噪音。注意：簡單的分類精確度對這項數據並不有意義，因為將背景事件分類為訊號比將訊號事件分類為背景更差。若要比較不同的分類器，應該使用 ROC 圖形。接受背景事件作為訊號的機率必須低於下列其中一個臨界值：0.01、0.02、0.05、0.1 或 0.2。此外，請注意，背景事件的數量（h，對直音速淋浴）被低估。在實際測量中，h 或雜訊類別代表大部分的事件。相關研究：博克，R.K.（1995年）。 UCI Machine Learning 存放庫 https://archive.ics.uci.edu/ml。 CA 歐文：加州大學信息學院
天氣資料集	NOAA 提供的每小時起降天候觀測值 (將 201304 的資料合併至 201310)。天氣資料涵蓋從機場天候觀測站進行的觀測，涵蓋期間為 2013 年 4 月至 10 月。上傳至機器學習 Studio（傳統版）之前，數據集已處理如下：氣象站標識碼已對應至對應的機場標識碼與70個最繁忙的機場沒有關聯的氣象站被篩選掉 Date 數據行已分割成個別的 Year、Month 和 Day 數據行已選取下列數據行：AirportID、Year、Month、Day、Time、TimeZone、SkyCondition、 Visibility、WeatherType、DryBulbFarenheit、DryBulbCelsius、WetBulbFarenheit、WetBulbCelsius、DewPointFarenheit、DewPointCelsius、RelativeHumidity、WindSpeed、WindDirection、ValueForWindCharacter、StationPressure、PressureTendency、PressureChange、SeaLevelPressure、RecordType、HourlyPrecip、Altimeter
Wikipedia SP 500 資料集	資料是從 Wikipedia (https://www.wikipedia.org/) 上每家 S&P 500 公司的文章衍生而來 (儲存為 XML 資料)。上傳至機器學習 Studio（傳統版）之前，數據集會以下列方式處理：擷取每個特定公司的文字內容拿掉Wiki格式設定拿掉非英數位元將所有文字轉換成小寫已新增已知的公司類別請注意，對某些公司而言，找不到某篇文章，所以記錄筆數小於 500 筆。
direct_marketing.csv	數據集包含客戶數據，以及其回應直接郵件行銷活動的指示。每個數據列都代表客戶。數據集包含使用者人口統計和過去行為的九個特徵，以及三個標籤數據行（流覽、轉換和支出）。 Visit 是二進位數據行，指出客戶在行銷活動之後流覽過。轉換表示客戶已購買某些專案。支出是花費的金額。此數據集是由 Kevin Hillstrom 提供的 MineThatData 電子郵件分析和數據採礦挑戰。
lyrl2004_tokens_test.csv	RCV1-V2 路透社新聞數據集的測試範例功能。數據集有 781K 篇新聞文章及其標識碼（數據集的第一個數據行）。每個發行項都會標記化、停用字詞和字幹。大衛已提供數據集。 D. 吊楔。
lyrl2004_tokens_train.csv	RCV1-V2 路透社新聞數據集中訓練範例的功能。數據集有 23K 篇新聞文章及其標識碼（數據集的第一個數據行）。每個發行項都會標記化、停用字詞和字幹。大衛已提供數據集。 D. 吊楔。
network_intrusion_detection.csv	來自 KDD Cup 1999 知識探索和數據採礦工具競賽（kddcup99.html）的數據集。數據集已下載並儲存在 Azure Blob 記憶體中（network_intrusion_detection.csv），並同時包含定型和測試數據集。定型數據集有大約 126K 個數據列和 43 個數據行，包括標籤。三個數據行是標籤資訊的一部分，40 個數據行包含數值和字串/類別特徵，可用於定型模型。測試數據有大約 22.5K 個測試範例，與定型數據中的 43 個數據行相同。
rcv1-v2.topics.qrels.csv	RCV1-V2 路透社新聞數據集中新聞文章的主題指派。新聞文章可以指派給數個主題。每個數據列的格式為「<主題名稱><檔標識碼> 1」。數據集包含 2.6M 主題指派。大衛已提供數據集。 D. 吊楔。
student_performance.txt	這些數據來自 KDD Cup 2010 學生績效評估挑戰（學生績效評估）。使用的數據是Algebra_2008_2009定型集（Stamper、J.、Niculescu-Mizil、A.、Ritter、S.、Gordon、G.J.和 Koedinger、K.R.（2010年）。代數 I 2008-2009。 KDD Cup 2010 教育數據採礦挑戰賽的挑戰數據集。在downloads.jsp尋找它。數據集已下載並儲存在 Azure Blob 記憶體中（student_performance.txt），並包含來自學生輔導系統的記錄檔。提供的功能包括問題識別碼及其簡短描述、學生標識碼、時間戳，以及學生在以正確方式解決問題之前所做的嘗試次數。原始數據集有8.9M筆記錄;此數據集已向下取樣到前 100K 個數據列。數據集有 23 個不同類型的索引標籤分隔數據行：數值、類別和時間戳。

下一步

使用範例啟動您的實驗

共用方式為

在機器學習 Studio 中使用範例資料集（傳統）

資料集

下一步

其他資源

共用方式為

在 機器學習 Studio 中使用範例資料集 （傳統）

資料集

下一步

其他資源

在機器學習 Studio 中使用範例資料集（傳統）