练习 - 创建 Azure Notebook 并导入数据
首要任务是创建新的 Azure Notebook。 Azure Notebook 包含在主要目标为分组相关笔记本的项目中。 在本单元中,你将创建一个新项目,然后在其中创建一个笔记本。
在浏览器中导航到 https://notebooks.azure.com
使用你的 Microsoft 帐户登录。
单击页面顶部菜单中的“我的项目”。
单击“我的项目”页顶部的“+ 新建项目”按钮。
创建名为“ML Notebooks”或具有类似名称的新项目。 你可根据需要取消选中“公开”框,但公开项目可让其中的笔记本能够通过链接、社交媒体或电子邮件与他人共享。 如果你不确定如何选择,稍后可轻松地将项目更改为“公开”或“专用”。
创建项目
单击“+ 新建”,然后从菜单中选择“笔记本”,将笔记本添加到项目中。
将笔记本添加到项目中
为笔记本提供“On-Time Flight Arrivals.ipynb”等名称,并选择“Python 3.6”作为语言。 这将创建使用 Python 3.6 内核的用于执行 Python 代码的笔记本。 Azure Notebook 的优势之一是可以通过选择不同的内核来使用不同的语言。
创建笔记本
你可能不太了解:文件扩展名 .ipynb 代表“IPython 笔记本”。Jupyter 笔记本最初被称为 IPython(交互式 Python)笔记本,因为它们仅支持 Python 这一种编程语言。 Jupyter 这一名称是 Julia、Python 和 R 的组合,这三种语言都是 Jupyter 支持的核心编程语言。
单击笔记本,将其打开进行编辑。
打开笔记本
使用 Azure Notebooks 时,可以创建其他项目和笔记本。 可以从头开始创建笔记本,也可以上传现有笔记本。
Jupyter Notebook 具有高度交互性,因为它们可以包含可执行代码,所以它们为操作数据和通过其构建预测模型提供了理想平台。
在笔记本的第一个单元格中输入以下命令:
!curl https://topics.blob.core.windows.net/public/FlightData.csv -o flightdata.csv
提示
curl
是 Bash 命令。 可以在 Jupyter 笔记本中通过为其添加感叹号前缀来执行 Bash 命令。 此命令从 Azure blob 存储下载 CSV 文件,并使用名称 flightdata.csv 来保存它。单击“运行”按钮以执行
curl
命令。导入数据集
在笔记本的第二个单元格中,输入以下 Python 代码来加载 flightdata.csv,从中创建 Pandas DataFrame,并显示前五行。
import pandas as pd df = pd.read_csv('flightdata.csv') df.head()
单击“运行”按钮以执行代码。 确认输出类似如下输出。
加载数据集
你创建的 DataFrame 包含美国一家主要航空公司的准点到达信息。 它拥有超过 11,000 行和 26 列。 (输出显示“5 行”是因为 DataFrame 的 head 函数只返回前五行。)每行代表一个航班,包含出发地、目的地、计划出发时间以及航班是准点到达还是晚点等信息。 我们将在本单元的稍后部分更深入地探讨相关数据。
使用“文件”->“保存和检查点”命令来保存笔记本。
使用水平滚动条向左和向右滚动,查看数据集中的所有列。 数据集包含多少列? 你能根据列名猜出每一列所代表的含义吗?