练习 - 创建 Azure Notebook 并导入数据

已完成

首要任务是创建新的 Azure Notebook。 Azure Notebook 包含在主要目标为分组相关笔记本的项目中。 在本单元中,你将创建一个新项目,然后在其中创建一个笔记本。

  1. 在浏览器中导航到 https://notebooks.azure.com

  2. 使用你的 Microsoft 帐户登录。

  3. 单击页面顶部菜单中的“我的项目”。

  4. 单击“我的项目”页顶部的“+ 新建项目”按钮。

  5. 创建名为“ML Notebooks”或具有类似名称的新项目。 你可根据需要取消选中“公开”框,但公开项目可让其中的笔记本能够通过链接、社交媒体或电子邮件与他人共享。 如果你不确定如何选择,稍后可轻松地将项目更改为“公开”或“专用”。

    创建项目。

    创建项目

  6. 单击“+ 新建”,然后从菜单中选择“笔记本”,将笔记本添加到项目中。

    将笔记本添加到项目中。

    将笔记本添加到项目中

  7. 为笔记本提供“On-Time Flight Arrivals.ipynb”等名称,并选择“Python 3.6”作为语言。 这将创建使用 Python 3.6 内核的用于执行 Python 代码的笔记本。 Azure Notebook 的优势之一是可以通过选择不同的内核来使用不同的语言。

    创建笔记本。

    创建笔记本

    你可能不太了解:文件扩展名 .ipynb 代表“IPython 笔记本”。Jupyter 笔记本最初被称为 IPython(交互式 Python)笔记本,因为它们仅支持 Python 这一种编程语言。 Jupyter 这一名称是 Julia、Python 和 R 的组合,这三种语言都是 Jupyter 支持的核心编程语言。

  8. 单击笔记本,将其打开进行编辑。

    打开笔记本。

    打开笔记本

使用 Azure Notebooks 时,可以创建其他项目和笔记本。 可以从头开始创建笔记本,也可以上传现有笔记本。

Jupyter Notebook 具有高度交互性,因为它们可以包含可执行代码,所以它们为操作数据和通过其构建预测模型提供了理想平台。

  1. 在笔记本的第一个单元格中输入以下命令:

    !curl https://topics.blob.core.windows.net/public/FlightData.csv -o flightdata.csv
    

    提示

    curl 是 Bash 命令。 可以在 Jupyter 笔记本中通过为其添加感叹号前缀来执行 Bash 命令。 此命令从 Azure blob 存储下载 CSV 文件,并使用名称 flightdata.csv 来保存它。

  2. 单击“运行”按钮以执行 curl 命令。

    导入数据集。

    导入数据集

  3. 在笔记本的第二个单元格中,输入以下 Python 代码来加载 flightdata.csv,从中创建 Pandas DataFrame,并显示前五行。

    import pandas as pd
    
    df = pd.read_csv('flightdata.csv')
    df.head()
    
  4. 单击“运行”按钮以执行代码。 确认输出类似如下输出。

    加载数据集。

    加载数据集

    你创建的 DataFrame 包含美国一家主要航空公司的准点到达信息。 它拥有超过 11,000 行和 26 列。 (输出显示“5 行”是因为 DataFrame 的 head 函数只返回前五行。)每行代表一个航班,包含出发地、目的地、计划出发时间以及航班是准点到达还是晚点等信息。 我们将在本单元的稍后部分更深入地探讨相关数据。

  5. 使用“文件”->“保存和检查点”命令来保存笔记本。

使用水平滚动条向左和向右滚动,查看数据集中的所有列。 数据集包含多少列? 你能根据列名猜出每一列所代表的含义吗?