Упражнение. Создание записной книжки Azure и импорт данных

Завершено

Для начала нужно создать записную книжку Azure. Записные книжки Azure содержатся в проектах, предназначенных, в первую очередь, для группирования связанных записных книжек. В этом модуле вы создадите новый проект, а внутри него — записную книжку.

  1. В браузере перейдите по адресу https://notebooks.azure.com

  2. Войдите с помощью учетной записи Майкрософт.

  3. Щелкните Мои проекты в меню вверху страницы.

  4. Нажмите кнопку + Новый проект в верхней части страницы "Мои проекты".

  5. Создайте новый проект и назовите его "Записные книжки для ML" или что-нибудь в этом духе. Можете снять флажок в поле "Общедоступный", если хотите, но если проект будет общедоступным, вы сможете делиться записными книжками с другими через ссылки, в социальных сетях или по электронной почте. Если вы не знаете, что выбрать, проект можно сделать общедоступным или закрытым позже.

    Создание проекта.

    Создание проекта

  6. Щелкните + Создать и выберите Записная книжка в меню, чтобы добавить записную книжку в проект.

    Добавление в проект записной книжки.

    Добавление в проект записной книжки

  7. Присвойте ей имя, например "On-Time Flight Arrivals.ipynb", и в качестве языка выберите Python 3.6. Вы создадите записную книжку с ядром Python 3.6 для выполнения кода Python. Одним из преимуществ записных книжек Azure является возможность использовать различные языки, выбирая разные ядра.

    Создание записной книжки.

    Создание записной книжки

    Если вам интересно, расширение имени файла .ipynb расшифровывается как "IPython notebook" (записная книжка IPython). Записные книжки Jupyter раньше назывались записными книжками IPython (Interactive Python) и поддерживали только Python в качестве языка программирования. Название Jupyter образовано от слов Julia, Python и R — основных поддерживаемых языков программирования в Jupyter.

  8. Щелкните записную книжку, чтобы открыть ее для редактирования.

    Открытие записной книжки.

    Открытие записной книжки

При работе с записными книжками Azure можно создавать дополнительные проекты и записные книжки. Записные книжки можно создать с нуля или загрузить существующие.

Записные книжки Jupyter очень интерактивны, и так как они могут содержать исполняемый код, это идеальная платформа для обработки данных и построения моделей прогнозирования на их основе.

  1. В первой ячейке записной книжки введите следующую команду:

    !curl https://topics.blob.core.windows.net/public/FlightData.csv -o flightdata.csv
    

    Совет

    curl — это команда Bash. В записной книжке Jupyter можно выполнять команды Bash, ставя перед ними восклицательный знак. Эта команда загружает CSV-файл из хранилища BLOB-объектов Azure и сохраняет его под именем flightdata.csv.

  2. Нажмите кнопку Запустить, чтобы выполнить команду curl.

    Импорт набора данных.

    Импорт набора данных

  3. Введите во вторую ячейку записной книжки следующий код Python, чтобы загрузить flightdata.csv, создать из этого файла кадр данных Pandas и вывести первые пять строк.

    import pandas as pd
    
    df = pd.read_csv('flightdata.csv')
    df.head()
    
  4. Нажмите кнопку Запустить, чтобы выполнить код. Убедитесь, что выходные данные похожи на следующие.

    Загрузка набора данных.

    Загрузка набора данных

    Созданный кадр данных содержит сведения о своевременном прибытии рейсов крупной авиакомпании США. В нем более 11 000 строк и 26 столбцов. (Выходные данные говорят "5 строк", так как головная функция Кадра данных возвращает только первые пять строк.) Каждая строка представляет один рейс и содержит такие сведения, как источник, место назначения, время запланированного вылета и время прибытия рейса во время или поздно. Мы рассмотрим данные подробнее чуть позже в этом модуле.

  5. Используйте команду Файл ->Сохранить и создать контрольную точку, чтобы сохранить записную книжку.

Просмотрите все столбцы в наборе данных, используя полосу горизонтальной прокрутки для прокрутки влево и вправо. Сколько столбцов содержит набор данных? Вы уже догадались, какие данные содержит каждый столбец, по его имени?