연습 - Azure Notebook 만들기 및 데이터 가져오기
비즈니스의 첫 번째 순서는 새 Azure Notebook을 만드는 것입니다. Azure Notebook은 관련 Notebook을 그룹화하는 것을 주 목표로 하는 프로젝트에 포함되어 있습니다. 이 단원에서는 새 프로젝트를 만든 다음, 그 안에 Notebook을 만듭니다.
브라우저에서 https://notebooks.azure.com으로 이동합니다.
Microsoft 계정을 사용하여 로그인합니다.
페이지의 위쪽 메뉴에서 내 프로젝트를 클릭합니다.
"내 프로젝트" 페이지의 위쪽에 있는 + 새 프로젝트 단추를 클릭합니다.
"ML Notebook" 또는 이와 비슷한 이름의 새 프로젝트를 만듭니다. 원하는 경우 "공개" 상자를 선택 취소할 수 있지만, 프로젝트를 공개하는 경우 링크, 소셜 미디어 또는 이메일을 통해 해당 Notebook을 다른 사람과 공유할 수 있습니다. 확실하게 선택할 수 없으면 나중에 프로젝트를 퍼블릭 또는 프라이빗으로 쉽게 변경할 수 있습니다.
프로젝트 만들기
+ 새로 만들기를 클릭하고, 메뉴에서 Notebook을 선택하여 프로젝트에 Notebook을 추가합니다.
프로젝트에 Notebook 추가
Notebook에 "On-Time Flight Arrivals.ipynb"와 같은 이름을 지정하고, Python 3.6을 언어로 선택합니다. 그러면 Python 코드를 실행하기 위한 Python 3.6 커널이 포함된 Notebook이 만들어집니다. Azure Notebook의 장점 중 하나는 다른 커널을 선택하여 다른 언어를 사용할 수 있다는 것입니다.
Notebook 만들기
.ipynb 파일 이름 확장명은 "IPython Notebook"을 나타냅니다. Jupyter Notebook은 원래 IPython(대화형 Python) Notebook이라고 했으며 Python을 프로그래밍 언어로만 지원했습니다. Jupyter라는 이름은 Jupyter에서 지원하는 핵심 프로그래밍 언어인 Julia, Python 및 R의 조합입니다.
편집을 위해 Notebook을 클릭하여 엽니다.
Notebook 열기
Azure Notebooks로 작업할 때 추가 프로젝트와 Notebook을 만들 수 있습니다. Notebook을 처음부터 만들거나 기존 Notebook을 업로드할 수 있습니다.
Jupyter Notebook은 상호 작용이 뛰어나며 실행 가능한 코드를 포함할 수 있으므로 데이터를 조작하고 예측 모델을 작성할 수 있는 완벽한 플랫폼을 제공합니다.
다음 명령을 Notebook의 첫 번째 셀에 입력합니다.
!curl https://topics.blob.core.windows.net/public/FlightData.csv -o flightdata.csv
팁
curl
은 Bash 명령입니다. Jupyter Notebook에서 Bash 명령은 느낌표를 접두사로 사용하여 실행할 수 있습니다. 이 명령은 Azure Blob 스토리지에서 CSV 파일을 다운로드하고 flightdata.csv 이름을 사용하여 저장합니다.실행 단추를 클릭하여
curl
명령을 실행합니다.데이터 세트 가져오기
Notebook의 두 번째 셀에 flydata.csv를 로드하는 다음 Python 코드를 입력하고, 이 셀에서 Pandas DataFrame을 만들고, 처음 5개 행을 표시합니다.
import pandas as pd df = pd.read_csv('flightdata.csv') df.head()
실행 단추를 클릭하여 코드를 실행합니다. 출력이 아래 출력과 비슷한지 확인합니다.
데이터 세트 로드
만든 DataFrame에 미국 주요 항공사의 정시 도착 정보가 포함되어 있습니다. 11,000개가 넘는 행과 26개의 열이 있습니다. (DataFrame의 head 함수는 처음 5개의 행만 반환하므로 출력에 "5개 행"이라고 표시됩니다.) 각 행은 하나의 항공편을 나타내며, 출발지, 목적지, 예정 출발 시간 및 항공편의 정시 도착 또는 지연 도착 여부와 같은 정보를 포함하고 있습니다. 이 모듈의 데이터는 잠시 후에 좀 더 자세히 살펴보겠습니다.
파일>저장 및 검사점 명령을 사용하여 Notebook을 저장합니다.
가로 스크롤 막대를 사용하여 왼쪽과 오른쪽으로 스크롤하면서 데이터 세트의 모든 열을 봅니다. 데이터 세트에 포함된 열은 몇 개일까요? 각 열의 열 이름이 나타내는 의미를 추측할 수 있나요?