Microsoft Fabric에서 Pandas를 통해 데이터를 읽고 쓰는 방법
Microsoft Fabric Notebook은 데이터 탐색 및 처리를 위해 가장 인기 있는 Python 라이브러리인 Pandas를 사용하여 레이크하우스 데이터와의 원활한 상호 작용을 지원합니다. Notebook 내에서 다양한 파일 형식으로 해당 레이크하우스 리소스에서 데이터를 빠르게 읽고 데이터를 다시 쓸 수 있습니다. 이 가이드에서는 사용자 고유의 Notebook을 시작하는 데 도움이 되는 코드 샘플을 제공합니다.
필수 조건
Microsoft Fabric 구독을 구매합니다. 또는 무료 Microsoft Fabric 평가판에 등록합니다.
Microsoft Fabric에 로그인합니다.
홈페이지 왼쪽 아래에 있는 환경 전환기를 사용하여 패브릭으로 전환합니다.
Notebook에 레이크하우스 데이터 로드
레이크하우스를 Microsoft Fabric Notebook에 연결한 후에는 페이지를 벗어나지 않고 저장된 데이터를 탐색하여 몇 가지 단계를 통해 Notebook에 읽을 수 있습니다. 레이크하우스 파일을 선택하면 Spark 또는 Pandas DataFrame에 ‘데이터 로드’ 옵션이 표시됩니다. 파일의 전체 ABFS 경로 또는 친숙한 상대 경로를 복사할 수도 있습니다.
‘데이터 로드’ 프롬프트 중 하나를 선택하면 해당 파일을 Notebook의 DataFrame에 로드하는 코드 셀이 생성됩니다.
Spark DataFrame을 Pandas DataFrame으로 변환
참고로 이 명령은 Spark DataFrame을 Pandas DataFrame으로 변환하는 방법을 보여 줍니다.
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
다양한 파일 형식 읽기 및 쓰기
참고 항목
특정 패키지의 버전을 수정하면 해당 패키지에 의존하는 다른 패키지가 손상될 수 있습니다. 예를 들어 다운그레이드로 azure-storage-blob
인해 문제가 발생할 수 있으며, 다른 라이브러리(예: 및 Pandas
Pandas
mssparkutils
)를 사용하는 fsspec_wrapper
다양한 라이브러리에 문제가 notebookutils
발생할 수 있습니다.
여기에서 각 런타임 에 대해 미리 설치된 패키지 및 해당 버전 목록을 볼 수 있습니다.
이러한 코드 샘플에서는 다양한 파일 형식을 읽고 쓰는 Pandas 작업에 대해 설명합니다.
참고 항목
이러한 코드 샘플에서 파일 경로를 바꿔야 합니다. Pandas는 여기에 표시된 대로 상대 경로와 전체 ABFS 경로를 모두 지원합니다. 이전 단계에 따라 인터페이스에서 두 형식의 경로를 검색하고 복사할 수 있습니다.
CSV 파일에서 데이터 읽기
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
CSV 파일로 데이터 쓰기
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Parquet 파일에서 데이터 읽기
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Parquet 파일로 데이터 쓰기
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Excel 파일에서 데이터 읽기
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values. Also need to add correct filepath after Files/ if file is placed in different folders
# if using default lakehouse that attached to the notebook use the code to replace below: df = pandas.read_excel("/lakehouse/default/Files/FILENAME.xlsx")
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Excel 파일로 데이터 쓰기
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
JSON 파일에서 데이터 읽기
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
JSON 파일로 데이터 쓰기
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
관련 콘텐츠
- 데이터 랭글러를 사용하여 데이터 정리 및 시각화
- ML 모델 학습 시작