소개
다양한 원본에서 Power BI로 데이터를 가져온 후 데이터를 검토한 결과 분석을 시작할 수 없음을 알게 된 상황을 고려해 보세요. 데이터로 분석을 시작할 수 없는 이유는 무엇일까요?
데이터를 검사하면 다음과 같은 다양한 문제를 발견하게 됩니다.
고용 상태라는 열에 숫자만 있습니다.
여러 열에 오류가 있습니다.
일부 열에는 null 값이 있습니다.
일부 열의 고객 ID가 반복해서 복제된 것처럼 표시됩니다.
단일 주소 열에 번지, 구/군/시, 시/도 및 우편번호가 결합되어 있습니다.
데이터 작업을 시작했지만 보고서에서 시각적 개체를 만들 때마다 잘못된 데이터, 잘못된 결과와 총 판매액이 올바르지 않은 단순한 보고서가 생성됩니다.
오염된 데이터는 부담이 될 수 있으니, 힘들어 보이더라도 이 의미 체계 모델을 최대한 오염되지 않은 상태로 만들 방법을 알아내야 합니다.
다행히 Power BI와 파워 쿼리는 데이터를 정리하고 준비할 수 있는 강력한 환경을 제공합니다. 데이터 정리는 다음과 같은 이점을 제공합니다.
집계 및 계산을 수행할 때 측정값과 열에서 더 정확한 결과가 도출됩니다.
테이블이 정리되어 사용자가 직관적으로 데이터를 찾을 수 있습니다.
중복 항목이 제거되므로 데이터 탐색이 더 쉬워집니다. 슬라이서와 필터에서 사용할 수 있는 열도 생성됩니다.
복잡한 열을 간단한 열 2개로 분할할 수 있습니다. 여러 열을 하나의 열로 결합하여 가독성을 높일 수 있습니다.
코드와 정수를 사람이 읽을 수 있는 값으로 바꿀 수 있습니다.
이 모듈에서 학습할 내용은 다음과 같습니다.
불일치, 예기치 않은 값 또는 null 값과 데이터 품질 문제를 해결합니다.
사용자 친화적인 값 대체를 적용합니다.
데이터를 프로파일링하여 데이터를 사용하기 전에 특정 열에 대해 자세히 알아봅니다.
열 데이터 형식을 평가하고 변환합니다.
테이블 구조에 데이터 모양 변환을 적용합니다.
쿼리를 결합합니다.
열 및 쿼리에 사용자 친화적인 명명 규칙을 적용합니다.
고급 편집기에서 M 코드를 편집합니다.