데이터의 역할
데이터를 사용하여 스토리를 전달하는 것은 장기적인 과정이며 그 시작은 보통 데이터 분석가가 아닙니다. 데이터는 다른 곳에서 가져와야 합니다. 사용할 수 있는 곳으로 데이터를 가져오는 일은 특히 기업이라는 맥락에서는 개인의 능력 범위를 벗어나는 경우가 많습니다.
오늘날의 애플리케이션 및 프로젝트는 크고 복잡하므로 여러 개인의 기술과 지식을 활용하는 경우가 많습니다. 각 사용자는 프로젝트가 개념에서 출발하여 프로덕션이 될 때까지 고유의 능력과 전문 지식을 제공하고 협업하여 작업과 책임을 조정합니다.
비즈니스 분석가 및 비즈니스 인텔리전스 개발자와 같은 역할이 데이터 처리 및 해석의 기준이 된 것은 그리 오래된 일이 아닙니다. 그러나 데이터 크기와 데이터 형식의 종류가 폭발적으로 증가하면서 이러한 역할이 데이터 엔지니어링 및 분석 프로세스를 현대화하고 간소화하는 보다 전문화된 기술 세트로 발전할 수 있었습니다.
이어지는 섹션에서는 데이터 검색 및 해석을 위해 전반적인 스펙트럼에서 데이터의 다양한 역할과 특정 책임을 살펴봅니다.
비즈니스 분석가
데이터 분석가
데이터 엔지니어
데이터 과학자
데이터베이스 관리자
비즈니스 분석가
데이터 분석가와 비즈니스 분석가는 유사하지만 두 역할의 주요 차이점은 데이터를 사용하는 방식이 다르다는 점입니다. 비즈니스 분석가는 비즈니스와 긴밀하게 관련되어 있으며 시각화를 통해 제공된 데이터를 해석하는 전문가입니다. 한 사람이 데이터 분석가와 비즈니스 분석가의 책임을 동시에 맡는 경우가 종종 있습니다.
데이터 분석가
데이터 분석가는 기업에서 Microsoft Power BI와 같은 시각화 및 보고 도구를 사용하여 데이터 자산 가치를 최대화하도록 합니다. 데이터 분석가는 데이터 프로파일링, 정리 및 변환과 또한 해당 책임에는 확장 가능하고 효과적인 의미 체계 모델을 설계 및 빌드하고, 고급 분석 기능을 분석용 보고서로 사용하도록 설정하고 구현하는 것도 포함됩니다. 데이터 분석가는 적절한 관련자와 협업하여 적절하고 필요한 데이터 및 보고 요구 사항을 확인한 다음, 원시 데이터를 관련성 있고 의미 있는 인사이트로 전환하는 작업을 수행합니다.
또한 데이터 분석가는 보고서에 사용되는 보고서, 대시보드, 작업 영역 및 기본 의미 체계 모델을 포함하여 Power BI 자산의 관리를 담당합니다. 모든 Power BI 자산 및 데이터의 보안을 유지하기 위해 관련자 요구 사항과 함께 적절한 보안 절차를 구현하고 구성하는 작업을 담당합니다.
데이터 분석가는 데이터 엔지니어와 협업하여 관련자 요구 사항을 충족하는 적절한 데이터 원본을 판단하고 찾으며 데이터 엔지니어 및 데이터베이스 관리자와 작업하여 데이터 분석가가 필요한 데이터 원본에 적절하게 액세스할 수 있도록 합니다. 또한 데이터 분석가는 데이터 엔지니어와 협업하여 새 프로세스를 파악하거나 분석을 위한 데이터를 수집하는 기존 프로세스를 개선합니다.
데이터 엔지니어
데이터 엔지니어는 온-프레미스와 클라우드에 있는 데이터 플랫폼 기술을 프로비저닝하고 설정합니다. 데이터 엔지니어는 여러 소스에서 정형 및 비정형 데이터의 흐름을 관리하고 보호합니다. 데이터 엔지니어가 사용하는 데이터 플랫폼에는 관계형 데이터베이스, 비관계형 데이터베이스, 데이터 스트림 및 파일 저장소가 포함될 수 있습니다. 데이터 엔지니어는 데이터 서비스가 데이터 플랫폼 간에 안전하고 원활하게 통합되도록 합니다.
데이터 엔지니어의 주요 임무에는 온-프레미스 및 클라우드 데이터 서비스와 도구를 사용한 여러 원본의 데이터 수집, 송신 및 변환하는 작업이 포함됩니다. 데이터 엔지니어는 비즈니스 관련자와 협업하여 데이터 요구 사항을 파악하고 충족합니다. 솔루션을 디자인하고 구현합니다.
데이터 엔지니어와 데이터베이스 관리자의 태스크 및 임무에는 유사한 점도 있긴 하지만 데이터 엔지니어의 작업 범위는 데이터베이스와 해당 데이터베이스가 호스트되는 서버를 관리하는 것보다는 크지만 전반적인 운영 데이터 관리는 포함하지 않을 가능성이 큽니다.
데이터 엔지니어는 비즈니스 인텔리전스 및 데이터 과학 프로젝트에 상당히 큰 역할을 합니다. 데이터 엔지니어가 데이터를 가져오면(즉, 데이터를 랭글링하면) 데이터 과학자가 자신의 업무 영역에 집중할 수 있으므로 프로젝트가 더욱 빠르게 진행됩니다.
데이터 분석가는 일반적으로 최신 데이터 웨어하우스 또는 데이터 레이크에서 제공되는 의미 체계 모델을 최적화할 수 있도록 지원하므로 다양한 구조화 및 비구조적 데이터 원본에 액세스할 수 있도록 데이터 엔지니어와 긴밀히 협력합니다.
데이터베이스 관리자와 비즈니스 인텔리전스 전문가는 모두 이러한 많은 양의 데이터를 처리하는 데 사용되는 도구 및 기술을 학습하여 데이터 엔지니어 역할로 전환할 수 있습니다.
데이터 과학자
데이터 과학자는 고급 분석 작업을 수행하여 데이터에서 값을 추출합니다. 이러한 업무는 서술적 분석부터 예측 분석까지 다양할 수 있습니다. 서술적 분석은 EDA(실험적 데이터 분석)로 알려진 프로세스를 통해 데이터를 평가합니다. 예측 분석은 기계 학습에서 비정상 또는 패턴을 감지할 수 있는 모델링 기법을 적용하는 데 사용됩니다. 이러한 분석은 예측 모델의 중요한 부분입니다.
설명적 분석 및 예측적 분석은 데이터 과학자의 업무 중 일부분에 지나지 않습니다. 일부 데이터 과학자도 딥 러닝 관련 업무를 수행하면서 사용자 지정된 알고리즘을 사용하여 복잡한 데이터 문제를 해결하기 위해 반복적으로 실험을 수행할 수 있습니다.
필자의 경험상 데이터 과학 프로젝트에서는 데이터 랭글링 및 기능 엔지니어링이 업무에서 차지하는 비중이 많습니다. 데이터 엔지니어가 자신의 기술을 활용하여 데이터를 성공적으로 랭글링하면 데이터 과학자가 실험 프로세스의 속도를 높일 수 있습니다.
표면적으로는 데이터 과학자 및 데이터 분석가가 수행하는 작업에는 큰 차이가 있는 것처럼 보이지만 실제로는 그렇지 않습니다. 데이터 과학자는 데이터를 살펴보고 답변이 필요한 질문을 판단하고 가설이나 실험을 고안하고 데이터 시각화 및 보고를 지원하는 데이터 분석가의 도움을 받습니다.
데이터베이스 관리자
데이터베이스 관리자는 Microsoft Azure 데이터 서비스 및 Microsoft SQL Server를 기반으로 하는 클라우드 네이티브 및 하이브리드 데이터 플랫폼 솔루션의 운영 측면을 구현하고 관리합니다. 데이터베이스 관리자는 데이터베이스 솔루션의 전체 사용 가능성과 일관성 있는 성능 및 최적화를 담당합니다. 관련자와 협력하여 데이터 백업 및 복구 계획을 위한 정책, 도구 및 프로세스를 파악하고 구현합니다.
데이터베이스 관리자의 역할은 데이터 엔지니어의 역할과 다릅니다. 데이터베이스 관리자는 데이터베이스 및 해당 데이터베이스가 상주하는 하드웨어의 전반적인 상태를 모니터링하고 관리하는 한편, 데이터 엔지니어는 비즈니스 요구 사항을 충족하기 위해 데이터 랭글링(즉, 수집), 변환, 유효성 검사 및 정리 프로세스에 관여합니다.
또한 데이터베이스 관리자는 데이터의 전반적인 보안을 관리하고 비즈니스 요구 사항에 따라 데이터에 대한 사용자 액세스 및 권한을 부여하거나 제한합니다.