자습서: Transact-SQL을 사용하여 SQL Server 데이터 풀로 데이터 수집
적용 대상: SQL Server 2019(15.x)
중요
Microsoft SQL Server 2019 빅 데이터 클러스터 추가 기능이 사용 중지됩니다. SQL Server 2019 빅 데이터 클러스터에 대한 지원은 2025년 2월 28일에 종료됩니다. Software Assurance를 사용하는 SQL Server 2019의 모든 기존 사용자는 플랫폼에서 완전히 지원되며, 소프트웨어는 지원 종료 시점까지 SQL Server 누적 업데이트를 통해 계속 유지 관리됩니다. 자세한 내용은 공지 블로그 게시물 및 Microsoft SQL Server 플랫폼의 빅 데이터 옵션을 참조하세요.
이 자습서에서는 Transact-SQL을 사용하여 SQL Server 2019 빅 데이터 클러스터의 데이터 풀로 데이터를 로드하는 방법을 보여 줍니다. SQL Server 빅 데이터 클러스터 사용하면 다양한 원본의 데이터를 수집하여 데이터 풀 인스턴스에 분산시킬 수 있습니다.
이 자습서에서는 다음을 하는 방법을 알아볼 수 있습니다.
- 데이터 풀에 외부 테이블을 만듭니다.
- 샘플 웹 클릭스트림 데이터를 데이터 풀 테이블에 삽입합니다.
- 데이터 풀 테이블의 데이터를 로컬 테이블과 조인합니다.
팁
원하는 경우 이 자습서의 명령에 대한 스크립트를 다운로드하고 실행할 수 있습니다. 자세한 내용은 GitHub에서 데이터 풀 샘플을 참조하세요.
필수 조건
- 빅 데이터 도구
- kubectl
- Azure Data Studio
- SQL Server 2019 확장
- SQL Server 빅 데이터 클러스터에 샘플 데이터 로드
데이터 풀에서 외부 테이블 만들기
다음 단계에서는 web_clickstream_clicks_data_pool 데이터 풀에 외부 테이블을 만듭니다. 그런 다음 이 테이블을 빅 데이터 클러스터로 데이터를 수집하기 위한 위치로 사용할 수 있습니다.
Azure Data Studio에서 사용자의 빅 데이터 클러스터의 SQL Server 마스터 인스턴스에 연결합니다. 자세한 내용은 SQL Server 마스터 인스턴스에 연결을 참조하세요.
서버 창에서 연결을 두 번 클릭하여 SQL Server 마스터 인스턴스의 서버 대시보드를 표시합니다. 새 쿼리를 선택합니다.
다음 Transact-SQL 명령을 실행하여 마스터 인스턴스의 Sales 데이터베이스로 컨텍스트를 변경합니다.
USE Sales GO
외부 데이터 원본이 존재하지 않는 경우 데이터 풀에 외부 데이터 원본을 만듭니다.
IF NOT EXISTS(SELECT * FROM sys.external_data_sources WHERE name = 'SqlDataPool') CREATE EXTERNAL DATA SOURCE SqlDataPool WITH (LOCATION = 'sqldatapool://controller-svc/default');
데이터 풀에 web_clickstream_clicks_data_pool 외부 테이블을 만듭니다.
IF NOT EXISTS(SELECT * FROM sys.external_tables WHERE name = 'web_clickstream_clicks_data_pool') CREATE EXTERNAL TABLE [web_clickstream_clicks_data_pool] ("wcs_user_sk" BIGINT , "i_category_id" BIGINT , "clicks" BIGINT) WITH ( DATA_SOURCE = SqlDataPool, DISTRIBUTION = ROUND_ROBIN );
데이터 풀 외부 테이블을 만드는 작업은 차단 작업입니다. 모든 백 엔드 데이터 풀 노드에서 지정된 테이블이 만들어질 때 컨트롤이 반환됩니다. 만들기 작업 중 실패가 발생한 경우 오류 메시지가 호출자에게 반환됩니다.
데이터 로드
다음 단계에서는 이전 단계에서 만든 외부 테이블을 사용하여 샘플 웹 클릭스트림 데이터를 데이터 풀에 수집합니다.
INSERT INTO
문을 사용하여 쿼리 결과를 데이터 풀(web_clickstream_clicks_data_pool 외부 테이블)에 삽입합니다.INSERT INTO web_clickstream_clicks_data_pool SELECT wcs_user_sk, i_category_id, COUNT_BIG(*) as clicks FROM sales.dbo.web_clickstreams_hdfs INNER JOIN sales.dbo.item it ON (wcs_item_sk = i_item_sk AND wcs_user_sk IS NOT NULL) GROUP BY wcs_user_sk, i_category_id HAVING COUNT_BIG(*) > 100;
두 개의 선택 쿼리를 사용하여 삽입된 데이터를 검사합니다.
SELECT count(*) FROM [dbo].[web_clickstream_clicks_data_pool] SELECT TOP 10 * FROM [dbo].[web_clickstream_clicks_data_pool]
데이터 쿼리
데이터 풀의 쿼리에서 저장된 결과를 Sales 테이블의 로컬 데이터와 조인합니다.
SELECT TOP (100)
w.wcs_user_sk,
SUM( CASE WHEN i.i_category = 'Books' THEN 1 ELSE 0 END) AS book_category_clicks,
SUM( CASE WHEN w.i_category_id = 1 THEN 1 ELSE 0 END) AS [Home & Kitchen],
SUM( CASE WHEN w.i_category_id = 2 THEN 1 ELSE 0 END) AS [Music],
SUM( CASE WHEN w.i_category_id = 3 THEN 1 ELSE 0 END) AS [Books],
SUM( CASE WHEN w.i_category_id = 4 THEN 1 ELSE 0 END) AS [Clothing & Accessories],
SUM( CASE WHEN w.i_category_id = 5 THEN 1 ELSE 0 END) AS [Electronics],
SUM( CASE WHEN w.i_category_id = 6 THEN 1 ELSE 0 END) AS [Tools & Home Improvement],
SUM( CASE WHEN w.i_category_id = 7 THEN 1 ELSE 0 END) AS [Toys & Games],
SUM( CASE WHEN w.i_category_id = 8 THEN 1 ELSE 0 END) AS [Movies & TV],
SUM( CASE WHEN w.i_category_id = 9 THEN 1 ELSE 0 END) AS [Sports & Outdoors]
FROM [dbo].[web_clickstream_clicks_data_pool] as w
INNER JOIN (SELECT DISTINCT i_category_id, i_category FROM item) as i
ON i.i_category_id = w.i_category_id
GROUP BY w.wcs_user_sk;
정리
다음 명령을 사용하여 이 자습서에서 만든 데이터베이스 개체를 제거합니다.
DROP EXTERNAL TABLE [dbo].[web_clickstream_clicks_data_pool];
다음 단계
Spark 작업을 사용하여 데이터 풀에 데이터를 수집하는 방법에 대해 알아봅니다.