작업을 실행하여 데이터 수집
쿼리를 만들고 저장한 경우 Azure Stream Analytics 작업을 실행하여 입력의 이벤트를 처리하고 결과를 출력에 쓸 수 있습니다. 시작되면 쿼리가 중지될 때까지 영구적으로 실행됩니다. 새 이벤트 데이터를 Azure Synapse Analytics 작업 영역(출력 형식에 따라 관계형 데이터 웨어하우스의 테이블 또는 데이터 레이크의 파일로)에 지속적으로 수집합니다.
수집된 데이터 작업
Azure Synapse Analytics의 다른 데이터와 마찬가지로 수집된 스트리밍 데이터로 작업하거나, 일괄 처리 기술을 사용하여 수집하거나 Azure Synapse Link를 사용하여 운영 데이터 원본에서 동기화된 데이터와 결합할 수 있습니다.
관계형 데이터 웨어하우스의 데이터 쿼리
Azure Synapse Analytics 출력을 사용하여 스트림 처리 작업의 결과를 전용 SQL 풀의 테이블로 수집한 경우 다른 테이블과 마찬가지로 SQL 쿼리를 사용하여 테이블을 쿼리할 수 있습니다. 쿼리 결과에는 쿼리가 실행될 때 수집할 최신 데이터가 항상 포함됩니다. 데이터 웨어하우스에는 스트리밍 데이터를 위한 테이블과 일괄 수집 데이터를 위한 테이블이 포함될 수 있으므로 기록 분석을 위해 실시간 및 일괄 처리 데이터를 조인할 수 있습니다.
예를 들어 다음 SQL 코드를 사용하여 스트림 처리 결과가 포함된 factSensorReadings라는 테이블을 쿼리하고 판독값이 캡처된 날짜에 대한 자세한 데이터가 포함된 dimDate 테이블과 결합할 수 있습니다.
SELECT d.Weekday, s.SensorID, AVG(s.SensorReading) AS AverageReading
FROM factSensorReadings AS s
JOIN dimDate AS d
ON CAST(s.ReadingTime AS DATE) = d.DateKey
GROUP BY d.Weekday, s.SensorID
팁
전용 SQL 풀을 사용하여 데이터 웨어하우스의 데이터를 분석하는 방법에 대한 자세한 내용은 Microsoft Learn의 관계형 데이터 웨어하우스의 데이터 분석 모듈을 참조하세요.
데이터 레이크의 데이터 쿼리
스트리밍 데이터가 데이터 레이크의 파일로 수집되므로 Azure Synapse Analytics에서 서버리스 SQL 풀을 사용하여 해당 파일을 쿼리할 수 있습니다. 예를 들어 다음 쿼리는 데이터 파일 시스템 컨테이너의 sensors 폴더 아래에 있는 모든 Parquet 파일의 모든 필드를 읽습니다.
SELECT *
FROM OPENROWSET(
BULK 'https://mydatalake.blob.core.windows.net/data/sensors/*',
FORMAT = 'parquet') AS rows
팁
서버리스 SQL 풀을 사용하여 데이터 레이크의 파일을 쿼리하는 방법에 대한 자세한 내용은 Microsoft Learn의 Azure Synapse 서버리스 SQL 풀을 사용하여 데이터 레이크의 파일 쿼리 모듈을 참조하세요.
이 예제와 같이 Apache Spark 풀에서 실행 중인 코드를 사용하여 데이터 레이크를 쿼리할 수도 있습니다.
%%pyspark
df = spark.read.load('abfss://data@datalake.dfs.core.windows.net/sensors/*', format='parquet'
)
display(df)
팁
Apache Spark 풀을 사용하여 데이터 레이크의 파일을 쿼리하는 방법에 대한 자세한 내용은 Microsoft Learn의 Azure Synapse Analytics에서 Apache Spark를 사용하여 데이터 분석 모듈을 참조하세요.