시나리오에 적합한 통합 런타임 구성 선택
통합 런타임은 Azure Data Factory에서 제공하는 데이터 통합 솔루션을 위한 인프라의 중요한 부분입니다. 이를 위해서는 솔루션 디자인 초기에 기존 네트워크 구조와 데이터 원본에 어떻게 적응할지 충분히 고려하고 성능, 보안, 비용도 고려해야 합니다.
다양한 형식의 통합 런타임 비교
Azure Data Factory에는 Azure Integration Runtime, 자체 호스팅 통합 런타임 및 Azure-SSIS 통합 런타임이라는 세 가지 종류의 통합 런타임이 있습니다. Azure Integration Runtime의 경우 관리되는 가상 네트워크를 사용하도록 설정하여 해당 아키텍처를 전역 Azure Integration Runtime과 다르게 만들 수도 있습니다.
이 표에는 모든 통합 런타임의 일부 측면에서 차이점이 나열되어 있습니다. 실제 필요에 따라 적절한 것을 선택할 수 있습니다. Azure-SSIS 통합 런타임의 경우 Azure-SSIS 통합 런타임 만들기 문서에서 자세히 알아볼 수 있습니다.
기능 | Azure 통합 런타임 | 관리되는 가상 네트워크를 사용한 Azure Integration Runtime | 자체 호스팅 통합 런타임 |
---|---|---|---|
관리되는 컴퓨팅 | Y | Y | N |
Autoscale | Y | Y* | N |
데이터 흐름 | Y | Y | N |
온-프레미스 데이터 액세스 | N | Y** | Y |
프라이빗 링크/프라이빗 엔드포인트 | N | Y*** | Y |
사용자 지정 구성 요소/드라이버 | N | N | Y |
* TTL(Time-To-Live)이 사용하도록 설정되면 통합 런타임의 컴퓨팅 크기가 구성에 따라 예약되며 자동 크기 조정될 수 없습니다.
** 온-프레미스 환경은 Express Route 또는 VPN을 통해 Azure에 연결되어야 합니다. 사용자 지정 구성 요소 및 드라이버는 지원되지 않습니다.
*** 프라이빗 엔드포인트는 Azure Data Factory 서비스에서 관리됩니다.
적절한 형식의 통합 런타임을 선택해야 합니다. 기존 아키텍처와 데이터 통합 요구 사항에 적합해야 할 뿐만 아니라 증가하는 비즈니스 요구 사항과 향후 워크로드 증가를 더욱 충족하는 방법도 고려해야 합니다. 그러나 모든 경우에 적용할 수 있는 일률적인 방식은 없습니다. 다음 고려 사항은 결정을 내리는 데 도움이 될 수 있습니다.
통합 런타임 및 데이터 저장소 위치는 무엇인가요?
통합 런타임 위치는 백 엔드 컴퓨팅 위치와 데이터 이동, 작업 디스패치 및 데이터 변환이 수행되는 위치를 정의합니다. 더 나은 성능과 전송 효율성을 가져오려면 통합 런타임이 데이터 원본 또는 싱크에 더 가까워야 합니다.- Azure Integration Runtime은 일부 규칙(자동 해결이라고도 함)을 기반으로 가장 적합한 위치를 자동으로 검색합니다. 자세한 내용은 Azure IR 위치를 참조하세요.
- 관리되는 가상 네트워크가 있는 Azure Integration Runtime에는 데이터 팩터리와 동일한 지역이 있습니다. Azure Integration Runtime처럼 자동으로 해결될 수 없습니다.
- 자체 호스팅 통합 런타임은 로컬 컴퓨터 또는 Azure Virtual Machines 지역에 있습니다.
데이터 저장소에 공개적으로 액세스할 수 있나요?
데이터 저장소에 공개적으로 액세스할 수 있는 경우 다양한 통합 런타임 형식 간의 차이는 크지 않습니다. 저장소가 방화벽 뒤에 있거나 온-프레미스 또는 가상 네트워크와 같은 개인 네트워크에 있는 경우 더 나은 선택은 관리되는 가상 네트워크가 있는 Azure Integration Runtime 또는 자체 호스팅 통합 런타임입니다.- 방화벽 뒤 또는 개인 네트워크에 있는 데이터 저장소에 액세스하기 위해 관리되는 가상 네트워크와 함께 Azure Integration Runtime을 사용하는 경우 Private Link 서비스 및 Load Balancer와 같은 몇 가지 추가 설정이 필요합니다. 이 자습서의 예로는 프라이빗 엔드포인트를 사용하여 Data Factory 관리형 VNet에서 온-프레미스 SQL Server에 액세스를 참조할 수 있습니다. 데이터 저장소가 온-프레미스 환경에 있는 경우 온-프레미스는 Express Route 또는 S2S VPN을 통해 Azure에 연결되어야 합니다.
- 자체 호스팅 통합 런타임은 더 유연하며 추가 설정, Express Route 또는 VPN이 필요하지 않습니다. 하지만 컴퓨터를 직접 제공하고 유지 관리해야 합니다.
- Azure Integration Runtime의 공용 IP 주소를 방화벽의 허용 목록에 추가하고 데이터 저장소에 액세스하도록 허용할 수도 있지만 보안 수준이 높은 프로덕션 환경에서는 바람직한 솔루션이 아닙니다.
데이터 전송 중에 어떤 수준의 보안이 필요하나요?
매우 기밀인 데이터를 처리해야 하는 경우 데이터 전송 중 중간자 공격 등을 방어하고 싶을 것입니다. 그런 다음 프라이빗 엔드포인트 및 Private Link를 사용하여 데이터 보안을 보장하도록 선택할 수 있습니다.- 관리되는 가상 네트워크와 함께 Azure Integration Runtime을 사용하는 경우 데이터 저장소에 대한 관리 프라이빗 엔드포인트를 만들 수 있습니다. 프라이빗 엔드포인트는 관리되는 가상 네트워크 내의 Azure Data Factory 서비스에 의해 유지 관리됩니다.
- 가상 네트워크에서 프라이빗 엔드포인트를 만들 수도 있으며 자체 호스팅 통합 런타임은 이를 사용하여 데이터 저장소에 액세스할 수 있습니다.
- Azure Integration Runtime은 프라이빗 엔드포인트 및 Private Link를 지원하지 않습니다.
어떤 수준의 유지 관리를 제공할 수 있나요?
인프라, 서버 및 장비를 유지 관리하는 것은 엔터프라이즈 IT 부서의 중요한 작업 중 하나입니다. 일반적으로 많은 시간과 활동이 필요합니다.- Azure Integration Runtime과 관리되는 가상 네트워크를 사용한 Azure Integration Runtime의 업데이트, 패치, 버전과 같은 유지 관리에 대해 걱정할 필요가 없습니다. Azure Data Factory 서비스는 모든 유지 관리 작업을 처리합니다.
- 자체 호스팅 통합 런타임은 고객 컴퓨터에 설치되므로 유지 관리는 최종 사용자가 담당해야 합니다. 그러나 업데이트가 있을 때마다 자동 업데이트를 사용하도록 설정하여 자체 호스팅 통합 런타임의 최신 버전을 자동으로 가져올 수 있습니다. 자동 업데이트를 사용하도록 설정하고 자체 호스팅 통합 런타임의 버전 제어를 관리하는 방법에 대해 알아보려면 자체 호스팅 통합 런타임 자동 업데이트 및 만료 알림 문서를 참조하세요. 또한 몇 가지 일반적인 문제의 상태를 확인할 수 있도록 자체 호스팅 통합 런타임에 대한 진단 도구도 제공합니다. 진단 도구에 대해 자세히 알아보려면 자체 호스팅 통합 런타임 진단 도구 문서를 참조하세요. 또한 Azure Monitor 및 Azure Log Analytics를 사용하여 해당 데이터를 수집하고 자체 호스팅 Integration Runtime에 대한 단일 창 모니터링을 사용하도록 설정하는 것이 좋습니다. 자세한 내용은 로그 분석 컬렉션을 위한 자체 호스팅 통합 런타임 구성 문서에서 지침을 참조하세요.
어떤 동시성 요구 사항이 있나요?
대규모 데이터 마이그레이션 등 대규모 데이터를 처리할 때, 처리 효율성과 속도를 최대한 개선하길 바랍니다. 동시성은 종종 데이터 통합의 주요 요구 사항입니다.- Azure Integration Runtime은 모든 통합 런타임 형식 중에서 가장 높은 동시성 지원을 제공합니다. DIU(데이터 통합 단위)는 Azure Data Factory에서 실행되는 기능 단위입니다. 복사 작업 등 원하는 DIU 수를 선택할 수 있습니다. DIU 범위 내에서 동시에 여러 작업을 실행할 수 있습니다. 지역 그룹마다 상한이 다릅니다. Data Factory 제한 문서에서 이러한 제한에 대한 자세한 내용을 알아봅니다.
- 관리되는 가상 네트워크가 있는 Azure Integration Runtime은 Azure Integration Runtime과 유사한 메커니즘을 가지고 있지만 일부 아키텍처 제약 조건으로 인해 지원할 수 있는 동시성은 Azure Integration Runtime보다 적습니다.
- 자체 호스팅 통합 런타임이 실행할 수 있는 동시 작업은 컴퓨터 크기와 클러스터 크기에 따라 달라집니다. 더 큰 동시성이 필요한 경우 더 큰 컴퓨터를 선택하거나 클러스터에서 더 많은 자체 호스팅 통합 노드를 사용할 수 있습니다.
특정 기능이 필요하나요?
통합 런타임 형식 간에는 몇 가지 기능적 차이가 있습니다.- Dataflow는 Azure Integration Runtime 및 관리되는 가상 네트워크를 통한 Azure Integration Runtime에서 지원됩니다. 그러나 자체 호스팅 통합 런타임을 사용하여 Dataflow를 실행할 수는 없습니다.
- ODBC 드라이버, JVM 또는 SQL Server 인증서와 같은 사용자 지정 구성 요소를 설치해야 하는 경우 자체 호스팅 통합 런타임이 유일한 옵션입니다. 사용자 지정 구성 요소는 Azure Integration Runtime 또는 관리되는 가상 네트워크가 있는 Azure Integration Runtime에서 지원되지 않습니다.
통합 런타임용 아키텍처
데이터 통합의 비즈니스 요구 사항을 충족하려면 각 통합 런타임의 특성에 따라 다양한 아키텍처가 필요합니다. 다음은 참조로 사용할 수 있는 몇 가지 일반적인 아키텍처입니다.
Azure 통합 런타임
Azure Integration Runtime은 Azure 또는 비 Azure 데이터 원본에서 데이터를 이동하는 데 사용할 수 있는 완전 관리형 자동 크기 조정 컴퓨팅입니다.
- Azure Integration Runtime에서 데이터 저장소로의 트래픽은 공용 네트워크를 통해 이루어집니다.
- Azure Integration Runtime에 대해 다양한 고정 공용 IP 주소를 제공하며 이러한 IP 주소는 대상 데이터 저장소 방화벽의 허용 목록에 추가될 수 있습니다. Azure Integration Runtime의 공용 IP 주소를 가져오는 방법에 대해 자세히 알아보려면 Azure Integration Runtime IP 주소 문서를 참조하세요.
- Azure Integration Runtime은 데이터 원본 및 데이터 싱크의 지역에 따라 자동으로 해결될 수 있습니다. 아니면 특정 지역을 선택할 수도 있습니다. 더 나은 실행 성능을 제공할 수 있도록 데이터 원본 또는 싱크에 가장 가까운 지역을 선택하는 것이 좋습니다. Azure IR의 복사 작업 문제 해결 문서에서 성능 고려 사항에 대해 자세히 알아봅니다.
관리되는 가상 네트워크를 사용한 Azure Integration Runtime
관리되는 가상 네트워크와 함께 Azure Integration Runtime을 사용하는 경우 전송 중 데이터 보안을 보장하기 위해 관리 프라이빗 엔드포인트를 사용하여 데이터 원본을 연결해야 합니다. Private Link 서비스 및 Load Balancer와 같은 일부 추가 설정을 사용하면 관리 프라이빗 엔드포인트를 사용하여 온-프레미스 데이터 원본에 액세스할 수도 있습니다.
- 관리 프라이빗 엔드포인트는 다양한 환경에서 재사용할 수 없습니다. 각 환경에 대해 관리 프라이빗 엔드포인트 집합을 만들어야 합니다. 관리 프라이빗 엔드포인트에서 지원하는 모든 데이터 원본에 대해서는 지원되는 데이터 원본 및 서비스 문서를 참조하세요.
- Azure Databricks 및 Azure Functions와 같이 오케스트레이션하려는 외부 컴퓨팅 리소스에 연결하기 위해 관리 프라이빗 엔드포인트를 사용할 수도 있습니다. 지원되는 외부 컴퓨팅 리소스의 전체 목록을 보려면 지원되는 데이터 원본 및 서비스 문서를 참조하세요.
- 관리되는 가상 네트워크는 Azure Data Factory 서비스에서 관리됩니다. 관리되는 가상 네트워크와 고객 가상 네트워크 간에는 VNet 피어링이 지원되지 않습니다.
- 고객은 관리되는 가상 네트워크에서 NSG 규칙과 같은 구성을 직접 변경할 수 없습니다.
- 관리 프라이빗 엔드포인트의 속성이 환경마다 다른 경우 해당 속성을 매개 변수화하고 배포 중에 해당 값을 제공하여 이를 재정의할 수 있습니다. 자세한 내용은 CI/CD 우수 사례 문서를 참조하세요.
자체 호스팅 통합 런타임
서로 다른 환경의 데이터가 서로 간섭하는 것을 방지하고 프로덕션 환경의 보안을 보장하려면 각 환경에 해당하는 자체 호스팅 통합 런타임을 만들어야 합니다. 이는 서로 다른 환경 간의 충분한 격리를 보장합니다.
자체 호스팅 통합 런타임은 고객 관리 컴퓨터에서 실행되므로 비용, 유지 관리 및 업그레이드 활동을 최대한 줄이기 위해 동일한 환경의 다양한 프로젝트에 자체 호스팅 통합 런타임의 공유 함수를 활용할 수 있습니다. 자체 호스팅 통합 런타임 공유에 대한 자세한 내용은 Azure Data Factory에서 공유 자체 호스팅 통합 런타임 만들기 문서를 참조하세요. 동시에 전송 중에 데이터를 더욱 안전하게 만들기 위해 프라이빗 링크를 사용하여 데이터 원본과 키 자격 증명 모음을 연결하고 자체 호스팅 통합 런타임과 Azure Data Factory 서비스 간의 통신을 연결하도록 선택할 수 있습니다.
- Express Route는 필수가 아닙니다. Express Route가 없으면 데이터는 가상 네트워크나 프라이빗 링크와 같은 개인 네트워크를 통해 싱크에 도달하지 않고 공용 네트워크를 통해 도달합니다.
- 온-프레미스 네트워크가 Express Route 또는 VPN을 통해 Azure Virtual Network에 연결된 경우 자체 호스팅 통합 런타임을 허브 VNET의 가상 머신에 설치할 수 있습니다.
- 허브-스포크 가상 네트워크 아키텍처는 다양한 프로젝트뿐만 아니라 다양한 환경(Prod, QA, Dev)에서도 사용할 수 있습니다.
- 자체 호스팅 통합 런타임은 여러 데이터 팩터리와 공유될 수 있습니다. 기본 데이터 팩터리는 이를 공유된 자체 호스팅 통합 런타임으로 참조하고 다른 데이터 팩터리는 연결된 자체 호스팅 통합 런타임으로 참조하세요. 실제 자체 호스팅 통합 런타임은 클러스터에 여러 노드를 가질 수 있습니다. 통신은 기본 자체 호스팅 통합 런타임과 기본 노드 사이에서만 발생하며 작업은 기본 노드에서 보조 노드로 배포됩니다.
- 온-프레미스 데이터 자격 증명 모음의 자격 증명은 로컬 컴퓨터나 Azure Key Vault에 저장할 수 있습니다. Azure Key Vault를 적극 권장합니다.
- 자체 호스팅 통합 런타임과 데이터 팩터리 간의 통신은 프라이빗 링크를 통해 이루어질 수 있습니다. 그러나 현재 Azure Relay를 통한 대화형 작성 및 다운로드 센터에서 최신 버전으로 자동 업데이트하는 기능은 프라이빗 링크를 지원하지 않습니다. 트래픽은 온-프레미스 환경의 방화벽을 통과합니다. 자세한 내용은 Azure Data Factory용 Azure Private Link 문서를 참조하세요.
- 프라이빗 링크는 기본 데이터 팩터리에만 필요합니다. 모든 트래픽은 기본 데이터 팩터리를 통과한 다음 다른 데이터 팩터리로 이동합니다.
- CI/CD의 모든 단계에서 자체 호스팅 통합 런타임의 이름이 동일해야 합니다. 공유된 자체 호스팅 통합 런타임을 포함하고 다양한 프로덕션 단계에서 연결된 자체 호스팅 통합 런타임을 사용하기 위해 3개로 구성된 팩터리 사용을 고려할 수 있습니다. 자세한 내용은 연속 통합 및 제공 문서를 참조하세요.
- 온-프레미스 프록시 또는 허브 가상 네트워크를 통해 온-프레미스 네트워크 및 Express Route의 구성을 사용하여 트래픽이 다운로드 센터 및 Azure Relay로 이동하는 방법을 제어할 수 있습니다. 트래픽이 프록시 또는 NSG 규칙에 의해 허용되는지 확인합니다.
- 자체 호스팅 통합 런타임 노드 간의 통신을 보호하려면 TLS/SSL 인증서를 사용하여 인트라넷에서 원격 액세스를 사용하도록 설정할 수 있습니다. 자세한 내용은 TLS/SSL 인증서를 사용하여 인트라넷에서 원격 액세스 사용(고급) 문서를 참조하세요.