다음을 통해 공유


SQL Server 데이터베이스를 사용하여 Machine Learning Studio(클래식)로 분석 수행

적용 대상: 적용 대상Machine Learning Studio(클래식) 미적용 대상Azure Machine Learning

Important

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

종종 온-프레미스 데이터를 사용하는 기업은 기계 학습 워크로드에 클라우드의 규모와 민첩성을 활용하려고 합니다. 하지만 클라우드로 온-프레미스 데이터를 이동하여 현재 비즈니스 프로세스 및 워크플로를 중단하지 않으려고 합니다. Machine Learning Studio(클래식)는 이제 SQL Server 데이터베이스에서 데이터를 읽은 다음, 이 데이터로 모델을 학습하고 채점할 수 있습니다. 더 이상 클라우드와 온-프레미스 서버 간에 데이터를 수동으로 복사하고 동기화할 필요가 없습니다. 대신 Machine Learning Studio(클래식)의 데이터 가져오기 모듈은 교육 및 점수 매기기 작업을 위해 SQL Server 데이터베이스에서 직접 데이터를 읽을 수 있습니다.

이 문서에서는 Machine Learning Studio(클래식)로 SQL Server 데이터를 수신하는 방법에 대한 개요를 제공합니다. 작업 영역, 모듈, 데이터 세트, 실험 등과 같은 Studio(클래식) 개념에 익숙하다고 가정합니다.

참고 항목

이 기능은 무료 작업 영역에 사용할 수 없습니다. Machine Learning 가격 책정 및 계층에 대한 자세한 내용은 Machine Learning Studio(클래식) 가격 책정을 참조하세요.

Data Factory 자체 호스팅 통합 런타임 설치

Machine Learning Studio(클래식)에서 SQL Server 데이터베이스에 액세스하려면 Data Factory 자체 호스팅 통합 런타임(이전의 데이터 관리 게이트웨이)을 다운로드하고 설치해야 합니다. Machine Learning Studio(클래식)에서 연결을 구성할 때 아래에 설명된 데이터 게이트웨이 다운로드 및 등록 대화 상자를 사용하여 IR(Integration Runtime)을 다운로드하고 설치할 수 있습니다.

Microsoft 다운로드 센터에서 MSI 설치 패키지를 다운로드하고 실행하여 IR을 미리 설치할 수도 있습니다. MSI를 사용하여 모든 설정이 유지되는 기존 IR을 최신 버전으로 업그레이드할 수도 있습니다.

Data Factory 자체 호스팅 통합 런타임에는 다음과 같은 필수 조건이 있습니다.

  • Data Factory 자체 호스팅 통합에는 .NET Framework 4.6.1 이상이 있는 64비트 운영 체제가 필요합니다.
  • 지원되는 Windows 운영 체제 버전은 Windows 10, Windows Server 2012, Windows Server 2012 R2, Windows Server 2016입니다.
  • IR 컴퓨터에 권장되는 구성은 최소 2GHz, 4코어 CPU, 8GB RAM 및 80GB 디스크입니다.
  • 호스트 컴퓨터가 최대 절전 모드인 경우 IR은 데이터 요청에 응답하지 않습니다. 따라서 IR을 설치하기 전에 컴퓨터에 적절한 전원 계획을 구성합니다. 컴퓨터가 최대 절전 모드로 구성된 경우 IR 설치에 메시지가 표시됩니다.
  • 복사 작업은 특정 빈도에서 발생하므로 컴퓨터의 리소스 사용량(CPU, 메모리)도 최대 및 유휴 시간에서 동일한 패턴을 따릅니다. 리소스 사용률은 이동하는 데이터 양에 따라 달라집니다. 여러 복사 작업이 진행 중인 경우 사용량이 많은 시간 동안 리소스 사용량이 증가하는 것을 볼 수 있습니다. 위에 나열된 최소 구성이 기술적으로는 충분하지만 데이터 이동에 대한 특정 부하에 따라 최소 구성보다 더 많은 리소스를 사용하는 구성이 좋습니다.

Data Factory 자체 호스팅 통합 런타임을 설정하고 사용하는 경우, 다음 사항을 고려하세요.

  • 단일 컴퓨터에 하나의 IR 인스턴스만 설치할 수 있습니다.

  • 여러 온-프레미스 데이터 원본에 대해 단일 IR을 사용할 수 있습니다.

  • 서로 다른 컴퓨터의 여러 RS를 동일한 온-프레미스 데이터 원본에 연결할 수 있습니다.

  • 한 번에 하나의 작업 영역에 대해서만 RS를 구성합니다. 현재는 작업 영역에서 RS를 공유할 수 없습니다.

  • 단일 작업 영역에 대해 여러 IR을 구성할 수 있습니다. 예를 들어 개발 중에 테스트 데이터 원본에 연결된 IR을 사용하고 운영 준비가 되면 프로덕션 IR을 사용할 수 있습니다.

  • IR이 데이터 원본과 동일한 머신에 있을 필요는 없습니다. 그러나 데이터 원본에 더 가깝게 유지하면 게이트웨이가 데이터 원본에 연결하는 시간이 줄어듭니다. 게이트웨이와 데이터 원본이 리소스를 위해 경쟁하지 않도록 온-프레미스 데이터 원본을 호스트하는 컴퓨터와 다른 컴퓨터에 IR을 설치하는 것이 좋습니다.

  • Power BI 또는 Azure Data Factory 시나리오를 제공하는 컴퓨터에 IR이 이미 설치된 경우 다른 컴퓨터에 Machine Learning Studio(클래식)용 별도의 IR을 설치합니다.

    참고 항목

    동일한 컴퓨터에서 Data Factory 자체 호스팅 Integration Runtime 및 Power BI Gateway를 실행할 수 없습니다.

  • 다른 데이터에 Azure ExpressRoute를 사용하는 경우에도 Machine Learning Studio(클래식)용 Data Factory 자체 호스팅 Integration Runtime을 사용해야 합니다. ExpressRoute를 사용하는 경우에도 데이터 원본을 온-프레미스 데이터 원본(방화벽 뒤)으로 처리해야 합니다. Data Factory 자체 호스팅 Integration Runtime을 사용하여 Machine Learning과 데이터 원본 간의 연결을 설정합니다.

Data Factory의 Integration Runtime 문서에서 설치 필수 구성 요소, 설치 단계 및 문제 해결 팁에 대한 자세한 정보를 찾을 수 있습니다.

SQL Server 데이터베이스에서 Machine Learning으로 데이터 수신

이 연습에서는 Azure Machine Learning 작업 영역에서 Azure Data Factory Integration Runtime을 설정하고 구성한 다음 SQL Server 데이터베이스에서 데이터를 읽습니다.

시작하기 전에 studio.azureml.net에 대한 브라우저의 팝업 차단을 사용하지 않도록 설정합니다. Google Chrome 브라우저를 사용하는 경우 Google Chrome WebStore 클릭 한 번 앱 확장에서 사용할 수 있는 여러 플러그 인 중 하나를 다운로드하여 설치합니다.

참고 항목

Azure Data Factory 자체 호스팅 Integration Runtime은 이전에 데이터 관리 Gateway라고 했습니다. 단계별 자습서는 게이트웨이로 계속 참조합니다.

1단계: 게이트웨이 만들기

첫 번째 단계는 SQL 데이터베이스에 액세스하도록 게이트웨이를 만들고 설정하는 것입니다.

  1. Machine Learning Studio(클래식)에 로그인하고 작업할 작업 영역을 선택합니다.

  2. 왼쪽에서 설정 블레이드를 클릭하고 위쪽의 데이터 게이트웨이 탭을 클릭합니다.

  3. 화면 아래쪽에서 새 데이터 게이트웨이를 클릭합니다.

    새 데이터 게이트웨이

  4. 새 데이터 게이트웨이 대화 상자에서 게이트웨이 이름을 입력하고 필요에 따라 설명을 추가합니다. 오른쪽 아래 모서리에 있는 화살표를 클릭하여 구성의 다음 단계로 이동합니다.

    게이트웨이 이름 및 설명 입력

  5. 데이터 게이트웨이 다운로드 및 등록 대화 상자에서 게이트웨이 등록 키를 클립보드에 복사합니다.

    데이터 게이트웨이 다운로드 및 등록

  6. Microsoft 데이터 관리 게이트웨이를 아직 다운로드해서 설치하지 않은 경우 데이터 관리 게이트웨이 다운로드를 클릭합니다. 이렇게 하면 필요한 게이트웨이 버전을 선택하고 다운로드한 후 설치할 수 있는 Microsoft 다운로드 센터로 이동하게 됩니다. 데이터 관리 Gateway를 사용하여 온-프레미스 원본과 클라우드 간에 데이터를 이동하는 문서의 시작 섹션에서 설치 필수 구성 요소, 설치 단계 및 문제 해결 팁에 대한 자세한 정보를 찾을 수 있습니다.

  7. 게이트웨이가 설치되면 데이터 관리 게이트웨이 구성 관리자가 열리고 게이트웨이 등록 대화 상자가 표시됩니다. 클립보드에 복사한 게이트웨이 등록 키를 붙여 넣고 등록을 클릭합니다.

  8. 게이트웨이가 이미 설치된 경우 데이터 관리 게이트웨이 구성 관리자를 실행합니다. 키 변경을 클릭하고 이전 단계에서 클립보드에 복사한 게이트웨이 등록 키를 붙여넣고 확인을 클릭합니다.

  9. 설치가 완료되면 Microsoft 데이터 관리 Gateway Configuration Manager에 대한 게이트웨이 등록 대화 상자가 표시됩니다. 이전 단계에서 클립보드에 복사한 게이트웨이 등록 키를 붙여 넣고 등록을 클릭합니다.

    게이트웨이 등록

  10. 게이트웨이 구성은 다음 값이 Microsoft 데이터 관리 게이트웨이 구성 관리자의 탭에 설정된 경우 완료됩니다.

    • 게이트웨이 이름인스턴스 이름이 게이트웨이의 이름으로 설정됩니다.

    • 등록 이 등록됨으로 설정됩니다.

    • 상태가 시작됨으로 설정됩니다.

    • 맨 아래 상태 표시줄에 녹색 확인 표시가 있는 데이터 관리 게이트웨이 클라우드 서비스에 연결됨이 표시됩니다.

      데이터 관리 게이트웨이 관리자

      또한 등록이 완료되면 Machine Learning Studio(클래식)가 업데이트됩니다.

    게이트웨이 등록 성공

  11. 데이터 게이트웨이 다운로드 및 등록 대화 상자에서 확인 표시를 클릭하여 설정을 완료합니다. 설정 페이지에는 게이트웨이 상태가 "온라인"으로 표시됩니다. 오른쪽 창에서 상태 및 기타 유용한 정보를 찾을 수 있습니다.

    게이트웨이 설정

  12. Microsoft 데이터 관리 게이트웨이 구성 관리자에서 인증서 탭으로 전환합니다. 이 탭에 지정된 인증서는 포털에서 지정한 온-프레미스 데이터 저장소에 대한 자격 증명을 암호화/암호 해독하는 데 사용됩니다. 이 인증서는 기본 인증서입니다. 이 인증서를 인증서 관리 시스템에서 백업하는 자체 인증서로 변경하는 것이 좋습니다. 변경 내용을 클릭하여 사용자 고유의 인증서를 대신 사용합니다.

    게이트웨이 인증서 변경

  13. (선택 사항) 게이트웨이 문제를 해결하기 위해 자세한 정보 로깅을 사용하도록 설정하려면 Microsoft 데이터 관리 Gateway Configuration Manager에서 진단 탭으로 전환하고 문제 해결을 위해 자세한 정보 로깅 사용 옵션을 선택합니다. 로깅 정보는 애플리케이션 및 서비스 로그의 >데이터 관리 게이트웨이 노드 아래의 Windows 이벤트 뷰어에서 찾을 수 있습니다. 진단 탭을 사용하여 게이트웨이를 사용하여 온-프레미스 데이터 원본에 대한 연결을 테스트할 수도 있습니다.

    자세한 로깅 정보 표시 사용

그러면 Machine Learning Studio(클래식)의 게이트웨이 설정 프로세스가 완료됩니다. 이제 온-프레미스 데이터를 사용할 준비가 되었습니다.

각 작업 영역에 대해 Studio(클래식)에서 여러 게이트웨이를 만들고 설정할 수 있습니다. 예를 들어 개발 중에 테스트 데이터 원본에 연결하려는 게이트웨이와 프로덕션 데이터 원본에 대한 다른 게이트웨이가 있을 수 있습니다. Machine Learning Studio(클래식)를 사용하면 회사 환경에 따라 여러 게이트웨이를 유연하게 설정할 수 있습니다. 현재는 작업 영역 간에 게이트웨이를 공유할 수 없으며 단일 컴퓨터에 하나의 게이트웨이만 설치할 수 있습니다. 자세한 내용은 온-프레미스 원본과 클라우드 간에 데이터 관리 게이트웨이로 데이터 이동을 참조하세요.

2단계: 게이트웨이를 사용하여 온-프레미스 데이터 원본에서 데이터 읽기

게이트웨이를 설정한 후 SQL Server 데이터베이스에서 데이터를 입력하는 실험에 데이터 가져오기 모듈을 추가할 수 있습니다.

  1. Machine Learning Studio(클래식)에서 실험 탭을 선택하고 왼쪽 아래 모서리에서 +새로 만들기를 클릭한 다음 빈 실험을 선택하거나 사용 가능한 여러 샘플 실험 중 하나를 선택합니다.

  2. 데이터 가져오기 모듈을 찾아 실험 캔버스로 끌어옵니다.

  3. 캔버스 아래와 같이 저장을 클릭합니다. 실험 이름으로 "Machine Learning Studio(클래식) 온-프레미스 SQL Server 자습서"를 입력하고 작업 영역을 선택한 다음 확인 확인 표시를 클릭합니다.

    새 이름으로 실험 저장

  4. 데이터 가져오기 모듈을 클릭하여 선택하고 캔버스 오른쪽에 있는 속성 창의 데이터 원본 드롭다운 목록에서 "온-프레미스 SQL Database"를 선택합니다.

  5. 설치하고 등록한 데이터 게이트웨이 를 선택합니다. "(새 데이터 게이트웨이 추가...)"를 선택하여 다른 게이트웨이를 설정할 수 있습니다.

    데이터 가져오기 모듈에 대한 데이터 게이트웨이 선택

  6. 실행하려는 SQL Database 쿼리와 함께 SQL Database 서버 이름데이터베이스 이름을 입력합니다.

  7. 사용자 이름 및 암호 아래에서 값 입력을 클릭하고 데이터베이스 자격 증명을 입력합니다. SQL Server가 구성된 방식에 따라 Windows 통합 인증 또는 SQL Server 인증을 사용할 수 있습니다.

    데이터베이스 자격 증명 입력

    "값 필요" 메시지가 녹색 확인 표시가 있는 "값 설정"으로 변경됩니다. 데이터베이스 정보 또는 암호가 변경되지 않는 한 자격 증명을 한 번만 입력하면 됩니다. Machine Learning Studio(클래식)는 사용자가 게이트웨이 설치할 때 지정한 인증서를 사용하여 클라우드에서 자격 증명을 암호화합니다. Azure는 암호화 없이 온-프레미스 자격 증명을 저장하지 않습니다.

    데이터 모듈 속성 가져오기

  8. 실행을 클릭하여 실험을 실행합니다.

실험 실행이 완료되면 데이터 가져오기 모듈의 출력 포트를 클릭하고 시각화를 선택하여 데이터베이스에서 가져온 데이터를 시각화할 수 있습니다.

실험 개발을 마치면 모델을 배포하고 운영할 수 있습니다. 배치 실행 서비스를 사용하는 경우 데이터 가져오기 모듈에서 구성한 SQL Server 데이터베이스의 데이터는 읽힌 후 점수를 매기는 데 사용됩니다. 온-프레미스 데이터 채점을 위해 요청 응답 서비스를 사용할 수 있지만 대신 Excel 추가 기능을 사용하는 것이 좋습니다. 현재 데이터 내보내기를 통해 SQL Server 데이터베이스에 쓰는 것은 실험 또는 게시된 웹 서비스에서 지원되지 않습니다.