이 문서에서는 Azure Machine Learning을 사용하여 대출 신청자의 연체 및 채무 불이행 확률을 예측하는 아키텍처를 설명합니다. 이 모델의 예측은 신청자의 재정 행태를 기반으로 합니다. 이 모델은 대량의 데이터 포인트 집합을 사용하여 신청자를 분류하고 각 신청자에 대한 자격 점수를 제공합니다.
Apache®, Spark 및 불꽃 로고는 미국 및/또는 기타 국가에서 Apache Software Foundation의 등록 상표 또는 상표입니다. 이러한 상표를 사용했다고 해서 Apache Software Foundation가 이를 보증하는 것은 아닙니다.
아키텍처
이 아키텍처의 Visio 파일을 다운로드합니다.
데이터 흐름
다음 데이터 흐름은 이전 다이어그램에 해당합니다.
스토리지: 정형 데이터는 Azure Synapse Analytics 풀과 같은 데이터베이스에 저장됩니다. 이전 SQL 데이터베이스를 시스템에 통합할 수 있습니다. 반정형 데이터와 비정형 데이터를 데이터 레이크에 로드할 수 있습니다.
수집 및 사전 처리: Azure Synapse Analytics 처리 파이프라인 및 ETL(추출, 변환, 로드) 처리는 기본 제공 커넥터를 통해 Azure 또는 타사 원본에 저장된 데이터에 연결될 수 있습니다. Azure Synapse Analytics는 SQL, Spark, Azure Data Explorer, Power BI를 사용하는 여러 분석 방법론을 지원합니다. 기존 Azure Data Factory 오케스트레이션도 데이터 파이프라인에 사용할 수 있습니다.
처리: Azure Machine Learning을 사용하여 기계 학습 모델을 개발하고 관리합니다.
초기 처리: 이 단계에서는 기계 학습 모델을 학습시킬 큐레이팅된 데이터 세트를 만들기 위해 원시 데이터를 처리합니다. 일반적인 작업에는 데이터 형식 서식 지정, 누락된 값 대체, 기능 엔지니어링, 기능 선택 및 차원 축소가 포함됩니다.
학습: 학습 단계에서는 Azure Machine Learning이 처리된 데이터 세트를 사용하여 신용 위험 모델을 학습시키고 최상의 모델을 선택합니다.
모델 학습: 클래식한 기계 학습 및 딥 러닝 모델 등 다양한 기계 학습 모델을 사용할 수 있습니다. 하이퍼 매개 변수 튜닝을 사용하여 모델 성능을 최적화할 수 있습니다.
모델 평가: Azure Machine Learning이 학습된 각 모델의 성능을 평가하므로 배포에 가장 적합한 모델을 선택할 수 있습니다.
모델 등록: Azure Machine Learning에서 성능이 가장 좋은 모델을 등록합니다. 이 단계를 거치면 모델을 배포에 사용할 수 있습니다.
책임 있는 AI: 책임 있는 AI는 AI 시스템을 안전하고 신뢰할 수 있으며 윤리적인 방식으로 개발, 평가 및 배포하는 접근 방식입니다. 이 모델은 대출 요청에 대한 승인이나 거부 결정을 유추하므로 책임 있는 AI의 원칙을 실행해야 합니다.
공정성 메트릭이 불공정한 동작의 영향을 평가하고 완화 전략을 사용하도록 설정합니다. 데이터 세트 및 데이터의 코호트(하위 집합)에서 중요한 기능 및 특성이 파악됩니다. 자세한 내용은 모델 성능 및 공정성을 참조하세요.
해석력은 기계 학습 모델의 동작을 얼마나 잘 이해할 수 있는지에 대한 지표입니다. 책임 있는 AI에서 이 구성 요소가 모델의 예측에 대해 사람이 이해할 수 있는 설명을 생성합니다. 자세한 내용은 모델 해석력을 참조하세요.
실시간 기계 학습 배포: 승인을 위해 요청을 즉시 검토해야 하는 경우에는 실시간 모델 유추를 사용해야 합니다.
- 관리되는 기계 학습 온라인 엔드포인트. 실시간 채점을 위해서는 적절한 컴퓨팅 대상을 선택해야 합니다.
- 온라인 대출 요청은 신청서 또는 대출 신청의 입력에 따라 실시간 점수를 사용합니다.
- 모델 채점에 사용되는 결정 및 입력은 영구 스토리지에 저장되며 검색할 수 있어 향후 참조가 가능합니다.
일괄 처리 기계 학습 배포: 오프라인 대출 처리의 경우는 모델이 정기적으로 트리거되도록 예약됩니다.
- 관리되는 일괄 처리 엔드포인트. 일괄 처리 유추가 예약되고 결과 데이터 세트가 생성됩니다. 결정은 신청자의 신용도를 기준으로 이루어집니다.
- 일괄 처리의 채점 결과 집합은 데이터베이스 또는 Azure Synapse Analytics 데이터 웨어하우스에 유지됩니다.
신청자 활동에 관한 데이터에 대한 인터페이스: 신청자의 세부 정보 입력, 내부 신용 프로필 및 모델의 결정이 모두 준비된 후 적절한 데이터 서비스에 저장됩니다. 이러한 세부 정보는 향후 채점을 위한 결정 엔진에서 사용되므로 문서화됩니다.
- 스토리지: 신용 처리의 모든 세부 정보는 영구 스토리지에 유지됩니다.
- 사용자 인터페이스: 승인 또는 거부 결정은 신청자에게 전달됩니다.
보고: 처리된 애플리케이션 수와 승인 또는 거부 결과에 대한 실시간 인사이트가 관리자와 경영진에게 지속적으로 제공됩니다. 승인된 금액에 대한 근 실시간 보고서, 생성된 대출 포트폴리오 및 모델 성능이 보고 예에 해당합니다.
구성 요소
- Azure Blob Storage는 확장성이 있는 비정형 데이터용 개체 스토리지를 제공합니다. 이진 파일, 활동 로그, 특정 형식을 따르지 않는 파일과 같은 파일을 저장하는 데 최적화되어 있습니다.
- Azure Data Lake Storage는 Azure에서 비용 효과가 좋은 데이터 레이크를 만들기 위한 스토리지 기반입니다. Blob Storage에 계층적 폴더 구조와 향상된 성능, 관리 및 보안을 제공합니다. 수백 기가비트의 처리량을 유지하면서 여러 페타바이트의 정보를 제공합니다.
- Azure Synapse Analytics 는 최상의 SQL 및 Spark 기술과 데이터 탐색 및 파이프라인을 위한 통합 사용자 환경을 결합한 분석 서비스입니다. Power BI, Azure Cosmos DB 및 Azure Machine Learning과 통합됩니다. 이 서비스는 전용 및 서버리스 리소스 모델과 두 모델을 전환할 수 있는 기능을 모두 지원합니다.
- Azure SQL Database는 클라우드용으로 빌드된 완전 관리형 관계형 데이터베이스로 항상 최신 상태를 유지합니다.
- Azure Machine Learning은 기계 학습 프로젝트 수명 주기를 관리하기 위한 클라우드 서비스입니다. 데이터 탐색, 모델 빌드 및 관리, 배포를 위한 통합 환경을 제공하며 기계 학습에 대한 코드 우선 및 하위 코드/코드 없음 접근 방식을 지원합니다.
- Power BI는 Azure 리소스와 간단하게 통합할 수 있는 시각화 도구입니다.
- Azure App Service를 사용하면 인프라 관리 없이 웹앱, 모바일 백 엔드 및 RESTful API를 빌드하고 호스트할 수 있습니다. 지원되는 언어로는 .NET, .NET Core, Java, Ruby, Node.js, PHP, Python이 있습니다.
대안
Azure Databricks를 사용하여 기계 학습 모델 및 분석 워크로드를 개발, 배포 및 관리할 수 있습니다. 이 서비스는 모델 개발을 위한 통합 환경을 제공합니다.
시나리오 정보
금융업 조직은 대출을 요청하는 개인 또는 기업의 신용 위험을 예측해야 합니다. 이 모델은 대출 신청자의 연체 및 채무 불이행 확률을 평가합니다.
신용 위험 예측에는 모집단 행동을 심층 분석하고 고객 기반을 재정 책임에 따라 세분하는 작업이 포함됩니다. 기타 변수에는 결과에 큰 영향을 미치는 시장 요인 및 경제 상황이 포함됩니다.
과제. 입력 데이터에는 수천만 개의 고객 프로필과 고객 신용 행동 및 내부 고객 활동 시스템과 같은 서로 다른 시스템의 수십억 개의 기록을 기반으로 하는 지출 습관에 대한 데이터가 포함됩니다. 경제 상황 및 국가/지역의 시장 분석에 관한 타사 데이터가 수백 GB의 파일을 로드하고 유지 관리해야 하는 월별 또는 분기별 스냅샷에서 나올 수 있습니다. 고객 데이터의 신청자 또는 반구조적 행에 관한 신용 조사기관 정보와 이러한 데이터 세트와 품질 검사 간 교차 조인을 통해 데이터의 무결성을 검증해야 합니다.
데이터는 일반적으로 시장 분석과 함께 신용 조사기관의 고객 정보의 넓은 열 테이블로 구성됩니다. 고객 활동은 정형화되지 않을 수 있는 동적 레이아웃의 기록으로 구성됩니다. 데이터는 고객 서비스 노트 및 신청자 상호 작용 양식의 자유 형식 텍스트로도 제공됩니다.
이러한 대량의 데이터를 처리하고 결과를 최신으로 유지하려면 간소화된 처리가 필요합니다. 낮은 대기 시간 스토리지 및 검색 프로세스가 필요합니다. 서로 다른 데이터 원본을 지원하고 데이터 경계를 관리하고 보호하는 기능을 제공하도록 데이터 인프라에는 확장성이 있어야 합니다. 기계 학습 플랫폼은 많은 모집단 세그먼트에서 학습시키고, 테스트하고, 그 유효성을 검사하는 많은 모델의 복잡한 분석을 지원해야 합니다.
데이터 민감도 및 개인 정보 보호. 이 모델의 데이터 처리에는 개인정보와 인구 통계학적 세부 정보가 포함됩니다. 모집단 프로파일링은 방지해야 합니다. 모든 개인 데이터의 직접 표시를 제한해야 합니다. 개인정보의 예로는 계정 번호, 신용 카드 정보, 주민등록번호, 이름, 주소 및 우편 번호가 있습니다.
신용 카드 및 은행 계좌 번호는 항상 난독 처리되어야 합니다. 특정 데이터 요소는 마스킹되고 항상 암호화되어야 하며, 기본 정보에 액세스하지 못해야 하며, 분석용으로만 사용할 수 있어야 합니다.
저장 데이터, 전송 중 데이터, 보안 Enclave를 통해 처리 중인 데이터는 암호화해야 합니다. 데이터 항목에 대한 액세스가 모니터링 솔루션에 기록됩니다. 모델 배포 및 프로세스를 트리거하는 승인을 사용하여 적절한 CI/CD 파이프라인으로 프로덕션 시스템을 설정해야 합니다. 로그 및 워크플로 감사는 규정 준수 요구용 데이터와의 상호 작용을 제공해야 합니다.
처리. 이 모델은 분석, 컨텍스트화, 모델 학습과 배포를 위한 고도의 컴퓨팅 성능이 필요합니다. 모델 채점은 임의 샘플을 대상으로 유효성을 검사하여 신용 결정에 인종, 성별, 민족 또는 지리적 위치 편향이 포함되지 않도록 합니다. 향후 참조를 위해 결정 모델을 문서화하고 보관해야 합니다. 결정 결과에 관련된 모든 요소가 저장됩니다.
데이터 처리에는 CPU가 대량 사용됩니다. 여기에는 DB 및 JSON 형식의 정형 데이터의 SQL 처리, 데이터 프레임의 Spark 처리 또는 다양한 문서 형식의 테라바이트 정보에 대한 빅 데이터 분석이 포함됩니다. ELT(데이터 추출, 로드, 변환)/ETL 작업은 최근 데이터의 값에 따라 정기적으로 또는 실시간으로 예약되거나 트리거됩니다.
규정 준수 및 규제 프레임워크. 제출된 신청서, 모델 채점에 사용된 기능 및 모델의 결과 집합을 포함하여 대출 처리의 모든 세부 정보를 문서화해야 합니다. 향후 참조와 감사 및 규정 준수 요청을 위해 모델 학습 정보, 학습에 사용되는 데이터 및 학습 결과를 등록해야 합니다.
일괄 처리 및 실시간 채점. 특정 작업은 사전에 승인된 잔액 이체와 같은 일괄 처리 작업으로 선제적으로 처리할 수 있습니다. 온라인 신용 한도 증액 같은 일부 요청은 실시간 승인이 필요합니다.
신청자가 온라인 대출 요청 상태를 실시간으로 확인할 수 있어야 합니다. 대출 발급 금융 기관은 신용 모델의 성능을 지속적으로 모니터링하고, 대출 승인 상태, 승인된 대출 건수, 발급된 금액(달러) 및 신규 대출 취급의 품질과 같은 메트릭에 대한 인사이트가 필요합니다.
책임 있는 AI
책임 있는 AI 대시보드는 책임 있는 AI를 구현하는 데 도움이 될 수 있는 여러 도구의 단일 인터페이스입니다. 책임 있는 AI 표준은 다음 여섯 가지 원칙에 기반합니다.
Azure Machine Learning의 공정성 및 포용성. 책임 있는 AI 대시보드의 이 구성 요소는 할당과 서비스 품질에 해를 끼치지 않도록 하여 불공정한 행위를 평가하는 데 도움이 됩니다. 이를 사용하여 성별, 연령, 민족 및 기타 특성과 관련하여 정의된 전체 민감한 그룹에서 공정성을 평가할 수 있습니다. 평가 과정에서, 공정성은 차이 메트릭을 통해 정량화됩니다. 패리티 제약 조건을 사용하는 Fairlearn 오픈 소스 패키지에서 완화 알고리즘을 구현해야 합니다.
Azure Machine Learning의 신뢰성 및 안전성. 책임 있는 AI의 오류 분석 구성 요소는 다음과 같은 이점 줄 수 있습니다.
- 모델에 대해 오류가 배포되는 방식을 자세히 이해할 수 있습니다.
- 오류율이 전체 벤치마크보다 높은 데이터의 코호트를 식별할 수 있습니다.
Azure Machine Learning의 투명성. 투명성의 중요한 부분은 기능들이 기계 학습 모델에 미치는 영향을 이해하는 것입니다.
- 모델 해석력은 모델의 동작에 영향을 주는 요인을 이해하는 데 도움이 됩니다. 모델의 예측에 대해 사람이 이해할 수 있는 설명을 생성합니다. 이러한 정보는 모델을 신뢰할 수 있어 모델을 디버그하고 개선하는 데 도움이 됩니다. InterpretML은 유리 상자 모델의 구조 또는 블랙 박스 심층 신경망 모델의 기능 간 관계를 이해하는 데 도움이 될 수 있습니다.
- 반사실적 가상은 기능 변경 및 교란에 반응하는 방식의 측면에서 기계 학습 모델을 이해하고 디버그하는 데 도움이 될 수 있습니다.
Azure Machine Learning의 개인정보 보호 및 보안. Machine Learning 관리자는 모델의 배포를 개발하고 관리하기 위한 보안 구성을 만들어야 합니다. 보안 및 거버넌스 기능은 조직의 보안 정책을 준수하는 데 도움이 될 수 있습니다. 그 외 도구는 모델을 평가하고 보호하는 데 도움이 될 수 있습니다.
Azure Machine Learning의 책임성. MLOps(기계 학습 운영)는 AI 워크플로 효율성을 향상시키는 DevOps 원칙과 사례를 기반으로 합니다. Azure Machine Learning은 다음과 같이 MLOps 기능을 구현하는 데 도움이 될 수 있습니다.
- 모델 등록, 패키징 및 배포
- 모델 변경에 대한 알림 및 경고 수신
- 엔드투엔드 수명 주기를 위한 거버넌스 데이터 캡처
- 애플리케이션의 운영 문제 모니터링
이 다이어그램은 Azure Machine Learning의 MLOps 기능을 보여줍니다.
잠재적인 사용 사례
다음 시나리오에 이 솔루션을 적용할 수 있습니다.
- 재무: 대상 마케팅 캠페인을 위해 고객 재무 분석 또는 고객 교차 판매 분석을 가져옵니다.
- 의료: 환자 정보를 입력으로 사용하여 치료 기기 및 서비스를 제안합니다.
- 환대: 고객 프로필을 만들어 호텔, 항공편, 크루즈 패키지 및 멤버십에 관한 제품 및 서비스를 제안합니다.
고려 사항
이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일련의 기본 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.
보안
우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안성에 대한 디자인 검토 검사 목록을 참조하세요.
Azure 솔루션은 심층 방어 및 제로 트러스트 접근 방식을 제공합니다.
이 아키텍처에서 다음과 같은 보안 기능을 구현하는 것이 좋습니다.
- 가상 네트워크에 전용 Azure 서비스 배포
- Azure SQL Database 보안 기능
- Key Vault를 사용하여 데이터 팩터리에서 자격 증명 보호
- Azure Machine Learning의 Enterprise 보안 및 거버넌스
- Synapse Analytics Workspace에 대한 Azure 보안 기준
비용 최적화
비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 것입니다. 자세한 내용은 비용 최적화를 위한 디자인 검토 검사 목록을 참조하세요.
이 솔루션을 구현하는 비용을 예측하려면 Azure 가격 계산기를 사용합니다.
다음 리소스도 고려해 보세요.
운영 효율성
운영 우수성은 애플리케이션을 배포하고 프로덕션에서 계속 실행하는 운영 프로세스를 다룹니다. 자세한 내용은 Operational Excellence에 대한 디자인 검토 검사 목록을 참조하세요.
기계 학습 솔루션은 관리 및 유지 관리를 간편화하도록 확장이 가능하고 표준화되어야 합니다. 솔루션에서 모델의 재학습 주기 및 자동화된 재배포를 통해 지속적인 유추를 지원하는지 확인합니다.
자세한 내용은 Azure MLOps v2 GitHub 리포지토리를 참조하세요.
성능 효율성
성능 효율성은 사용자가 배치된 요구 사항을 효율적인 방식으로 충족하기 위해 워크로드의 크기를 조정할 수 있는 기능입니다. 자세한 내용은 성능 효율성에 대한 디자인 검토 검사 목록을 참조하세요.
- 확장 가능한 솔루션 디자인에 대한 자세한 내용은 성능 효율성 검사 목록를 참조하세요.
- 규제 산업에 대한 내용은규제 산업의 Scale AI 및 기계 학습 이니셔티브를 참조하세요.
- SQL, Spark 또는 서버리스 SQL 풀을 사용하여 Azure Synapse Analytics 환경을 관리합니다.
참가자
Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.
보안 주체 작성자:
- Charitha Basani | 선임 클라우드 솔루션 설계자
기타 기여자:
- Mick Alberts | 테크니컬 라이터
비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인하세요.