Microsoft Purview에서 HDFS에 연결 및 관리
이 문서에서는 HDFS(Hadoop 분산 파일 시스템)를 등록하는 방법과 Microsoft Purview에서 HDFS를 인증하고 상호 작용하는 방법을 간략하게 설명합니다. Microsoft Purview에 대한 자세한 내용은 소개 문서를 참조하세요.
지원되는 기능
메타데이터 추출 | 전체 검사 | 증분 검사 | 범위가 지정된 검사 | 분류 | 레이블 지정 | 액세스 정책 | 계보 | 데이터 공유 | 라이브 보기 |
---|---|---|---|---|---|---|---|---|---|
예 | 예 | 예 | 예 | 예 | 아니요 | 아니요 | 아니요 | 아니요 | 아니요 |
HDFS 원본을 검사할 때 Microsoft Purview는 HDFS를 포함한 기술 메타데이터 추출을 지원합니다.
- Namenode
- 폴더
- 파일
- 리소스 집합
검사를 설정할 때 전체 HDFS 또는 선택적 폴더를 검사하도록 선택할 수 있습니다. 여기에서 지원되는 파일 형식에 대해 알아봅니 다.
커넥터는 webhdfs 프로토콜을 사용하여 HDFS에 연결하고 메타데이터를 검색합니다. MapR Hadoop 배포는 지원되지 않습니다.
필수 구성 요소
- 활성 구독이 있는 Azure 계정입니다. 무료로 계정을 만듭니다.
- 활성 Microsoft Purview 계정입니다.
- 원본을 등록하고 Microsoft Purview 거버넌스 포털에서 관리하려면 데이터 원본 관리자 및 데이터 읽기 권한자 권한이 필요합니다. 권한에 대한 자세한 내용은 Microsoft Purview의 액세스 제어를 참조하세요.
-
시나리오에 적합한 통합 런타임을 설정합니다.
-
자체 호스팅 통합 런타임을 사용하려면 다음을 수행합니다.
- 문서에 따라 자체 호스팅 통합 런타임을 만들고 구성합니다.
- 자체 호스팅 통합 런타임이 설치된 컴퓨터에 JDK 11 이 설치되어 있는지 확인합니다. JDK를 새로 설치한 후 컴퓨터를 다시 시작하여 적용합니다.
- 자체 호스팅 통합 런타임이 실행되는 컴퓨터에 Visual C++ 재배포 가능 패키지(Visual Studio 2012 업데이트 4 이상 버전)가 설치되어 있는지 확인합니다. 이 업데이트가 설치되어 있지 않으면 지금 다운로드하세요.
- Kerberos 인증을 사용하도록 환경을 설정하려면 HDFS 커넥터에 Kerberos 인증 사용 섹션을 참조하세요.
-
kubernetes 지원 자체 호스팅 통합 런타임을 사용하려면 다음을 수행합니다.
- 문서에 따라 kubernetes 지원 통합 런타임을 만들고 구성합니다.
- Kerberos 인증을 사용하도록 환경을 설정하려면 HDFS 커넥터에 Kerberos 인증 사용 섹션을 참조하세요.
-
자체 호스팅 통합 런타임을 사용하려면 다음을 수행합니다.
등록
이 섹션에서는 Microsoft Purview 거버넌스 포털을 사용하여 Microsoft Purview에 HDFS를 등록하는 방법을 설명합니다.
등록 단계
Microsoft Purview 통합 카탈로그 새 HDFS 원본을 등록하려면 다음 단계를 수행합니다.
- Microsoft Purview 거버넌스 포털에서 Microsoft Purview 계정으로 이동합니다.
- 왼쪽 탐색 영역에서 데이터 맵 을 선택합니다.
- 등록 선택
- 원본 등록에서 HDFS를 선택합니다. 계속을 선택합니다.
HDFS(원본 등록) 화면에서 다음 단계를 수행합니다.
데이터 원본이 카탈로그 내에 나열될 이름을 입력합니다.
또는 형식으로 HDFS NameNode의
https://<namenode>:<port>
http://<namenode>:<port>
클러스터 URL을 입력합니다(예: 또는http://namenodeserver.com:50070
).https://namenodeserver.com:50470
목록에서 컬렉션을 선택합니다.
완료하여 데이터 원본을 등록합니다.
검사
아래 단계에 따라 HDFS를 검사하여 자산을 자동으로 식별합니다. 일반적인 검사에 대한 자세한 내용은 검사 및 수집 소개를 참조하세요.
검사에 대한 인증
HDFS 원본에 대해 지원되는 인증 유형은 Kerberos 인증입니다.
검사 만들기 및 실행
새 검사를 만들고 실행하려면 다음 단계를 수행합니다.
자체 호스팅 통합 런타임이 설정되어 있는지 확인합니다. 설정되지 않은 경우 필수 구성 요소에 설명된 단계를 사용하여 자체 호스팅 통합 런타임을 만듭니다.
원본으로 이동합니다.
등록된 HDFS 원본을 선택합니다.
+ 새 검사를 선택합니다.
"source_name 검사" 페이지에서 아래 세부 정보를 제공합니다.
이름: 검사의 이름
통합 런타임을 통해 연결: 구성된 자체 호스팅 통합 런타임을 선택합니다. 필수 구성 요소 섹션의 설정 요구 사항을 참조하세요.
자격 증명: 자격 증명을 선택하여 데이터 원본에 연결합니다. 다음을 수행해야 합니다.
- 자격 증명을 만드는 동안 Kerberos 인증 을 선택합니다.
- 사용자 이름 입력 필드의
<username>@<domain>.com
형식으로 사용자 이름을 제공합니다. HDFS 커넥터에 Kerberos 인증 사용에서 자세히 알아보세요. - HDFS에 연결하는 데 사용되는 사용자 암호를 비밀 키에 저장합니다.
연결 테스트를 선택합니다.
계속을 선택합니다.
"검사 범위 지정" 페이지에서 검사할 경로를 선택합니다.
"검사 규칙 집합 선택" 페이지에서 스키마 추출 및 분류에 사용할 검사 규칙 집합을 선택합니다. 시스템 기본값, 기존 사용자 지정 규칙 집합 중에서 선택하거나 인라인으로 새 규칙 집합을 만들 수 있습니다. 검사 규칙 집합 만들기에서 자세히 알아보세요.
"검사 트리거 설정" 페이지에서 검사 트리거를 선택합니다. 일정을 설정하거나 검사를 한 번 실행할 수 있습니다.
검사를 검토하고 저장 및 실행을 선택합니다.
검사 및 검사 실행 보기
기존 검사를 보려면 다음을 수행합니다.
- Microsoft Purview 포털로 이동합니다. 왼쪽 창에서 데이터 맵을 선택합니다.
- 데이터 원본을 선택합니다. 최근 검사에서 해당 데이터 원본에 대한 기존 검사 목록을 보거나 검사 탭에서 모든 검사를 볼 수 있습니다.
- 보려는 결과가 있는 검사를 선택합니다. 창에는 이전의 모든 검사 실행과 각 검사 실행에 대한 상태 및 메트릭이 표시됩니다.
- 실행 ID를 선택하여 검사 실행 세부 정보를 검사.
검사 관리
검사를 편집, 취소 또는 삭제하려면 다음을 수행합니다.
Microsoft Purview 포털로 이동합니다. 왼쪽 창에서 데이터 맵을 선택합니다.
데이터 원본을 선택합니다. 최근 검사에서 해당 데이터 원본에 대한 기존 검사 목록을 보거나 검사 탭에서 모든 검사를 볼 수 있습니다.
관리하려는 검사를 선택합니다. 그 후에, 다음 작업을 수행할 수 있습니다.
- 검사 편집을 선택하여 검사를 편집합니다.
- 검사 실행 취소를 선택하여 진행 중인 검사를 취소합니다.
- 검사 삭제를 선택하여 검사를 삭제합니다.
참고
- 검사를 삭제해도 이전 검사에서 만든 카탈로그 자산은 삭제되지 않습니다.
HDFS 커넥터에 Kerberos 인증 사용
HDFS 커넥터에 Kerberos 인증을 사용하도록 온-프레미스 환경을 설정하는 두 가지 옵션이 있습니다. 상황에 더 적합한 항목을 선택할 수 있습니다.
두 옵션 중 하나에서 Hadoop 클러스터에 대한 webhdfs를 켜야 합니다.
webhdfs에 대한 HTTP 보안 주체 및 keytab을 만듭니다.
중요
HTTP Kerberos 보안 주체는 Kerberos HTTP SPNEGO 사양에 따라 "HTTP/"로 시작해야 합니다. 여기에서 자세히 알아보세요.
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
HDFS 구성 옵션: 에
hdfs-site.xml
다음 세 가지 속성을 추가합니다.<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
옵션 1: Kerberos 영역에서 자체 호스팅 통합 런타임 머신 조인
요구 사항
- 자체 호스팅 통합 런타임 컴퓨터는 Kerberos 영역에 가입해야 하며 Windows 도메인에 가입할 수 없습니다.
구성 방법
KDC 서버에서:
보안 주체를 만들고 암호를 지정합니다.
중요
사용자 이름에는 호스트 이름이 포함되어서는 안 됩니다.
Kadmin> addprinc <username>@<REALM.COM>
자체 호스팅 통합 런타임 컴퓨터에서:
Ksetup 유틸리티를 실행하여 KDC(Kerberos 키 배포 센터) 서버 및 영역을 구성합니다.
Kerberos 영역이 Windows 도메인과 다르기 때문에 컴퓨터는 작업 그룹의 구성원으로 구성되어야 합니다. 다음 명령을 실행하여 Kerberos 영역을 설정하고 KDC 서버를 추가하여 이 구성을 수행할 수 있습니다. REALM.COM 고유한 영역 이름으로 대체합니다.
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
이러한 명령을 실행한 후 컴퓨터를 다시 시작합니다.
명령을 사용하여 구성을 확인합니다
Ksetup
. 출력은 다음과 같아야 합니다.C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
Purview 계정에서 다음을 수행합니다.
- Kerberos 보안 주체 이름 및 암호를 사용하여 Kerberos 인증 유형을 사용하여 자격 증명을 구성하여 HDFS를 검사합니다. 구성 세부 정보는 검사 섹션에서 자격 증명 설정 부분을 검사.
옵션 2: Windows 도메인과 Kerberos 영역 간의 상호 신뢰 사용
요구 사항
- 자체 호스팅 통합 런타임 컴퓨터는 Windows 도메인에 가입해야 합니다.
- 도메인 컨트롤러의 설정을 업데이트하려면 권한이 필요합니다.
구성 방법
참고
다음 자습서의 REALM.COM 및 AD.COM 고유한 영역 이름 및 도메인 컨트롤러로 바꿉니다.
KDC 서버에서:
krb5.conf 파일에서 KDC 구성을 편집하여 KDC가 다음 구성 템플릿을 참조하여 Windows 도메인을 신뢰할 수 있도록 합니다. 기본적으로 구성은 /etc/krb5.conf에 있습니다.
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }
파일을 구성한 후 KDC 서비스를 다시 시작합니다.
다음 명령을 사용하여 KDC 서버에서 krbtgt/REALM.COM@AD.COM 라는 보안 주체를 준비합니다.
Kadmin> addprinc krbtgt/REALM.COM@AD.COM
hadoop.security.auth_to_local HDFS 서비스 구성 파일에서 를 추가합니다
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//
.
도메인 컨트롤러에서:
다음
Ksetup
명령을 실행하여 영역 항목을 추가합니다.C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Windows 도메인에서 Kerberos 영역으로 신뢰를 설정합니다. [password]는 보안 주체 krbtgt/REALM.COM@AD.COM의 암호입니다.
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
Kerberos에서 사용되는 암호화 알고리즘을 선택합니다.
서버 관리자>그룹 정책 관리>도메인>그룹 정책 개체>기본 또는 활성 도메인 정책을 선택한 다음 편집을 선택합니다.
그룹 정책 관리 편집기 창에서 컴퓨터 구성>정책>Windows 설정보안 설정>>로컬 정책>보안 옵션을 선택한 다음 네트워크 보안: Kerberos에 허용되는 암호화 유형 구성을 구성합니다.
KDC 서버에 연결할 때 사용할 암호화 알고리즘을 선택합니다. 모든 옵션을 선택할 수 있습니다.
Ksetup
명령을 사용하여 지정된 영역에서 사용할 암호화 알고리즘을 지정합니다.C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
Windows 도메인에서 Kerberos 보안 주체를 사용할 수 있도록 도메인 계정과 Kerberos 보안 주체 간의 매핑을 만듭니다.
관리 도구>Active Directory 사용자 및 컴퓨터 선택합니다.
고급 기능 보기를> 선택하여고급 기능을 구성합니다.
고급 기능 창에서 매핑을 만들려는 계정을 마우스 오른쪽 단추로 클릭하고 이름 매핑 창에서 Kerberos 이름 탭을 선택합니다.
영역에서 보안 주체를 추가합니다.
자체 호스팅 통합 런타임 컴퓨터에서:
다음
Ksetup
명령을 실행하여 영역 항목을 추가합니다.C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Purview 계정에서 다음을 수행합니다.
- Kerberos 보안 주체 이름 및 암호를 사용하여 Kerberos 인증 유형을 사용하여 자격 증명을 구성하여 HDFS를 검사합니다. 구성 세부 정보는 검사 섹션에서 자격 증명 설정 부분을 검사.
알려진 제한
현재 HDFS 커넥터는 고급 리소스 집합에 대한 사용자 지정 리소스 집합 패턴 규칙을 지원하지 않으며 기본 제공 리소스 집합 패턴이 적용됩니다.
민감도 레이블 은 아직 지원되지 않습니다.
다음 단계
원본을 등록했으므로 아래 가이드에 따라 Microsoft Purview 및 데이터에 대해 자세히 알아보세요.