다음을 통해 공유


데이터 조인

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

두 데이터 집합 조인

범주: 데이터 변환/조작

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)의 데이터 조인 모듈을 사용하여 데이터베이스 스타일 조인 작업을 사용하여 두 데이터 세트를 병합하는 방법을 설명합니다.

두 데이터 세트에 조인을 수행하려면 단일 키 열과 관련되어 있어야 합니다. 복합 키는 지원되지 않습니다.

조인 데이터를 구성하는 방법

  1. Machine Learning Studio(클래식)에서 결합하려는 데이터 세트를 추가한 다음 데이터 조인 모듈을 실험으로 끌어옵니다.

    데이터 변환 범주의 조작 아래에서 모듈을 찾을 수 있습니다.

  2. 데이터 세트를 데이터 조인 모듈에 연결합니다.

    데이터 조인 모듈은 올바른 외부 조인을 지원하지 않으므로 특정 데이터 세트의 행이 출력에 포함되도록 하려면 해당 데이터 세트가 왼쪽 입력에 있어야 합니다.

  3. 열 선택기 시작을 클릭하여 왼쪽 입력의 데이터 세트에 대한 단일 키 열을 선택합니다.

  4. 열 선택기 시작을 클릭하여 오른쪽 입력의 데이터 세트에 대한 단일 키 열을 선택합니다.

  5. 텍스트 열에 조인하고 조인이 대/소문자 구분을 유지하도록 하려면 대/소문자 일치 옵션을 선택합니다.

    예를 들어 이 옵션을 A1000 선택하면 다른 키 값 a1000으로 간주됩니다.

    이 옵션을 선택 취소하면 대/소문자 구분이 적용되지 A1000a1000않으며 .

  6. 조인 유형 드롭다운 목록을 사용하여 데이터 세트를 결합하는 방법을 지정합니다. 형식:

    • 내부 조인: 내부 조 인은 일반적인 조인 작업입니다. 키 열의 값이 일치하는 경우에만 결합된 행을 반환합니다.

    • 왼쪽 외부 조인: 왼쪽 외부 조인은 왼쪽 테이블의 모든 행에 대해 조인된 행을 반환합니다. 왼쪽 테이블의 행이 오른쪽 테이블의 행과 일치하지 않으면, 누락 값을 위한 대체 값을 지정하지 않은 경우 반환된 행에는 오른쪽 테이블에서 온 모든 열의 누락 값이 포함됩니다.

    • 전체 외부 조인: 전체 외부 조인은 왼쪽 테이블(table1)과 오른쪽 테이블(table2)의 모든 행을 반환합니다.

      오른쪽 테이블에 일치하는 행이 없는 왼쪽 테이블의 각 행에 대해 조인 결과에는 오른쪽 테이블의 누락된 값이 포함된 행이 포함됩니다.

      왼쪽 테이블에 일치하는 행이 없는 오른쪽 테이블의 각 행에 대해 조인 결과에는 왼쪽 테이블의 모든 열에 대한 누락 값이 포함된 행이 포함됩니다.

    • 왼쪽 부분 조인: 왼쪽 부분 조인은 키 열의 값이 일치하면 왼쪽 테이블의 값만 반환합니다.

  7. 이 옵션의 경우 조인된 테이블에 오른쪽 키 열 보관:

    • 결과에서 단일 키 열을 가져오는 옵션을 선택 취소합니다.
    • 두 입력 테이블의 키를 보려면 옵션을 선택한 상태로 둡니다.
  8. 실험을 실행하거나 데이터 조인 모듈을 선택하고 선택한 실행을 선택하여 조인을 수행합니다.

  9. 결과를 보려면 데이터 조 인 모듈을 마우스 오른쪽 단추로 클릭하고 결과 데이터 세트를 선택한 다음 시각화를 클릭합니다.

Azure AI 갤러리에서 이 모듈을 사용하는 방법의 예제를 볼 수 있습니다.

기술 정보

이 섹션에서는 구현 세부 정보 및 몇 가지 자주 묻는 질문에 대한 답변을 설명합니다.

제한

  • 결합된 데이터 집합에서는 두 열의 이름이 같을 수 없습니다. 왼쪽 및 오른쪽 데이터 세트에 중복 열 이름이 있는 경우 오른쪽 데이터 세트의 열 이름에 숫자 접미사가 추가되어 고유하게 만듭니다.

    예를 들어 두 데이터 세트에 Month라는 열이 있는 경우 왼쪽 데이터 세트의 열은 그대로 유지되고 오른쪽 데이터 세트의 열 이름은 Month(1)로 바뀝니다.

  • 키 값 비교에는 해시 강제 알고리즘이 사용됩니다.

  • 입력 데이터 집합의 해당 행이 범주 유형이면 조인된 데이터 집합의 각 열에서도 범주 유형이 유지됩니다.

  • 왼쪽 우선 외부 조인에서 누락된 값이 있으면 왼쪽 데이터 집합에 누락 값의 범주 수준이 작성됩니다. 조인된 (오른쪽) 데이터 집합에 누락 값이 없는 경우에도 마찬가지입니다.

복합 키에 테이블을 조인하려면 어떻게 해야 하나요?

복합 키를 사용하는 테이블을 조인해야 하는 경우(즉, 기본 키는 두 개의 독립 열을 사용함) 다음과 같은 모듈을 사용하여 두 키 열의 내용을 연결합니다.

  • R 스크립트 실행

    예를 들어 R 스크립트 내부의 follwing과 같은 코드를 사용하여 하이픈을 구분 기호로 사용하여 입력 데이터 프레임의 첫 번째 및 두 번째 열을 연결합니다. paste(inputdf$Col1,inputdf$Col2,sep="-")

  • SQL 변환 적용

    SQLite의 연결 연산자는 .입니다 ||.

키가 없는 테이블을 조인하려면 어떻게 해야 하나요?

데이터 세트에 키 열이 없는 경우 키를 생성하거나 열 추가 모듈을 사용하여 다른 데이터 세트와 결합할 수 있습니다.

열 추가 모듈은 R처럼 동작하며 데이터 세트의 행 수가 같으면 행 단위로 두 데이터 세트를 병합할 수 있습니다. 데이터 세트 크기가 다른 경우 오류가 발생합니다.

예상 입력

Name 유형 설명
Dataset1 데이터 테이블 조인할 첫 번째 데이터 집합입니다.
Dataset2 데이터 테이블 조인할 두 번째 데이터 집합입니다.

모듈 매개 변수

Name 범위 Type 기본값 설명
L의 조인 키 열 모두 ColumnSelection 첫 번째 데이터 집합에 대한 조인 키 열을 선택합니다.
R의 조인 키 열 모두 ColumnSelection 두 번째 데이터 집합에 대한 조인 키 열을 선택합니다.
대/소문자 구분 모두 부울 True 키 열에 대해 대/소문자를 구분하는 비교가 허용되는지 여부를 나타냅니다.
조인 유형 목록 유형 내부 조인 조인 유형을 선택합니다.
조인된 테이블에서 오른쪽 키 열 유지 모두 부울 True 조인된 데이터 집합에서 두 번째 데이터 집합의 키 열을 유지할지 여부를 나타냅니다.

출력

Name 유형 설명
결과 데이터 집합 데이터 테이블 조인 작업의 결과입니다.

예외

예외 설명
오류 0001 지정한 데이터 집합 열 중 하나 이상을 찾을 수 없으면 예외가 발생합니다.
오류 0003 입력 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다.
오류 0006 매개 변수가 지정한 값 이상이면 예외가 발생합니다.
오류 0016 모듈에 전달되는 입력 데이터 집합에 호환 가능한 열 유형이 있어야 하지만 없는 경우 예외가 발생합니다.
오류 0017 하나 이상의 지정된 열에 현재 모듈에서 지원되지 않는 유형이 있으면 예외가 발생합니다.
오류 0020 모듈로 전달된 데이터 집합 중 일부의 열 수가 너무 적으면 예외가 발생합니다.
오류 0028 열 집합에서 열 이름이 중복되어서는 안 되는데 중복되는 경우 예외가 발생합니다.
오류 0011 전달된 열 집합의 인수가 데이터 집합 열에 적용되지 않는 경우 예외가 발생합니다.
오류 0027 두 개체의 크기가 같아야 하지만 다른 경우 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 MACHINE LEARNING REST API 오류 코드를 참조하세요.

참고 항목

조작
데이터 변환
전체 모듈 목록