용어 조회를 변환
적용 대상: SQL Server Azure Data Factory의 SSIS Integration Runtime
용어 조회 변환은 변환 입력 열의 텍스트에서 추출된 용어와 참조 테이블에 있는 용어가 일치하는지 확인합니다. 그런 다음 조회 테이블에서 항이 입력 데이터 집합에서 발생하게 되는 횟수를 계산하여 해당 횟수를 참조 테이블의 용어로 변환 출력의 열에 기록해 주세요. 이러한 변환은 입력 텍스트를 기준으로 단어 빈도 통계가 모두 포함된 사용자 지정 단어 목록을 만들 때 유용합니다.
용어 조회 변환이 조회를 실행하기 이전에 용어 추출 변환과 동일한 메서드를 사용하여 입력 열의 텍스트에서 단어를 추출해 주세요:
텍스트는 문장으로 나누어 집니다.
문장은 단어로 나누어 집니다.
단어를 기본 형태로 변환합니다.
일치시킬 용어를 추가로 사용자 지정을 하기 위해 대문자 및 소문자를 구분 일치를 실행할 수 있도록 용어 조회 변환을 만들어 보실 수 있습니다.
일치
용어 조회에서는 조회를 수행하고 다음 규칙에 따라 값을 반환합니다:
대/소문자 구분 검색을 수행하도록 변환이 구성된 경우 대/소문자가 다른 일치 항목은 무시됩니다. 예를 들면 학생과 STUDENT는 별도의 단어로 처리되어 집니다.
참고 항목
대문자가 아닌 단어는 문장의 시작 부분에서 대문자로 이루어진 단어와 일치시킬 수 있습니다. 예를 들어 Student 가 문장의 첫 단어인 경우 student 와 Student 는 일치하는 단어로 검색됩니다.
참조 테이블에 명사 혹은 명사구의 복수 형태가 있는 경우에 조회는 명사 혹은 명사구의 복수 형식만 일치합니다. 예를 들면, 학생의 모든 인스턴스는 학생의 인스턴스와 별도로 계산됩니다.
참조표에서 단수 형식만 있는 경우에 단어 혹은 구의 단수 형태과 복수 형태의 단수 혹은 구가 모두 단수 형태로 일치합니다. 예를 들면, 조회 테이블에 학생이 포함되어 있고 변환에서 학생 및학생이라는 단어를 찾은 경우에 두 단어 모두 조회 용어 학생에 대한 일치하는 항목인 것으로 계산됩니다.
입력 열의 텍스트가 표제어된 명사구인 경우에 명사구의 마지막 단어만 정규화의 영향을 받습니다. 예를 들어 doctors appointments 의 분류된 형태는 doctors appointment입니다.
참조 집합에서 겹치는 용어가 조회 항목에 포함되어 있을 경우(즉, 하위 용어가 하나를 초과하는 참조 레코드에 있는 경우) 용어 조회 변환에서는 하나의 조회 결과만 반환합니다. 다음 예에서는 겹치는 하위 용어가 조회 항목에 포함되어 있는 때의 결과를 보여 줍니다. 이 경우에 있어서 겹치는 하위 용어는 두 개의 참조 용어 내에 있는 Windows입니다. 그러나 변환은 두 개의 결과를 반환하지는 않으며 단일 참조 용어인 Windows만을 반환합니다. 두 번째 참조 용어인 Windows 7 Professional은 반환되지 않습니다.
항목 | 값 |
---|---|
입력 용어 | Windows 7 Professional |
참조 용어 | Windows, Windows 7 Professional |
출력 | Windows |
용어 조회 변환은 특수 문자를 포함하는 명사 및 명사구와 일치시킬 수 있으며 참조 테이블의 데이터에는 이러한 문자가 포함될 수 있습니다. 특수 문자는 다음과 같습니다: %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", and '.
데이터 형식
용어 조회 변환은 DT_WSTR or DT_NTEXT 데이터 형식을 가지고 있는 열만 사용할 수 있습니다. 열에 텍스트가 포함되어 있지만 이러한 데이터 형식 중 하나가 없을 경우에는 데이터 변환은 데이터 흐름에 DT_WSTR or DT_NTEXT 데이터 형식이 있는 열을 추가하여 열 값을 새로운 열에 복사할 수 있습니다. 그런 다음 데이터 변환의 출력을 용어 조회 변환에 대한 입력으로 사용할 수 있습니다. 자세한 내용은 Data Conversion Transformation을 참조하세요.
용어 조회를 변환 구성
용어 조회 변환 입력 열에는 열의 용도를 나타내는 InputColumnType 속성이 포함됩니다. InputColumnType에는 다음 값을 포함할 수 있습니다:
값 0은 열이 출력에만 전달되고 조회에는 사용되지 않고 있음을 나타내고 있습니다.
값 1은 열이 조회에서만 사용됨을 나타냅니다.
값 2는 열이 출력에 전달되고 조회에서도 사용됨을 나타냅니다.
InputColumnType 속성이 0 혹은 2로 설정된 변환 출력 열에는 업스트림 데이터 흐름 구성 요소로 열에 할당된 계보 식별자를 포함하는 열에 대한 CustomLineageID 속성을 포함합니다.
용어 조회 변환은 기본적으로 용어 및 빈도로 명명된 두 개의 변환 출력에 추가해 주세요. 용어에는 조회 테이블의 용어가 포함되며 빈도에는 참조 테이블에서의 용어가 입력 데이터 세트에서 발생하는 횟수를 포함합니다. 이러한 열에는 CustomLineageID 속성이 포함되지 않습니다.
조회 테이블은 구조적 쿼리 언어 서버 혹은 엑세스 데이이터베이스의 테이블이어야 합니다. 용어 추출 변환의 출력이 테이블에 저장되는 경우에 이 테이블을 참조 테이블로 사용할 수 있지만 다른 테이블도 사용할 수도 있습니다. 용어 조회 변환을 사용하려면 먼저 플랫 파일, 엑셀 통합 문서 혹은 기타 소스의 텍스트를 구조적 언어 쿼리 서버 데이터베이스 혹은 엑세스 데이터베이스로 가져와 주어야 합니다.
용어 조회 변환은 별도의 객체 연결 삽입 데이터베이스 연결을 사용하여 참조 테이블에 연결합니다. 자세한 내용은 OLE DB 연결 관리자를 참조하세요.
용어 조회 변환은 완전한 사전 캐시 모드에서 작동됩니다. 용어 조회 변환은 런타임에 참조 테이블로부터 용어를 읽고 변환 입력 행을 처리하기 전에 이를 프라이빗 메모리에 저장합니다.
입력 열 행의 용어는 반복될 수 있기 때문에 용어 조회 변환의 출력에는 일반적으로 변환 입력보다 많은 수의 행이 포함됩니다.
변환에는 하나의 입력과 하나의 출력을 가지고 있습니다. 오류 출력은 지원하지 않습니다.
SSIS 디자이너를 사용하거나 프로그래밍 방식으로 속성을 설정할 수 있습니다.
고급 편집기 대화 상자를 사용하거나 프로그래밍 방식으로 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하세요:
속성을 설정하는 방법에 대한 자세한 내용은 데이터 흐름 구성 요소의 속성 설정을 참조하세요.
용어 조회 변환 편집기 (용어 조회 탭)
용어 조회 변환 편집기 대화 상자의 용어 조회탭을 사용하여 입력 열을 참조 테이블의 조회 열에 매핑하여 각 출력 열에 별칭을 제공합니다.
옵션
사용 가능한 입력 열
확인란을 사용하여 입력 열을 선택하고 변경하지 않은 출력으로 전달됩니다. 입력 열을 사용 가능한 참조 열 목록으로 끌어서 참조 테이블의 조회 열로 매핑할 수 있습니다. 입력 및 조회 열에서는 DT_NTEXT or DT_WSTR과 같이 지원이 되면서 데이터 유형도 일치해야 합니다. 매핑 라인을 선택하고 마우스 오른쪽 단추를 클릭하여 관계 만들기 대화 상자에서 매핑을 편집해 주세요.
사용 가능한 참조 열
참조 테이블에서 사용 가능한 열을 확인해 보세요. 일치시키기 위한 용어 목록이 포함된 열을 선택해 주세요.
통과 열
사용 가능한 입력 열 목록에서 선택해 주세요. 선택 내용에 따라 사용 가능한 입력 열 테이블의 확인란이 달라집니다.
출력 열 별칭
각 출력 열에 대한 별칭을 입력해 주세요. 기본값은 열의 이름이지만 고유하고 설명적 이름을 선택하실 수 있습니다.
오류 출력 구성
오류 출력 구성 대화 상자를 사용하여 오류를 발생시키는 행에 대한 오류를 처리하는 옵션을 지정합니다.
용어 조회 변환 편집기 (참조 테이블 탭)
용어 조회 변환 편집기 대화 상자의 참조 테이블 탭을 사용하여 참조 (조회) 테이블에 대한 연결을 지정합니다.
옵션
OLE DB 연결 관리자
목록에서 기존 연결 관리자를 선택하거나 새로운 만들기를 클릭하여 새로운 연결을 만들어 보세요.
New
OLE DB 연결 관리자 구성 대화 상자를 사용하여 새 연결을 만듭니다.
참조 테이블 이름
목록에서 항목을 선택하여 데이터베이스에서 조회 테이블 혹은 보기를 선택해 주세요. 테이블 혹은 보기에는 소스열의 텍스트를 비교할 수 있는 기존 용어 목록을 가지고 있는 열이 포함되어야 합니다.
오류 출력 구성
오류 출력 구성 대화 상자를 사용하여 오류를 발생시키는 행에 대한 오류를 처리하는 옵션을 지정합니다.
용어 조회 변환 편집기 (고급 탭)
용어 조회 변환 편집기 대화 상자의 고급 탭을 사용하여 조회가 대문자 및 소문자를 구분해야 하는지에 대한 여부를 지정합니다.
옵션
대문자 및 소문자를 구분하는 용어 조회 사용
조회가 대문자 및 소문자를 구분하는지에 대한 여부를 나타냅니다. 기본값은 False입니다.
오류 출력 구성
오류 출력 구성 대화 상자를 사용하여 오류를 발생시키는 행에 대한 오류를 처리하는 옵션을 지정합니다.