크롤링되는 콘텐츠의 양 제한 또는 증대(Office SharePoint Server)
업데이트 날짜: 2008년 10월
적용 대상: Office SharePoint Server 2007
마지막으로 수정된 항목: 2015-03-09
작업 중에는 현재 크롤링 중인 콘텐츠의 양을 변경해야 하는 경우가 많습니다. 예를 들어 다음과 같은 작업을 수행하려 할 수 있습니다.
기존 콘텐츠 원본에서 정의되는 특정 네임스페이스 내의 일부 사이트 크롤링을 중단
다른 수준에서 사이트 크롤링
크롤링할 파일 형식의 수 변경. 즉, 이전에 크롤링하지 않은 파일 형식의 크롤링을 시작하거나, 현재 크롤링 중인 특정 파일 형식의 크롤링을 중단하거나, 두 작업을 모두 수행합니다.
조직의 요구 사항이 변경되면 전혀 새로운 콘텐츠 원본을 크롤링하게 될 수도 있습니다. 완전히 새로운 콘텐츠 원본을 크롤링하는 방법에 대한 자세한 내용은 콘텐츠 원본 정보(Office SharePoint Server 2007)를 참조하십시오.
다음을 사용하여 크롤링되는 콘텐츠의 양을 늘리거나 제한할 수 있습니다.
콘텐츠 원본의 크롤링 설정 - 예를 들어 특정 콘텐츠 원본에 지정되어 있는 시작 주소만 크롤링하도록 지정하거나, 해당 시작 주소부터 크롤링할 네임스페이스 수준 및 허용할 서버 홉 수를 지정할 수 있습니다. 콘텐츠 원본 내에서 크롤링되는 콘텐츠 양을 지정하는 데 사용할 수 있는 옵션은 콘텐츠 원본 형식에 따라 다릅니다.
파일 형식 포함 - 크롤링할 파일 형식을 직접 선택할 수 있습니다.
크롤링 규칙 - 크롤링 규칙을 사용하여 지정된 경로의 모든 항목을 크롤링에서 제외할 수 있습니다. 이렇게 하면 인덱싱하지 않으려는 하위 사이트가 크롤링 중인 상위 사이트와 함께 크롤링되지 않습니다. 또한 크롤링 규칙을 통해 크롤링되는 콘텐츠 양을 늘릴 수도 있습니다. 예를 들어 지정된 경로에 대해 복합 URL을 크롤링할 수 있습니다.
크롤링 설정
콘텐츠 원본마다 해당 콘텐츠 원본의 시작 주소를 크롤링할 범위를 선택할 수 있습니다. 또한 크롤링의 동작(크롤링 설정이라고도 함)도 지정할 수 있습니다. 특정 콘텐츠 원본에 대해 선택할 수 있는 옵션은 어떤 콘텐츠 원본 형식을 선택하는지에 따라 다소 달라집니다. 그러나 대부분의 옵션은 콘텐츠 원본에 나열된 각 시작 주소부터 크롤링이 수행되는 계층 수준을 결정합니다. 이 동작은 특정 콘텐츠 원본의 모든 시작 주소에 적용됩니다.
각 콘텐츠 원본의 속성에서 사용할 수 있는 옵션은 선택하는 콘텐츠 원본 형식에 따라 달라집니다. 다음 표에서는 각 콘텐츠 원본 형식의 크롤링 설정 옵션에 대해 설명합니다.
콘텐츠 원본 형식 | 크롤링 설정 옵션 |
---|---|
SharePoint 사이트 |
|
웹 사이트 |
|
파일 공유 |
|
Exchange 공용 폴더 |
|
비즈니스 데이터 |
|
위 표에 나와 있는 것처럼 공유 서비스 관리자는 크롤링 설정 옵션을 사용하여 크롤링되는 콘텐츠의 양을 제한하거나 늘릴 수 있습니다.
다음 표에서는 크롤링 설정 옵션을 구성하는 최상의 방법에 대해 설명합니다.
콘텐츠 원본 형식 | 해당하는 경우 | 사용할 크롤링 설정 옵션 |
---|---|---|
SharePoint 사이트 |
다른 사이트 모음과 다른 일정으로 특정 사이트 모음에서 콘텐츠를 크롤링하려는 경우 |
각 시작 주소의 SharePoint 사이트만 크롤링 참고 이 옵션에는 어떤 URL이나 사용할 수 있습니다. 단, 입력하는 URL에 지정되어 있는 사이트 모음의 최상위 사이트부터 크롤링이 시작됩니다. 예를 들어 http://contoso/ |
SharePoint 사이트 |
동일한 일정으로 특정 웹 응용 프로그램의 모든 사이트 모음에서 콘텐츠를 크롤링하려는 경우 |
각 시작 주소의 호스트 이름 아래에 있는 모든 항목 크롤링 참고 이 옵션에는 http://contoso 등의 호스트 이름만 시작 주소로 사용할 수 있습니다. 즉, 이 옵션을 사용할 때는 http://contoso/ |
웹 사이트 |
사이트 자체의 콘텐츠가 관련성이 있는 경우 또는 연결된 사이트에서 사용할 수 있는 콘텐츠가 관련성이 없는 경우 |
각 시작 주소의 서버 내에서만 크롤링 |
웹 사이트 |
관련 콘텐츠가 첫 페이지에만 있는 경우 |
각 시작 주소의 첫 페이지만 크롤링 |
웹 사이트 |
시작 주소에서 링크를 크롤링할 수준을 제한하려는 경우 |
사용자 지정 - 크롤링할 페이지 수준 수와 서버 홉 수 지정 참고 페이지 수준을 4단계 이상 지정하거나 서버 홉 수를 4개 이상 지정하면 인터넷 전체를 크롤링할 수 있으므로 연결이 많은 사이트에서는 적은 수로 시작하는 것이 좋습니다. 참고 하나 이상의 크롤링 규칙을 사용하여 크롤링할 콘텐츠를 지정할 수도 있습니다. 자세한 내용은 크롤링 규칙을 사용하여 크롤링할 콘텐츠 결정(Office SharePoint Server 2007)을 참조하십시오. |
파일 공유 Exchange 공용 폴더 |
하위 폴더에서 사용할 수 있는 콘텐츠가 관련성이 없는 경우 |
각 시작 주소의 폴더만 크롤링 |
파일 공유 Exchange 공용 폴더 |
하위 폴더의 콘텐츠가 관련성이 있는 경우 |
각 시작 주소의 폴더 및 하위 폴더 크롤링 |
비즈니스 데이터 |
비즈니스 데이터 카탈로그에 등록된 모든 응용 프로그램에 관련 콘텐츠가 포함된 경우 |
전체 비즈니스 데이터 카탈로그 크롤링 |
비즈니스 데이터 |
비즈니스 데이터 카탈로그에 등록된 일부 응용 프로그램에 관련 콘텐츠가 포함되지 않은 경우 또는 일부 응용 프로그램을 다른 일정으로 크롤링하려는 경우 |
선택한 응용 프로그램 크롤링 |
파일 형식 포함 및 IFilter
콘텐츠는 관련 파일 이름 확장명이 파일 형식 포함 목록에 포함되어 있으며 이러한 파일 형식을 지원하는 인덱스 서버에 IFilter가 설치되어 있는 경우에만 크롤링됩니다. 초기 설치 중에 여러 파일 형식이 자동으로 포함됩니다. 쿼리 로그를 분석하면 최종 사용자가 쿼리하려는 콘텐츠가 포함된 파일 형식을 확인할 수 있습니다. 또한 현재 크롤링하고 있지 않은 파일 형식을 크롤링해야 하는지 여부를 확인하거나 특정 파일 형식을 크롤링에서 제외할 수 있습니다.
파일 형식 포함 목록에 파일 형식을 추가할 때는 크롤링할 때 해당 파일 형식을 구문 분석하는 데 사용할 수 있는 IFilter도 설치해야 합니다. 이와 같은 IFilter를 설치하지 않으면 해당 파일 형식으로 된 파일의 콘텐츠가 인덱싱되지 않으므로 검색할 수 없게 됩니다. 그러나 해당 파일 형식으로 된 파일의 메타데이터는 크롤링되며 검색 가능한 상태가 됩니다. 예를 들어 파일 형식 포함 목록에 PDF를 추가했으나 PDF 파일 형식용 IFilter는 설치하지 않으면 PDF 파일의 콘텐츠는 인덱싱되지 않지만 PDF 파일 메타데이터는 인덱싱됩니다.
Office SharePoint Server 2007에서는 다양한 IFilter가 제공되며, Microsoft 및 타사 공급업체에서도 여러 가지 IFilter를 제공합니다. 필요한 경우 소프트웨어 개발자가 새 파일 형식용으로 IFilter를 만들 수 있습니다. Office SharePoint Server 2007을 사용하여 Microsoft에서 제공하는 추가 IFilter를 설치 및 등록하려면 HSharePoint Server 2007 및 Search Server 2008을 사용하여 Microsoft 필터 팩을 등록하는 방법(https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x412)을 참조하십시오. 타사 공급업체의 IFilter를 포함한 IFilter에 대한 자세한 내용은 필터 설명 (영문)(https://go.microsoft.com/fwlink/?linkid=131255&clcid=0x412)을 참조하십시오.
기본적으로 설치되는 IFilter가 지원하는 파일 형식 및 기본적으로 크롤링할 수 있도록 설정되는 파일 형식의 목록을 보려면 파일 형식 및 IFilter 참조(Office SharePoint Server)를 참조하십시오.
크롤링 규칙을 사용하여 콘텐츠 제한 또는 제외
기존 크롤링 규칙을 편집하거나 새 크롤링 규칙을 만들어 특정 경로에 대해 모든 항목을 제외하거나 특정 항목을 포함할 수 있습니다.
참고
콘텐츠 원본에 시작 주소를 추가하고 기본 동작을 사용하도록 선택하면 하나 이상의 크롤링 규칙을 사용하여 제외하지 않는 한 해당 시작 주소 아래의 모든 하위 사이트 또는 폴더가 크롤링됩니다.
크롤링 규칙은 특정 URL이나 와일드카드로 표시되는 URL 집합에 적용됩니다. 이 URL을 규칙의 영향을 받는 경로라고도 합니다. 크롤링 규칙을 사용하여 다음을 수행할 수 있습니다.
하나 이상의 URL을 제외하여 관련성이 낮은 콘텐츠 크롤링 방지. 이렇게 하면 서버 리소스 및 네트워크 트래픽 사용량을 줄이고 검색 결과의 관련성을 높일 수 있습니다.
URL 자체는 크롤링하지 않고 URL의 링크만 크롤링. 이 옵션은 관련 콘텐츠 링크가 포함된 사이트에서 링크가 포함된 페이지에 관련 정보가 없거나, 해당 페이지를 검색 결과 페이지에서 최종 사용자에게 표시하지 않아야 할 때 유용합니다.
복합 URL 크롤링 사용. 이 옵션은 물음표로 지정되는 쿼리 매개 변수가 포함된 URL을 크롤링합니다. 사이트에 따라 이러한 URL에 관련 콘텐츠가 포함될 수도 있고, 포함되지 않을 수도 있습니다. 복합 URL은 관련성이 떨어지는 사이트로 리디렉션되는 경우가 많으므로 복합 URL에서 사용 가능한 콘텐츠가 관련성이 있는 것으로 알려진 사이트에서만 이 옵션을 사용하는 것이 좋습니다.
참고
Office SharePoint Server 2007에서는 SharePoint 사이트를 크롤링할 때 모든 콘텐츠를 열거하므로, SharePoint 사이트를 크롤링할 때는 이 옵션을 사용해도 아무런 변화가 없습니다.
참고
크롤링 규칙은 SSP의 모든 콘텐츠 원본에 동시에 적용됩니다.
특정 사이트 주소의 콘텐츠 중 대부분은 관련성이 있지만 해당 사이트 주소 아래의 특정 하위 사이트나 사이트 범위는 관련이 없는 경우가 있습니다. 이 경우 불필요한 항목을 제외하는 크롤링 규칙을 만들 전용 URL 조합을 선택하면 공유 서비스 관리자가 인덱스에서 콘텐츠의 관련성을 최대화하는 동시에 크롤링 성능에 대한 영향과 검색 데이터베이스의 크기를 최소화할 수 있습니다. URL을 제외하는 크롤링 규칙을 만들면 조직의 사용자가 리소스 사용에 대한 영향을 제어할 수 없으므로 외부 콘텐츠에 대해 시작 주소를 계획할 때 특히 유용합니다.
크롤링 규칙을 만들 때 경로에 표준 와일드카드 문자를 사용할 수 있습니다. 예를 들면 다음과 같습니다.
http://server1/folder*라고 입력하면 URL이 http://server1/folder로 시작되는 모든 웹 리소스가 포함됩니다.
*://*.txt라고 입력하면 파일 이름 확장명이 .txt인 모든 문서가 포함됩니다.
콘텐츠 크롤링에는 리소스와 대역폭이 사용되므로 관련성이 확실한 소량의 콘텐츠를 포함하는 것이 좋습니다. 초기 배포 후 쿼리 및 크롤링 로그를 검토하여 보다 관련성이 높고 보다 많은 콘텐츠를 포함하도록 콘텐츠 원본과 크롤링 규칙을 조정할 수 있습니다.
크롤링되는 콘텐츠의 양을 제한하거나 늘리려면 다음 절차를 수행하면 됩니다.