검색 환경의 성능 및 용량 요구 사항 예측
업데이트 날짜: 2009년 5월
적용 대상: Office SharePoint Server 2007
마지막으로 수정된 항목: 2015-03-09
이 문서의 내용
주요 특징
테스트 환경
권장 사항
이 성능 및 용량 계획 시나리오에서는 엔터프라이즈 환경에서 Office SharePoint Server 콘텐츠 검색 및 인덱싱에 사용되는 단일 Microsoft Office SharePoint Server 2007 팜을 구현합니다.
중요
이 문서의 일부 지침은 Office SharePoint Server 2007 SP1용으로 업데이트되었습니다. 포괄적인 Office SharePoint Server 2007 SP1 업데이트 목록을 보려면 다운로드 가능한 문서: 다중 서버 환경에서 Office SharePoint Server 2007용 서비스 팩 1 계획 및 배포를 참조하십시오.
주요 특징
주요 특징에서는 이 시나리오에 기반한 배포에서 발견할 수 있는 환경 요소, 사용 특징 및 기타 고려 사항에 대해 설명합니다.
이 시나리오의 주요 특징은 다음과 같습니다.
**사용자 응답 시간 **일반적인 작업과 그렇지 않은 작업, 오랫동안 실행하는 작업, 거의 수행하지 않는 작업 등에 대한 목표 사용자 응답 시간은 소프트웨어 경계 계획(Office SharePoint Server)의 사용자 응답 시간 표에 나와 있습니다. 느린 사용자 응답을 허용하는 조직도 있는 반면, 사용자 응답 시간이 빨라야 하는 조직도 있습니다. 예상 사용자 응답 시간은 전체 처리량 목표를 결정하는 중요한 요인입니다. 처리량은 서버 팜이 초당 처리할 수 있는 요청의 수입니다. 사용자 수가 많을수록 동일한 사용자 응답 시간을 얻는 데 필요한 처리량 목표가 높아집니다.
**사용자 동시성 **동시성 비율이 10%이고 특정 시점에 동시 사용자의 1%가 요청을 수행한다고 가정합니다. 예를 들어 사용자가 10,000명인 경우 1,000명의 사용자가 솔루션을 동시에 사용하며 100명의 사용자가 요청을 수행합니다.
**장기 실행 비동기 작업 **콘텐츠 크롤링 및 데이터베이스 백업 등의 작업을 수행하면 서버 팜에 성능 부하가 추가됩니다. 예제 토폴로지에서는 일반적인 성능상의 이유로 사용량이 적은 새벽과 같은 시간대에 이러한 작업이 실행된다고 가정합니다. 따라서 업무 시간 동안의 사용자 응답 속도에는 영향을 주지 않습니다.
테스트 환경
이 시나리오에 대한 테스트는 서로 다른 팜 구성에서 다음과 같은 여러 가지 요소가 변화할 때 다양한 팜 구성이 어떻게 반응하는지 예측할 수 있도록 디자인되었습니다.
시스템을 동시에 사용하는 사용자 수
수행 중인 사용자 작업의 종류
쿼리 중인 인덱스의 문서 수
테스트 결과에서 특정한 결론을 도출할 수도 있지만, 이 섹션에 나와 있는 구체적인 용량 및 성능 수치는 실제 환경의 수치와 다를 수 있습니다. 이 문서에서 제시하는 수치는 적절한 규모의 환경을 디자인하기 위한 시작점을 제공하기 위한 것입니다. 초기 시스템 디자인을 마친 후 구성을 테스트하여 해당 환경의 여러 요소가 지원되는지 확인해야 합니다.
참고
이 문서의 테스트는 문서와 사용자 수가 매우 많은 엔터프라이즈 환경을 시뮬레이트하도록 진행되었습니다. 테스트 환경에 사용된 하드웨어는 강력한 기능의 프로세서와 많은 양의 메모리 및 디스크 용량으로 구성되었습니다. 테스트 시작점의 하드웨어 권장 사항을 보려면 이 문서의 권장 사항 섹션에서 하드웨어 권장 사항을 참조하십시오.
배포를 테스트하는 방법에 대한 자세한 내용은 성능 및 용량 계획용 도구(Office SharePoint Server)를 참조하십시오.
가정
**64비트 아키텍처 **테스트 환경에서는 64비트 서버만 사용했습니다. 32비트 서버에도 Office SharePoint Server 2007을 배포할 수 있지만 Office SharePoint Server 2007 팜 배포에는 64비트 서버를 사용하는 것이 좋습니다. 자세한 내용은 성능 및 용량 계획 정보(Office SharePoint Server) 문서의 64비트와 32비트 비교 섹션을 참조하십시오.
디스크 기반 캐싱 사용 디스크 기반 캐싱을 사용하면 이미지, 사운드, 비디오 파일 등의대형 이진 파일 또는 코드 조각에 대해 데이터베이스에 여러 번 액세스할 필요가 없으며, 전체 배포의 성능이 향상됩니다. 기본적으로 디스크 기반 캐싱은 사용하지 않도록 설정됩니다. 디스크 기반 캐싱을 사용하도록 설정하는 방법에 대한 자세한 내용은 BLOB(Binary Large OBject)에 대한 디스크 기반 캐싱 (영문)(https://go.microsoft.com/fwlink/?linkid=82617&clcid=0x412)을 참조하십시오.
테스트용 토폴로지
테스트에는 다수의 팜 구성이 사용되었으며, 여기에는 1~8개의 쿼리 서버와 인덱스 서버, SSP 및 Microsoft SQL Server 2005 데이터베이스 소프트웨어를 실행하는 데이터베이스 서버 컴퓨터가 각각 하나씩 포함됩니다. 모든 서버 컴퓨터에서는 Microsoft Windows Server 2003 운영 체제 SP1(서비스 팩 1), Enterprise x64 Edition에서 Office SharePoint Server 2007 Enterprise Edition의 기본 구성을 실행했습니다.
다음 표에서는 테스트에 사용된 구체적인 하드웨어를 보여 줍니다.
컴퓨터 역할 | 하드웨어 | 하드 디스크 용량 |
---|---|---|
쿼리 서버 |
듀얼 코어 Intel Xeon 2.66GHz 프로세서 4개 32GB RAM |
운영 체제용 40GB(RAID(Redundant Array of Independent Disks) 5) 콘텐츠 인덱스 및 운영 체제 페이징 파일용 956GB(RAID 10) |
인덱스 서버 |
듀얼 코어 Intel Xeon 2.66GHz 프로세서 4개 32GB RAM |
운영 체제용 40GB(RAID 5) 콘텐츠 인덱스 및 운영 체제 페이징 파일용 956GB(RAID 10) |
데이터베이스 서버 |
듀얼 코어 Intel Xeon 2.66GHz 프로세서 4개 32GB RAM |
운영 체제용 40GB(RAID 5) 전용 SCSI(Small Computer System Interface) 컨트롤러가 포함된 SharedServices_Search_DB 데이터베이스용 956GB(RAID 10) 다음 디스크는 SCSI 컨트롤러를 공유합니다. SharedServices_DB 데이터베이스용 273GB(RAID 10) TempDb 데이터베이스용 273GB(RAID 10) 로그 파일용 273GB(RAID 10) SharePoint_Config 데이터베이스용 136GB(RAID 10) |
테스트 환경에는 기가비트(초당 10억 비트) 네트워크가 사용되었습니다. 네트워크 대역폭을 적절하게 유지하려면 Office SharePoint Server 팜의 서버 간에는 기가비트 네트워크를 사용하는 것이 좋습니다.
사용 프로필
다음 표에서는 Office SharePoint Server 2007 검색 테스트 환경의 사용 프로필을 보여 줍니다.
참고
이 시나리오의 테스트에서는 쿼리 사용자 작업만을 사용하여 시스템 성능을 측정했습니다.
테스트를 위해 약 5천만 개의 항목을 크롤링했습니다. 다음 표에서는 크롤링한 항목의 유형과 수를 보여 줍니다. 크기가 10KB에서 100KB 사이인 목록 항목, 웹 페이지, 다양한 문서 유형 등의 항목이 포함됩니다.
항목 유형 | 항목 수 |
---|---|
SharePoint 사이트의 콘텐츠 |
다음을 비롯한 1천만 개 항목
|
파일 공유 콘텐츠 |
1천 5백만 개 항목 |
HTTP 콘텐츠 |
1천 5백만 개 항목 |
사용자 프로필 |
250만 개 |
Stitch(메모리에 문서를 생성하는 메모리 내 테스트 도구) |
750만 개 |
속성(메타데이터) |
1백만 개 |
다음 표에서는 디스크 공간 사용을 보여 줍니다.
사용 유형 | 사용량 |
---|---|
쿼리 서버의 인덱스 크기 |
100GB* |
인덱스 서버의 인덱스 크기 |
100GB* |
검색 데이터베이스 크기 |
600GB |
참고
테스트에 사용한 인덱스 크기는 실제 프로덕션 환경의 인덱스 크기보다 작습니다. 테스트에서 생성된 모음에서는 고유한 단어 수가 제한되어 있으며 반복되는 경우가 많기 때문입니다.
테스트 중에 전체 크롤링을 수행하는 데 소요된 시간은 35일(초당 약 15개의 문서 처리)이었습니다. 이러한 테스트 결과는 네트워크 대기 시간과 크롤링된 저장소의 응답 성능이 크롤링 속도에 영향을 주는 프로덕션 환경에서 측정한 것입니다. 초당 문서 수 단위로 측정되는 크롤링 속도는 순수한 테스트 환경이나, 대역폭 및 크롤링된 저장소의 응답 성능이 보다 높은 환경에서는 훨씬 빠를 수 있습니다.
테스트 환경에 사용된 크기의 모음에서 2%가 변경되면 이 변경 내용을 반영하기 위한 증분 크롤링에는 크롤링 대상 사이트의 응답 성능과 대기 시간에 따라 약 8-12시간이 소요됩니다. 메타데이터 및 아웃바운드 링크에 대한 변경 내용은 문서 콘텐츠에 대한 변경 내용보다 처리 시간이 더 오래 걸립니다.
권장 사항
이 섹션에서는 성능 및 용량에 대한 일반적인 권장 사항을 설명합니다. 이러한 권장 사항을 참조하여 중복 계획(Office SharePoint Server)에서 만든 시작 토폴로지의 용량 및 성능 특징을 파악하고 시작 토폴로지의 수평 또는 수직 확장 여부를 결정할 수 있습니다.
참고
수평 확장은 특정 역할에 서버를 더 추가하는 것이고, 수직 확장은 메모리나 하드 디스크 용량을 추가하거나 프로세서 속도를 높여 지정된 서버의 성능이나 용량을 높이는 것입니다.
하드웨어 권장 사항
다음 표에서는 웹 서버, 인덱스 서버 및 데이터베이스 서버로 권장되는 하드웨어를 보여 줍니다.
참고
웹 서버, 인덱스 서버 및 데이터베이스 서버의 메모리 요구 사항은 팜의 크기, 동시 사용자 수 및 팜에 있는 기능과 페이지의 복잡도에 따라 다릅니다. 규모가 작거나 사용량이 적은 팜에는 다음 표의 메모리 권장 사항이 적합할 수 있지만, 메모리 사용을 주의깊게 모니터링하여 메모리를 더 추가해야 하는지 결정해야 합니다.
서버 역할 | 권장 하드웨어 |
---|---|
웹(쿼리) 서버 |
듀얼 2.5GHz 이상 프로세서(3GHz 이상 권장) 최소 2GB RAM 권장 사용 가능한 디스크 공간 3GB 로컬 또는 네트워크로 액세스 가능한 DVD 드라이브 |
인덱스 서버 |
듀얼 2.5GHz 이상 프로세서(3GHz 이상 권장) 최소 4GB RAM 권장 사용 가능한 디스크 공간 3GB 로컬 또는 네트워크로 액세스 가능한 DVD 드라이브 |
데이터베이스 서버 |
듀얼 2.5GHz 이상 프로세서(3GHz 이상 권장) 최소 4GB RAM 권장 콘텐츠 데이터베이스의 하드 디스크 공간은 콘텐츠 크기에 대한 데이터베이스 용량 비율 1:1.2를 기준으로 합니다. 즉, 콘텐츠가 100GB로 계획된 경우 콘텐츠 데이터베이스에 대한 최소 120GB의 사용 가능한 디스크 공간과 트랜잭션 로그를 위한 추가 공간이 필요합니다. 검색 데이터베이스의 하드 디스크 공간은 인덱스 크기에 대한 데이터베이스 용량 비율 1:4를 기준으로 합니다. 즉, 인덱스가 100GB로 계획된 경우 검색 데이터베이스에 대한 최소 400GB의 사용 가능한 디스크 공간과 트랜잭션 로그를 위한 추가 공간이 필요합니다. 로컬 또는 네트워크로 액세스 가능한 DVD 드라이브 |
참고
트랜잭션 로그용으로 데이터베이스 서버에 필요한 하드 디스크 공간은 로그 설정에 따라 다릅니다. 자세한 내용은 트랜잭션 로그 이해 및 관리(https://go.microsoft.com/fwlink/?linkid=82925&clcid=0x412)를 참조하십시오.
최소 및 권장 시스템 요구 사항에 대한 자세한 내용은 하드웨어 및 소프트웨어 요구 사항 확인(Search Server 2008)을 참조하십시오.
시작점 토폴로지
중복 계획(Office SharePoint Server)에 제공된 시작점 토폴로지와 해당 토폴로지를 비교하면 시작점 토폴로지의 성능을 예측할 수 있습니다. 이렇게 하면 성능 및 용량 목표를 달성하기 위해 시작점 토폴로지를 수직 또는 수평 확장할지 여부를 빠르게 결정할 수 있습니다.
수직 및 수평 확장된 토폴로지의 용량과 성능
시작점 토폴로지 중 하나의 용량과 성능을 높이려면 서버 컴퓨터의 용량을 늘려 수직 확장하거나 토폴로지에 서버를 추가하여 수평 확장합니다. 이 섹션에서는 수직 또는 수평 확장된 몇 가지 토폴로지의 일반적인 성능 특징을 설명합니다. 예제 토폴로지는 검색 환경에서 토폴로지를 수직 또는 수평 확장하는 다음과 같은 일반적인 방법을 나타냅니다.
더 많은 사용자 부하를 처리하려면 쿼리 서버 컴퓨터를 추가합니다. 웹 서버의 처리 부담을 어느 정도 줄이기 위해 인덱스 서버 및 전용 쿼리 서버를 추가할 수도 있습니다.
더 많은 데이터 부하를 처리하려면 클러스터 또는 미러된 단일 서버의 용량을 늘리거나, 64비트 서버로 업그레이드하거나, 클러스터 또는 미러된 서버를 추가하여 데이터베이스 서버 역할에 용량을 추가합니다.
클러스터 또는 미러된 데이터베이스 서버 컴퓨터 1대당 쿼리 서버 컴퓨터의 비율이 8대를 넘지 않도록 유지합니다. 시험용 환경의 테스트의 최적 비율은 7x1x1(쿼리 서버 7대와 인덱스 서버 및 데이터베이스 서버 하나씩)이었습니다.
처리량 목표 예측
이 섹션에서는 증가하는 쿼리 서버 및 사용자 연결 수에 대한 팜 처리량을 보여 주는 테스트 데이터를 제공합니다.
Office SharePoint Server 2007을 다양한 방식으로 배포하고 구성할 수 있으므로 특정 서버 수로 지원할 수 있는 사용자 수를 간단하게 예측할 수 있는 방법은 없습니다. 따라서 프로덕션 환경에서 Office SharePoint Server 2007을 배포하기 전에 자신만의 환경에서 테스트를 수행해야 합니다.
사용자 수, 사용자 작업의 복잡도 및 빈도, 캐싱, 페이지와 웹 파트 사용자 지정 등 다양한 요인이 처리량에 영향을 줄 수 있습니다. 이러한 각 요인은 팜 처리량에 큰 영향을 주므로, 배포를 계획할 때는 주의깊게 고려해야 합니다.
Office SharePoint Server 2007의 캐싱에 대한 자세한 내용은 다음 리소스를 참조하십시오.
조직에 기존 검색 솔루션이 있는 경우 IIS(인터넷 정보 서비스) 로그를 확인하여 현재 환경의 사용 패턴과 추세를 판단할 수 있습니다. IIS 로그 구문을 분석하는 방법에 대한 자세한 내용은 로그 파일 분석(IIS 6.0) (영문)(https://go.microsoft.com/fwlink/?linkid=78825&clcid=0x412)을 참조하십시오.
조직에서 새로운 검색 솔루션 배포를 계획하는 경우 다음 섹션의 정보를 참조하여 사용 패턴을 예측할 수 있습니다.
테스트 결과: 팜 구성에 따른 처리량
이 섹션의 표에서는 이 문서 앞부분의 테스트 환경에 나열된 하드웨어 및 사용 프로필을 사용하는 다양한 사용자 작업 프로필에 대한 테스트 결과를 보여 줍니다. 각 팜 구성에 대해 인덱스 서버 1대, 데이터베이스 서버 1대와 함께 1-8대의 쿼리 서버를 테스트했습니다. 따라서 3x1x1 팜 구성은 쿼리 서버 3개x인덱스 서버 1개x데이터베이스 서버 1개를 의미합니다. 인덱스 또는 데이터베이스 서버가 여러 개 포함된 팜에 대해서는 테스트를 수행하지 않았습니다.
다음 표에서는 검색 관련 사용자 작업의 테스트 결과를 보여 줍니다.
팜 크기 | RPS | 쿼리 서버 CPU 사용률 | 인덱스 서버 CPU 사용률 | 데이터베이스 서버 CPU 사용률 | 초당 데이터베이스 서버 디스크 쓰기 평균 |
---|---|---|---|---|---|
1x1x1 |
24.01 |
99.49 |
1.98 |
7.23 |
6.11 |
2x1x1 |
48.04 |
96.98 |
3.95 |
13.02 |
2.66 |
3x1x1 |
71.07 |
94.73 |
5.61 |
20.56 |
2.29 |
4x1x1 |
93.11 |
91.77 |
8.81 |
29.21 |
2.41 |
5x1x1 |
114.95 |
90.50 |
10.27 |
39.38 |
2.45 |
6x1x1 |
133.34 |
87.29 |
11.91 |
52.94 |
2.83 |
7x1x1 |
148.52 |
80.20 |
15.24 |
63.72 |
3.14 |
8x1x1 |
146.94 |
65.65 |
15.15 |
69.15 |
2.87 |
다음 그래프에서는 쿼리 서버 수가 변경될 때 검색 작업의 처리량이 어떻게 변경되는지를 보여 줍니다.
크롤링 시간대 예측
Office SharePoint Server 2007 검색 환경에서 콘텐츠 크롤링은 일반적으로 사용자가 시작하지 않은 최장기 실행 작업입니다. 자체 환경에서 테스트를 수행하여 특정 콘텐츠 원본을 사용하여 콘텐츠를 크롤링하는 데 걸리는 시간 및 이러한 콘텐츠 크롤링으로 소모되는 처리량이 목표 사용자 응답 시간에 지장을 주는지 여부를 확인해야 합니다. 일반적으로는 특정 콘텐츠 원본을 크롤링하는 작업을 12시간의 심야 시간대로 제한할 수 있는지 확인해야 합니다.
디스크 공간 요구 사항 예측
다음 정보를 참조하여 환경의 인덱스 서버, 쿼리 서버 및 데이터베이스 서버에 대한 디스크 공간 요구 사항을 계획합니다.
인덱스 서버 및 쿼리 서버의 디스크 공간 요구 사항
다음 정보를 참조하여 서버 팜의 인덱스 서버 및 쿼리 서버에 대한 디스크 공간 요구 사항을 계획합니다.
참고
콘텐츠를 인덱싱하기 전에 노이즈 단어는 모두 제거되므로, 일반적으로 콘텐츠 인덱스의 크기는 콘텐츠 모음 크기보다 작습니다.
참고
인덱스 서버가 아닌 다른 서버에서 쿼리 서버 역할을 사용하도록 설정하면 인덱스가 해당 쿼리 서버로 자동 전파됩니다. 쿼리 서버의 파일 시스템에 콘텐츠 인덱스의 복사본을 저장하려면 각 쿼리 서버에는 인덱스 서버가 콘텐츠 인덱스에 대해 사용하는 것과 같은 양의 디스크 공간이 필요합니다. 자세한 내용은 중복 계획(Office SharePoint Server)을 참조하십시오.
콘텐츠 인덱스가 포함된 하드 디스크의 디스크 공간 요구 사항을 예측하려면 다음을 수행합니다.
크롤링할 콘텐츠의 양과 각 파일의 평균 크기를 예측합니다. 모음의 평균 파일 크기를 모르는 경우에는 문서당 10KB를 기준으로 사용합니다.
다음 수식을 사용하여 콘텐츠 인덱스를 저장하는 데 필요한 디스크 공간을 계산합니다.
필요한 디스크 공간(GB) = 총_모음_크기(GB) x 파일_크기_한정자 x 2.85
여기서 파일_크기_한정자는 모음의 평균 파일 크기에 따른 다음 범위의 숫자입니다.
모음에 매우 작은 파일(평균 파일 크기 = 1KB)이 포함되어 있는 경우 1.0
모음에 중간 크기의 파일(평균 파일 크기 = 10KB)이 포함되어 있는 경우 0.12
모음에 큰 파일(평균 파일 크기 = 100KB 이상)이 포함되어 있는 경우 0.05
참고
이 수식은 시작점 예측 값을 설정하는 데만 사용해야 합니다. 실제 결과는 인덱싱하는 문서의 크기와 유형, 그리고 크롤링 작업 중에 인덱싱되는 메타데이터의 양에 따라 크게 달라질 수 있습니다.
이 수식에서는 총_모음_크기(GB) x 파일_크기_한정자를 곱하여 인덱스 파일의 예상 크기를 구합니다. 그런 다음 결과 값에 2.85를 곱하여 크롤링되는 데이터를 인덱스와 병합할 때 마스터 병합에 대한 오버헤드 값을 추가합니다. 이러한 계산의 최종 결과 값이 예상 디스크 공간 요구 사항입니다.
예를 들어 대부분 평균 크기가 10KB인 파일이 포함되어 있으며 크기가 1GB인 모음의 경우 다음 값을 사용하여 인덱스 파일의 예상 크기를 계산합니다.
1GB x 0.12 = 0.12GB
이 계산에 따르면 인덱스 파일의 예상 크기는 120MB입니다.
다음으로 인덱스 파일의 예상 크기에 2.85를 곱합니다.
120MB x 2.85 = 342MB
따라서 인덱스 파일을 포함하고 인덱싱 작업을 수행하는 데 필요한 디스크 공간은 342MB(0.342GB)입니다.
참고
크롤링되는 데이터의 양은 크롤링 중인 콘텐츠에 따라 달라질 수 있습니다. 콘텐츠 원본을 옵션 집합으로 사용하여 크롤링 시 사용할 프로토콜, 크롤링을 시작할 URL, 그리고 크롤링 수준과 시기를 지정할 수 있습니다.
예상 값에 따라 콘텐츠 인덱스가 인덱스 및 쿼리 서버의 사용 가능한 하드 디스크 공간에 맞으면 3단계로 이동하고, 그렇지 않으면 디스크 공간을 추가하거나 1단계를 다시 계산한 후에 3단계로 이동합니다.
콘텐츠 일부를 크롤링해 봅니다.
콘텐츠 인덱스 크기와 크롤링된 파일 수를 계산합니다. 이 정보를 사용하여 1단계에서 수행한 계산의 정확도를 높일 수 있습니다.
나머지 하드 디스크 공간이 적절한 경우에는 콘텐츠를 좀 더 크롤링해 보고, 그렇지 않으면 필요한 만큼 하드 디스크 공간을 추가하거나 크롤링할 콘텐츠의 양을 다시 계산합니다.
3-5단계를 반복하여 콘텐츠를 모두 크롤링합니다.
전체 모음을 크롤링한 후에는 평균 증가 비율을 확인할 수 있도록 각 크롤링에 대해 콘텐츠 인덱스 및 검색 데이터베이스 크기의 레코드를 보관해 두는 것이 좋습니다. 팜에 새 콘텐츠를 추가하면 시간이 지남에 따라 모음은 커지므로, 사용 가능한 하드 디스크 공간을 모니터링하여 인덱싱 작업을 위해 적절한 용량을 유지해야 합니다.
검색 데이터베이스의 디스크 공간 요구 사항
검색 시스템의 크롤러 기록 정보와 메타데이터가 저장되는 검색 데이터베이스에는 보통 인덱스보다 더 많은 디스크 공간이 필요합니다. 특히 메타데이터 양이 매우 많은 SharePoint 사이트를 주로 크롤링하는 경우에는 더욱 그러합니다.
참고
모든 인덱싱된 콘텐츠의 메타데이터와 크롤러 기록은 검색 데이터베이스에 저장됩니다. 따라서 검색 데이터베이스에는 콘텐츠 인덱스보다 더 많은 저장 공간이 필요합니다.
다음 수식을 사용하여 검색 데이터베이스에 필요한 디스크 공간을 계산합니다.
필요한 디스크 공간(GB) = 총_모음_크기(GB) x 파일_크기_한정자 x 4
여기서 파일_크기_한정자는 모음의 평균 파일 크기에 따른 다음 범위의 숫자입니다.
모음에 매우 작은 파일(평균 파일 크기 = 1KB)이 포함되어 있는 경우 1.0
모음에 중간 크기의 파일(평균 파일 크기 = 10KB)이 포함되어 있는 경우 0.12
모음에 큰 파일(평균 파일 크기 = 100KB 이상)이 포함되어 있는 경우 0.05
예를 들어 대부분 평균 크기가 10KB인 파일이 포함되어 있으며 크기가 1GB인 모음의 경우 수식에 다음 값을 넣어 인덱스 파일의 예상 크기를 계산합니다.
1GB x 0.12 = 0.12GB(120MB)
다음으로 인덱스 파일의 예상 크기에 4를 곱합니다.
120MB x 4 = 480MB
따라서 검색 데이터베이스에 필요한 디스크 공간은 480MB(0.48GB)입니다.
인덱스, 쿼리 및 데이터베이스 서버의 사양 결정
Office SharePoint Server 2007에서 검색은 SSP 수준에서 사용 가능한 공유 서비스입니다. Office SharePoint Server 2007 검색 시스템은 인덱스 서버와 쿼리 서버의 두 가지 주 서버 역할로 구성됩니다.
크롤링 및 인덱싱은 리소스를 많이 사용하는 작업입니다. 콘텐츠 크롤링은 시스템이 콘텐츠에 액세스하여 콘텐츠 및 해당 속성의 구문을 분석한 다음 검색 쿼리를 처리할 수 있는 콘텐츠 인덱스를 구축하는 프로세스입니다. 크롤링을 수행하려면 인덱스 서버, 크롤링 작업을 처리하는 하나 이상의 쿼리 서버, 크롤링 중인 콘텐츠 저장소를 호스팅하는 하나 이상의 서버 및 Office SharePoint Server 2007 팜에 서비스를 제공하는 데이터베이스 서버에서 처리 및 메모리 리소스를 사용해야 합니다.
크롤링은 전체 시스템 성능에 영향을 주며, 팜에 포함된 기타 공유 서비스를 비롯해 크롤링 작업을 처리하는 쿼리 서버의 웹 서비스 응답 시간 및 성능에 직접적인 영향을 줍니다. 크롤링 작업 전용 쿼리 서버를 지정하면 다른 팜 서버에 대한 부하를 줄일 수 있습니다.
크롤링 작업을 전용 쿼리 서버에 할당하지 않는 경우에는 크롤링된 콘텐츠의 인덱싱 작업도 전체 시스템 성능에 영향을 줄 수 있습니다. 검색 관련 작업이 팜 작업에서 큰 부분을 차지하는 경우에는 전용 쿼리 서버 배포를 고려해 보십시오. 자세한 내용은 이 문서의 크롤링용 전용 쿼리 서버 섹션을 참조하십시오.
인덱스 서버의 사양 결정
이 섹션의 정보를 사용하여 Office SharePoint Server 2007 팜의 인덱스 서버에 대한 요구 사항을 지정합니다.
인덱스 서버 CPU
인덱스 서버 프로세서 속도는 크롤링 속도와 인스턴스화할 수 있는 크롤링 스레드 수에 영향을 줍니다. 특별히 권장되는 프로세서 수나 유형은 없지만, 인덱스 서버 요구 사항을 결정할 때는 크롤링할 콘텐츠의 양을 고려해야 합니다. 엔터프라이즈 환경에서 인덱스 서버에는 큰 인덱싱 부하를 처리하기 위해 여러 개의 프로세서가 있어야 합니다.
다음 표에서는 인덱스 서버에서 사용 가능한 프로세서 수가 늘어나면 크롤링 속도가 어느 정도 증가하는지를 보여 줍니다.
프로세서 수 | 크롤링 속도 증가 백분율 |
---|---|
1 |
0.00 |
2 |
10.89 |
4 |
19.77 |
8 |
30.77 |
인덱스 서버 메모리
인덱스 서버에서 문서는 크롤러 엔진을 통해 처리하기 위해 버퍼에서 로드됩니다. 문서가 약 1백만 개 포함된 모음이 있는 팜에서 인덱스 서버에는 약 1.5GB의 메모리가 필요합니다. 메모리에서 처리된 문서는 디스크에 기록됩니다. 메모리 용량이 클수록 크롤러는 더 많은 문서를 병렬 처리할 수 있기 때문에 크롤링 속도가 높아집니다.
문서 수가 1백만 개가 넘는 모음을 크롤링하는 인덱스 서버의 권장 메모리는 최소 4GB RAM입니다.
인덱스 서버 디스크 속도
고속 디스크 쓰기를 위해 액세스 시간이 2ms이고 기록 시간이 초당 150MB보다 큰 RAID 10을 지정하는 것이 좋습니다.
단일 인덱스 및 관련성
SharePoint Portal Server 2003에서는 여러 서버에 대해 콘텐츠 인덱스를 분할하여 인덱싱된 콘텐츠의 하위 집합을 만들고 인덱스를 보다 효율적으로 확장할 수 있습니다. Office SharePoint Server 2007에서는 여러 인덱스 서버를 사용한 확장이 가능하지만, 각 인덱스 서버에는 별도의 SSP가 필요하며 별도의 인덱스를 결합할 수는 없습니다.
인덱스 서버 수
SSP를 완전히 격리해야 하거나 시스템을 수평 확장해야 하는 경우에는 팜에 여러 인덱스 서버를 배포할 수 있습니다. 팜의 인덱스 서버 수에 대한 하드 한도는 없지만, 테스트에서는 단일 팜에서 최대 4개의 인덱스 서버를 사용했습니다.
팜에서 사용하는 인덱스 서버 수는 검색 환경 대상 지정 방식에 따라 달라집니다. 검색 환경에서 크롤링 중인 콘텐츠를 단일 결과 집합 내에 포함해야 하는 경우에는 하나의 SSP와 단일 인덱스 서버를 배포해야 합니다. 대부분의 조직에서는 크롤링된 모든 컨텐츠를 사용자가 검색할 수 있도록 설정하므로 여러 검색 범위가 필요하지 않습니다.
검색 환경을 여러 범위에 대해 분할하여 여러 콘텐츠 저장소에 대해 각각 별도의 관련 검색 결과 집합을 제공할 수 있는 경우에는 여러 SSP 및 인덱스 서버를 사용할 수 있습니다. 특정 사용자 그룹만이 검색할 수 있도록 설정해야 하는 중요한 정보가 포함된 단일 부서를 운영하는 기업의 경우 서로 다른 검색 범주를 사용하는 것이 적절합니다.
규모 및 보안 요구 사항에 따라 모든 SSP를 단일 인덱스 서버에 연결할 수도 있고 각 SSP를 별도의 인덱스 서버에 연결할 수도 있습니다.
참고
Office SharePoint Server 2007에서는 여러 SSP에 대해 쿼리를 수행하여 단일 결과 집합을 얻을 수 없습니다.
강력한 하드웨어 구성을 포함하는 단일 인덱스 서버에서는 문서를 최대 5천만 개까지 지원할 수 있습니다. 단일 인덱스를 이 정도 크기로 구축하는 경우에는 인덱스가 팜의 모든 쿼리 서버로 전파되므로 팜에서 인덱스 서버를 둘 이상 사용하지 않는 것이 좋습니다. 두 번째 인덱스 서버를 추가하면 해당 서버의 인덱스도 팜의 모든 쿼리 서버로 전파되므로 쿼리 서버에 대한 부하가 추가됩니다.
SSP를 추가하여 검색 용량을 높이려면 수평 확장도 수행해야 합니다. 즉, 최소한 다른 인덱스 서버, 데이터베이스 서버 및 전용 웹 서버를 추가해야 합니다. 하드웨어에서 현재 단일 SSP 내에 1천만 개의 문서 인덱싱을 지원하는 경우에는 동일한 하드웨어를 사용하여 20개의 SSP를 호스팅하도록 수직 확장할 수 있습니다.
참고
Microsoft Office SharePoint Server 2007 for Search에서는 SSP를 하나만 사용할 수 있습니다.
따라서 SSP당 약 2백만 개의 문서를 인덱싱할 수 있습니다(총 약 4천만 개 문서).
참고
SSP는 항상 하나의 인덱스 서버에만 연결되지만, 인덱스 서버에는 여러 SSP가 포함될 수 있습니다.
크롤링용 전용 쿼리 서버
크롤링 작업을 위한 전용 쿼리 서버를 지정하는 것이 가장 좋습니다.
검색 가능 팜의 모든 쿼리 서버는 기본적으로 크롤링 작업을 수행합니다. 크롤링 작업을 시작하면 인덱스 서버가 쿼리 서버로 요청을 보내며, 그러면 쿼리 서버는 크롤링할 콘텐츠를 가져와 인덱스 서버로 전달합니다. 사용자 부하가 높으면 크롤링 작업으로 인해 사용자 요청에 대한 시스템의 응답 성능이 떨어질 수 있습니다.
팜 성능에 대한 크롤링 작업의 영향을 완화하기 위해 크롤링 전용 쿼리 서버를 구성할 수 있습니다. 쿼리 서버를 크롤링 전용으로 지정하면 모든 크롤링 작업은 전용 쿼리 서버를 통해 처리되며 팜의 다른 모든 쿼리 서버는 사용자 요청을 계속 처리할 수 있습니다. 이 구성은 크롤링 작업을 야간 시간대 내에 모두 처리할 수 없는 환경이나 사용자의 요청 시간이 각각 다른 지리적으로 분산된 환경에서 특히 유용합니다.
크롤링 전용 쿼리 서버를 지정하는 방법에 대한 자세한 내용은 크롤링 전용 프런트 엔드 웹 서버 구성(Office SharePoint Server 2007)을 참조하십시오.
참고
크롤링 전용 쿼리 서버를 지정하면 해당 서버에서 실행하는 다른 서비스에 영향을 줄 수 있습니다. 이러한 방식으로 사용하는 쿼리 서버는 부하 분산할 수 없으며 최종 사용자 요청을 처리할 수 없습니다.
인덱스 서버 성능 최적화
인덱싱 작업을 수행하면 데이터베이스 서버에 대한 부하가 증가하며 팜의 응답 성능이 떨어질 수 있습니다. 또한 인덱싱 작업은 검색 인덱싱 서비스를 실행하는 응용 프로그램 서버의 다른 공유 서비스에도 영향을 줄 수 있습니다. 각 인덱스 서버의 인덱싱 성능 수준을 다음의 세 값 중 하나로 조정할 수 있습니다.
축소
일부 축소
최대
기본 설정은 축소입니다. 이 설정은 SSP가 아닌 특정 인덱스 서버에 대해서만 구성할 수 있습니다.
Office SharePoint Server 검색 서비스는 크롤링된 문서에서 수집한 모든 메타데이터를 데이터베이스 테이블에 쓰기 때문에 크롤링은 데이터베이스 서버의 성능에 영향을 줍니다. 하나 이상의 인덱스 서버에서 특정 속도로 데이터를 생성하여 데이터베이스 서버에 과부하를 유발할 수 있습니다.
직접 테스트를 수행하여 크롤링 속도, 네트워크 대기 시간, 데이터베이스 부하 및 크롤링 중인 콘텐츠 저장소에 대한 부하의 균형을 조정해야 합니다.
다음 표에서는 테스트를 수행한 인덱스 및 데이터베이스 서버의 CPU 사용률과 성능 수준 설정 간의 관계를 보여 줍니다.
성능 수준 설정 | 인덱스 서버 CPU 사용률 | 데이터베이스 서버 CPU 사용률 |
---|---|---|
Reduced |
20 |
20 |
일부 축소 |
24 |
24 |
최대 |
25 |
26 |
다음 목록에 나와 있는 성능 수준 설정 시나리오 및 권장 사항을 고려하십시오.
인덱스 서버 및 데이터베이스 서버를 Office SharePoint Server 검색 서비스에만 사용하는 경우에는 수준을 최대로 설정할 수 있습니다. 그러나 인덱스 서버 작업과 관련된 데이터베이스 서버 CPU 사용률은 최대 30%까지만 높이는 것이 좋습니다. 성능 수준을 최대로 설정한 상태에서 데이터베이스 서버 CPU 사용률을 30%보다 크게 높이는 경우에는 성능 수준을 한 단계 낮게 설정하는 것이 좋습니다.
응용 프로그램 서버 및 데이터베이스 서버를 Office SharePoint Server 검색 서비스와 Excel 계산 서비스 등의 여러 공유 서비스에서 공유하는 경우에는 낮은 성능 수준 설정을 선택하는 것이 좋습니다. 그러나 허용되는 최대 인덱싱 작업을 낮추면 항목이 인덱싱되는 속도도 낮아지므로 오래된 검색 결과가 표시될 수 있습니다. 로컬 서버 성능을 모니터링하여 적절한 인덱스 서버 성능 수준을 결정하십시오.
다음 절차에 따라 인덱스 서버에서 성능 수준 설정을 지정합니다.
인덱스 서버 성능 조정
시작을 클릭하고 모든 프로그램, Microsoft Office Server를 차례로 가리킨 다음 SharePoint 3.0 중앙 관리를 클릭합니다.
중앙 관리 홈 페이지에서 작업을 클릭합니다.
작업 페이지의 토폴로지 및 서비스 섹션에서 서버 제공 서비스를 클릭합니다.
서버 제공 서비스 페이지의 서버 메뉴에서 관리할 인덱스 서버를 선택합니다.
아래 표에서 서비스 시작 섹션에서 Office SharePoint Server 검색을 클릭합니다.
Office SharePoint Server 검색 서비스 설정 구성 페이지의 인덱서 성능 섹션에서 적용할 성능 수준을 선택합니다.
확인을 클릭하여 변경 내용을 저장합니다.
크롤러 영향 규칙
크롤러 영향 규칙은 Office SharePoint Server 검색 서비스에서 지정된 콘텐츠 원본을 사용하여 크롤링을 수행할 때 생성하는 동시 요청 수를 지정하는 팜 수준 검색 구성 설정입니다. 동시 요청 수가 많을수록 크롤링 속도가 빠릅니다. 크롤러 영향 규칙에 지정되어 있는 요청 빈도는 데이터베이스 서버의 부하 및 크롤링 중인 콘텐츠를 호스팅하는 서버의 부하에 직접적인 영향을 줍니다. 지정된 사이트에 대해 요청 빈도를 높이는 경우에는 크롤링 중인 서버를 철저하게 모니터링하여 부하 증가를 허용할 수 있는지 여부를 평가합니다.
기본값은 인덱스 서버의 프로세서 수입니다. 따라서 쿼드 프로세서 컴퓨터의 경우 기본값은 8입니다. 이 값을 조정하여 대상 서버의 로드를 측정함으로써 최적의 동시 요청 수를 결정하는 것이 좋습니다. 사용 가능한 값(1, 2, 4, 8, 16, 32, 64) 중에서 동시 요청 수를 선택할 수 있습니다.
한 번에 문서를 하나씩 요청하고 요청 간에 지정된 시간(초) 동안 기다리는 규칙을 만들 수도 있습니다. 이러한 규칙은 사용자 부하가 일정한 사이트를 크롤링하는 데 유용합니다.
다음 표에서는 동시 요청 수와 인덱스 서버 및 데이터베이스 서버의 CPU 사용률 간 관계를 보여 줍니다.
크롤링 스레드 수 | 인덱스 서버 CPU 사용률 | 데이터베이스 서버 CPU 사용률 |
---|---|---|
4 |
35 |
12 |
8 |
40 |
15 |
12 |
45 |
15 |
16 |
60 |
20 |
다음 절차에 따라 크롤러 영향 규칙을 만들 수 있습니다.
크롤러 영향 규칙 만들기
시작을 클릭하고 모든 프로그램, Microsoft Office Server를 차례로 가리킨 다음 SharePoint 3.0 중앙 관리를 클릭합니다.
중앙 관리 홈 페이지에서 응용 프로그램 관리를 클릭합니다.
응용 프로그램 관리 페이지의 검색 섹션에서 검색 서비스 관리를 클릭합니다.
검색 서비스 관리 페이지의 팜 수준 검색 설정 섹션에서 크롤러 영향 규칙을 클릭합니다.
크롤러 영향 규칙 페이지에서 규칙 추가를 클릭합니다.
크롤러 영향 규칙 추가 페이지의 사이트 섹션에 규칙을 만들 사이트 이름을 입력합니다. 이때 http:// 등의 프로토콜은 포함하지 마십시오.
요청 빈도 섹션에서 크롤러가 해당 사이트의 문서를 요청하는 방법을 지정합니다.
동시에 여러 문서를 요청하려면 한 번에 지정된 문서 수까지 요청하고 요청 사이에 대기 안 함 을 선택하고 동시 요청 목록에서 원하는 값을 선택합니다.
문서를 한 번에 하나씩 요청하려면 한 번에 문서 하나를 요청하고 요청 사이에 지정된 시간 동안 대기를 선택하고 대기 시간(초) 상자에 요청 간에 대기할 시간을 초 단위로 입력합니다.
확인을 클릭하여 규칙을 만듭니다.
쿼리 서버의 사양 결정
이 섹션의 정보를 사용하여 Office SharePoint Server 2007 팜의 쿼리 서버 사양을 결정합니다.
쿼리 서버 메모리
사용 가능한 메모리가 많을수록 Office SharePoint Server 검색 서비스가 하드 디스크에 액세스하여 지정된 쿼리를 수행하는 횟수는 줄어듭니다. 또한 메모리 양이 적절하면 보다 효율적인 캐싱이 가능합니다. 이상적으로는 전체 인덱스를 포함할 수 있는 메모리를 쿼리 서버에 설치해야 합니다.
다음 그림은 쿼리 서버의 인덱스 크기와 쿼리당 사용자 응답 시간 간의 관계를 보여 줍니다.
쿼리 서버 디스크 속도
고속 디스크 쓰기를 위해 RAID 10을 사용하는 것이 좋습니다.
쿼리 서버 수
중복 및 부하 분산 구현을 위해 팜에 여러 쿼리 서버를 배포하는 것이 좋습니다. 사용하는 쿼리 서버 수는 팜의 사용자 수와 사용량이 많은 시간의 예상 부하에 따라 달라집니다. 테스트에서는 팜당 최대 8개의 쿼리 서버를 사용했습니다.
다음 그림은 쿼리 처리량, 검색 데이터베이스에 대한 데이터베이스 서버 CPU 사용률, 그리고 쿼리 서버를 팜에 추가하는 경우의 쿼리 서버 CPU 사용률을 보여 줍니다. 이 데이터가 생성된 테스트에서 사용된 데이터베이스 서버는 콘텐츠 데이터베이스와 서비스 데이터베이스 간에 공유되었습니다.
원격 서버 대기 시간
서버 대기 시간은 크롤링 성능에 영향을 주는 주요 요인 중 하나입니다. 전체 크롤링 성능에 대해 팜 서버 간의 성능의 균형을 조정해야 최상의 크롤링 성능에 도달할 수 있습니다. 예를 들어 크롤링 중인 데이터베이스 서버의 응답 속도가 충분히 빠르지 않은 경우 성능이 뛰어난 인덱스 서버는 해당 용량의 25%에서 작동할 수 있습니다. 이 경우 데이터베이스 서버를 수직 확장하면 전체 팜의 크롤링 속도가 높아집니다.
직접 테스트를 수행하여 환경에 포함된 서버의 응답 성능을 평가해야 합니다. 크롤링 성능이 좋지 않으면 대상 팜을 처리하는 데이터베이스 서버에 병목 현상이 발생하는 경우가 많습니다. 크롤링 성능을 높이려면 다음을 수행할 수 있습니다.
프로세서를 추가 또는 업그레이드하고, 메모리를 추가하고, 찾기 및 쓰기 속도가 빠른 하드 디스크로 업그레이드하여 데이터베이스 서버 하드웨어를 수직 확장합니다.
팜의 쿼리 서버 메모리를 늘립니다.
사용량이 많지 않은 시간에 크롤링을 수행하여 크롤링되는 데이터베이스 서버가 주간에는 사용자 트래픽을 처리하고 사용량이 많지 않은 시간 동안 크롤링에 응답하도록 합니다.
데이터베이스 서버의 사양 결정
Office SharePoint Server 2007 검색 시스템에서는 콘텐츠와 연결된 메타데이터와 텍스트 데이터를 모두 크롤링합니다. Office SharePoint Portal Server 2003에서 인덱싱 시스템이 수집하는 모든 메타데이터는 JET 데이터베이스 속성 저장소에 저장되었습니다. Office SharePoint Server 2007에서는 반전된 전체 텍스트 인덱스가 인덱스 서버에 저장되고, 메타데이터는 검색 데이터베이스에 저장됩니다. 인덱스 서버는 데이터베이스에 메타데이터를 쓰고, 쿼리 서버는 해당 데이터를 읽어 사용자가 수행한 속성 기반 쿼리를 처리합니다.
이 섹션의 정보를 사용하여 Office SharePoint Server 2007 팜의 데이터베이스 서버 사양을 결정합니다.
데이터베이스 처리량
팜의 모든 쿼리 서버와 인덱스 서버는 데이터베이스 메타데이터 저장소를 공유합니다. 인덱스 서버는 모든 메타데이터를 쓰고, 쿼리 서버는 이 데이터를 읽어 검색 요청을 처리합니다. 쿼리 처리량은 메타데이터 저장소 응답 속도에 따라 크게 달라집니다.
팜에서 쿼리 서버 수가 늘어나면 데이터베이스 서버에 대한 부하도 늘어나 전체 쿼리 처리량에 영향을 줍니다. 따라서 팜에 인덱스 서버나 쿼리 서버를 추가할 때는 데이터베이스 서버를 철저하게 모니터링하여 데이터베이스 성능이 적절하게 유지되는지 확인해야 합니다.
데이터베이스 서버 하드 디스크 분포
Office SharePoint Server 검색 서비스는 크롤링 중에 검색 데이터베이스에 많은 양의 데이터를 쓰기 때문에 인덱스에 항목이 5백만 개 이상 포함되어 있는 경우에는 성능을 높이기 위해 SharedServices_Search_Db, SharedServices_Db 및 TempDb 데이터베이스에 대해 별도의 스핀들을 사용하는 것이 좋습니다.
데이터베이스 서버 디스크 속도
고속 디스크 쓰기를 위해 RAID 10을 사용하는 것이 좋습니다.
이 문서의 다운로드
이 항목은 다운로드 가능한 다음 문서에도 포함되어 있어 더 쉽게 읽고 인쇄할 수 있습니다.
사용 가능한 문서의 전체 목록은 다운로드 가능한 Office SharePoint Server 2007 관련 콘텐츠 (영문)를 참조하십시오.