Применение технологий корпоративного поиска – FAST Search Server for SharePoint
Cегодняшний пост будет небольшим отступлением от правил. Он будет объемным и обзорным; предоставил его Роман Щемелёв (он отвечает за продвижение SharePoint в России). Цель - собрать в одном месте всю информацию о новом для российского рынка продукте FAST Search Server for SharePoint.
Применение технологий корпоративного поиска – FAST Search Server for SharePoint
Благодаря повсеместному распространению Интернет, пользователи научились искать. Поэтому, приходя на работу и сталкиваясь с задачами поиска необходимой информации, они ожидают получить в свое распоряжение не 10 поисковых интерфейсов в различных информационных системах (с необходимостью заполнять карточки или, того хуже, строить специализированные запросы), а хорошо знакомую строку поиска, аналогичную Yandex, Google или Bing, позволяющую получить доступ ко всей нужной информации при помощи всего нескольких ключевых слов.
Сегодняшний пост как раз и будет посвящен тому, как и для чего вы можете использовать технологии корпоративного поиска, а именно – FAST Search Server for SharePoint. Многие наши заказчики, успешно использующие корпоративный портал на базе SharePoint, отмечают, что именно улучшение поисковых технологий является одной из приоритетных задач по развитию портала. Давайте разберемся, почему.
По оценкам IDC, сотрудники в среднем тратят 9,5 часов в неделю на поиск информации. Для некоторых задач, связанных с исследованиями и разработкой, поиском решения для проблемы с продуктом, формированием концепции для новой маркетинговой кампании и т.п., поиск может занимать до 50% рабочего времени. Невозможность найти и использовать нужную информацию приводит к тому, что сотрудники создают её сами – заново изобретая велосипед. Результаты исследований свидетельствуют, что офисные работники непреднамеренно тратят больше времени на воссоздание существующих знаний, чем на создание новых. Поэтому повышение скорости, релевантности и «находимости» нужной информации является важнейшим способом повышения производительности труда офисных сотрудников.
На сегодняшний день корпоративный поиск является единственным инструментом для доступа к любой информации предприятия (структурированной в СУБД и неструктурированной, например, документам). С этой точки зрения он должен применяться в подавляющем большинстве предприятий как стандартный элемент ИТ-инфраструктуры.
Для решения таких задач и предназначен продукт FAST Search Server 2010 for SharePoint. По своей сути FAST for SharePoint является надстройкой над SharePoint, но представляет собой отдельный поисковый “движок” и набор готовых веб-частей. С точки зрения пользователя FAST for SharePoint – невидимый продукт. Для пользователя лишь появится больше функционала в новых веб-частях поиска (в виде Центра Поиска FAST) на привычном портале SharePoint.
Ключевые особенности FAST
Продукт FAST обладает рядом серьезных преимуществам, ставящим эту технологию в разряд лидеров по оценке Gartner. Рассмотрим эти преимущества, расширяющие «обычные» возможности поиска в SharePoint, подробнее.
1. Доступ к информации. FAST позволяет получить доступ к информации вне зависимости от того, где и в каком формате она хранится. Вы можете индексировать документы, расположенные на портале SharePoint, файловых серверах, в общих папках Exchange, веб-сайтах, Lotus Notes и EMC Documentum, а также практически любых других источниках контента, создавая собственные коннекторы при помощи служб Business Connectivity Services. При этом FAST учитывает уровень доступа к документам во внешних системах – на странице результатов поиска пользователь увидит только те элементы, к которым у него есть доступ. FAST способен индексировать более 400 различных типов файлов (включая все форматы Microsoft Office, Adobe PDF, HTML, TIFF и пр.) на 85 языках. Возможности федеративного поиска позволяют представить результаты, полученные другой поисковой системой (например, Bing) по тому же самому поисковому запросу.
2. Обработка контента. Одной из уникальных особенностей FAST является механизм обработки и анализа индексируемого контента (т.н. Content Pipeline). В процессе обработки контент как бы проходит несколько стадий, каждая из которых является настраиваемой и расширяемой. Вот некоторые из таких стадий: автоматическое выделение метаданных из индексируемого текста (вы можете выделить из текста названия ваших продуктов, клиентов, партнеров и любые другие свойства на основе сопоставления со словарями – как встроенными в FAST, так и своими собственными), нормализация даты и времени, поиск и устранение дубликатов, лингвистическая обработка текста (например, выделение корней слов и нормализация символов), поиск похожих документов и пр. Все эти возможности предусмотрены для 45 языков, включая русский. Вы можете добавлять свои собственные стадии в этот процесс – например, обратившись к сервисам ABBYY для расширенного лингвистического анализа.
3. Обработка поисковых запросов. Одной из важных задач поисковой системы является возможность понять, чего же хочет пользователь. При вводе нескольких символов запроса система автоматически выдаст подсказку на основе ранее введенных запросов. FAST позволяет осуществлять поиск с учетом синонимов, написания запроса на различных языках, а также написания слов с орфографическими ошибками и на основе фонетического споставления. FAST поддерживает использование специализированных символов в запросе (например, «*» или «?»), а также логических операторов («AND», «OR» и т.п.). Наконец, FAST может анализировать введенную фразу, разбивать её на смысловые блоки и автоматически применять фильтры к результатам поиска: зайдите на сайт https://www.globrix.com (крупнейший онлайн ресурс Великобритании по продаже и аренде недвижимости, использует FAST в качестве поискового движка) и введите запрос типа «i want to buy 3 bed 2 bathroom house with garden in London», нажмите кнопку «Search», и вы увидите, что к результатам поиска автоматически применены фильтры, соответствующие вашему запросу.
4. Настройка релевантности поиска. Важнейшим свойством любой поисковой технологии является релевантность найденных результатов, т.е. максимальное соответствие результатов поиска запросу пользователя. Для повышения релевантности FAST предлагает интегрированный на уровне платформы подход, сочетающий в себе:
a. 4 уровня настройки релевантности (алгоритмизация—разработчик, настройка бизнес правил—бизнес-менеджер, настройка профилей релевантности—администратор, учет поведения и реакции пользователя - пользователь)
b. Персонализацию представления результатов пользователю в зависимости от его роли (профиля релевантности) и прав на доступ к контенту
c. Более 7 настраиваемых параметров, определяющих ранг документа в результатах поиска (включая новизну, место расположения документа, количество ранее совершенных переходов на этот документ, контекст использования, метаданные и др.)
5. Работа с результатами поиска. FAST не просто обеспечивает индексацию контента и представление результатов поиска, но и позволяет пользователю эффективно работать с этим контентом прямо на странице результатов поиска. Для этого предусмотрены возможности сортировки по любому из свойств, уточнения (фильтрация) результатов поиска на основе автоматически выделенных метаданных, эскизы документов, предварительный просмотр презентаций PowerPoint прямо на странице результатов поиска, элементы визуальной навигации (слайдеры, диаграммы, контекстные баннеры), возможности связаться с найденным экспертом при помощи Microsoft Lync / Communicator и многое другое.
6. Производительность и масштабируемость. FAST Search Server 2010 for SharePoint основан на модульной архитектуре, поддерживающей масштабирование отдельных служб для достижения желаемого уровня производительности с учетом следующих аспектов.
a. Количество индексируемого контента. Разбиение на несколько индексов позволяет выполнять индексацию миллиарда документов в пределах одной фермы.
b. Нагрузка запросов. Компоненты сопоставления запросов поддерживают масштабирование с помощью матрицы, основанной на строках/столбцах. Это позволяет обеспечить время ответа менее 1 секунды.
c. Задержка индексирования. FAST Search Server 2010 for SharePoint позволяет оптимизировать задержку с момента изменения документа в исходном источнике данных до того момента, когда он становится доступным для поиска.
Сценарии применения FAST
Мы выделяем 2 основных направления того, как можно использовать технологии внутрикорпоративного поиска.
1. Единая система поиска для сотрудников. В компаниях, как правило, используются несколько систем и способов хранения и управления документами. Зачастую документы хранятся на плохо приспособленных для этих задач файловых папках или на персональных компьютерах. В крупных компаниях в различных филиалах могут использоваться несколько систем управления документами. В такой ситуации задача систематизировать уже имеющуюся информацию, выработать регламенты и обязательные атрибуты для создания и хранения документов, а также внедрить все эти правила и поддерживать их выполнение представляется очень трудоемкой и трудновыполнимой. Как правило, за нее даже не берутся или быстро прекращают попытки. FAST в этом случает позволяет объединить информацию в разрозненных источниках данных и, используя возможности обработки контента, систематизировать и структурировать её по интересующим атрибутам (типы документов, контрагенты, города, авторы, предприятия и прочее), очистить от дубликатов и предоставить эффективные способы работы с найденной информации на портале SharePoint. Полученная система может являться аналогом базы знаний, позволяющий найти всю имеющуюся в компании информацию.
2. Поисковые приложения. В любой компании есть подразделения или группы пользователей с особыми потребностями в области поиска информации – например, в исследованиях и разработке, аналитике, маркетинге и PR и пр. FAST за счет гибкости настройки позволяет создавать приложения, использующие алгоритмы поиска для специализированных задач. Среди примеров таких поисковых приложений:
a. Система мониторинга онлайн ресурсов для сбора информации о тенденциях рынка, предложениях конкурентов, уровне цен, отраслевых событиях, упоминания компании в прессе и пр. FAST автоматически обходит и индексирует выбранные веб-ресурсы, классифицирует, группирует и очищает их и предоставляет пользователю удобный интерфейс для работы с результатами такого анализа.
b. Формирование базы знаний для исследований и разработок. FAST позволяет проиндексировать множество научных баз данных, базы данных патентов, и использовать собственные словари терминов для категоризации результатов поиска. Кроме того, функции поиска экспертов позволяют найти и связаться с людьми, обладающими уникальной экспертизой в определенной предметной области.
c. Система поиска документов по требованию судебных органов. В этом случае FAST обрабатывает специальные юридически значимые документы, объединяет различные документы из различных источников в единое целое и позволяет найти и предоставить необходимые данные с минимальными затратами времени.
d. Система поиска информации по клиентам для отдела продаж. FAST собирает информацию о клиентах из различных источников – баз данных клиентов и продуктов, ERP и CRM систем, электронной почты, коммерческих предложений на файловых серверах и пр., производит дедупликацию, трансформация данных для нормализации представления (имена, личные ID…), новостей из открытых источников, что позволяет менеджерам по продажам в любой момент времени иметь точные и полные данные по истории взаимодействия с клиентом и формировать более точные предложения в сжатые сроки.
e. И многие другие (придумайте сами J)
Оценка эффективности внедрения
Попытаемся оценить, каких финансовых результатов вы сможете достичь от внедрения FAST Search Server 2010 for SharePoint. Исходные данные следующие:
f. В компании 1000 пользователей, которые уже использую портал SharePoint (имеются лицензии на SharePoint Server и SharePoint Standard CAL)
g. Еженедельные потери времени на поиск одним сотрудником до внедрения FAST = 9,5 часов (оценка IDC, можете заменить на собственную)
h. Внедрение FAST снижает эти потери на 10%
i. Учитываем полное TCO: стоимость ПО, оборудования, амортизации, услуг по внедрению и рабочее время сотрудников ИТ (для внедрения)
j. Горизонт расчета 3 года, для амортизации оборудования = 5 лет (линейно)
k. Стоимость денег во времени (ставка дисконтирования) – 15%
l. Полная стоимость человеко-часа сотрудника компании с учетом накладных расходов – 600 рублей
m. Полная стоимость человеко-часа сотрудника департамента ИТ – 720 руб.
Тогда для этих вводных с учетом 50% фактора риска, получим следующие результаты:
a. NPV (3 года) = $802 756
b. ROI (3 года) = 396%
c. Период окупаемости ~10 месяцев
Для компании из этого примера это означает, что инвестиция в технологию корпоративного поиска в размере $7,54 доллара в месяц на одного сотрудника через 3 года даст отдачу $22.3 и вернется в течение первого года. Общие результаты расчета приведены в ROI-калькуляторе для технологий корпоративного поиска. Поиграйтесь с цифрами, подставляя более реальные на ваш взгляд исходные данные.
Подробнее о расчете ROI для этого сценария – в блоге Михаила Козлова
Узнайте больше! Дополнительные материалы
Ниже я приводу подборку материалов для более подробного изучения возможностей FAST (главным образом, на русском языке):
Руководство по оценке FAST Search Server 2010 for SharePoint
Обзорная презентация о том, зачем нужен корпоративный поиск
Презентация о сценариях использования корпоративного поиска и оценке их эффективности
ROI-калькулятор для оценки эффективности внедрения FAST
Обзорная презентация продукта FAST ESP
Расширенная презентация продукта FAST Search Server for SharePoint
Техническая презентация возможностей FAST Search Server for SharePoint
Технический доклад с Платформы 2011 о FAST Search Server for SharePoint