Накануне компания Xerox
FactSpotter анализирует содержимое документа, а не просто выдает список результатов в соответствии с заданными ключевыми словами. Например, определяет, что словосочетания "Билл Гейтс" и "основатель Microsoft" внутри одного и того же документа, вероятнее всего, указывают на одного человека. Таким образом, предоставляется лишь та информации, которая соответствует вопросу по смыслу. Документы или страницы могут быть представлены в результатах поиска лишь частично, система автоматически отбросит малозначимые части файлов.
"Во всех языках есть масса слов, которые в зависимости от контекста обозначают совсем разные вещи. Современные поисковые системы не способны понять контекстные различия. Хитрость заключается в комбинации слов", - говорит Фредерик Сегонд, работник исследовательской лаборатории Xerox в Гренобле (Франция).
По словам разработчиков, новый алгоритм работает примерно так же, как и человеческий мозг - FactSpotter один из немногих алгоритмов, способный заниматься семантическим парсингом запросов. В дальнейшем системе можно будет просто задавать вопросы и в ответ получать ответы, сконструированные на основе анализа хранимых в базе документов или страниц в интернете.
Разработка системы заняла более 4 лет. Коммерческое использование FactSpotter начнется в 2008 году, когда не его базе будут созданы несколько крупных юридических систем с десятками тысяч документов в базе.