Язык поисковых запросов

1. Введение
2. Процесс поиска
3. Проблемы при интерпретации поискового запроса
4. Применение возможностей «расширенного поиска» и языка запросов при продвижении сайта
5. Интерфейс поисковых запросов, его взаимодействие с базой поисковой системы
6. Заключение

1. Введение

Основными задачами любой поисковой системы Интернета являются поиск, индексирование, хранение и выдача требуемой пользователю информации. Решение каждой задачи сопровождается определенными трудностями. С проблемами, возникающими в процессе поиска и индексирования информации, современные поисковые системы интернета справляются довольно-таки хорошо. Например, у Яндекса на сегодняшний день больше шести типов индексирующих роботов, регулярно собирающих информацию с более чем миллиарда интернет-страниц для более релевантной выдачи под поисковые запросы; высокая частота индексации позволяет поддерживать на должном уровне актуальность проиндексированных документов. Процесс индексирования, основанный на принципе инвертированных файлов и использующий к тому же алгоритмы сжатия, позволяет хранить собранную информацию в индексной базе, которая с успехом помещается на небольшом количестве серверов.

Проблема поиска нужной пользователю информации на данный момент пока решена не полностью. И дело даже не в низкой культуре пользовательского языка запросов. В первую очередь, несовершенен алгоритм оценки релевантности найденных документов, также не до конца разработанным является поисковый интерфейс. (Под «поисковым интерфейсом» будем подразумевать некоторую программную оболочку, которая преобразует запрос пользователя в запрос на выборку данных непосредственно из индексной базы поисковой системы).

В данном мастер-классе мы попробуем проанализировать «поисковый интерфейс» информационной системы Яндекс, а точнее, язык запросов, который составляет основу интерфейса. А также поговорим про поисковые запросы Яндекса и релевантность его выдачи.

2. Процесс поиска

Прежде чем переходить к непосредственному описанию операторов языка поисковых запросов, опишем кратко механизм поиска информации. Как на самом деле устроен поиск в Яндексе, никто, кроме самих работников Яндекса, в точности не знает, однако в общих чертах его можно представить так:

Сначала в течение нескольких дней индексирующие роботы пополняют информационную базу системы, передавая текстовое содержимое интернет-страничек, а также вспомогательную информацию об этом содержимом.

На втором этапе на основе данных, собранных роботом, и данных о ссылающихся на сайт происходит расчет релевантности каждого документа по каждому встречающемуся в нем слову.

На третьем этапе – непосредственно поиске – интерфейс Яндекса преобразует введенные пользователем слова в запрос к базе данных, но не той, которая была сформирована при индексировании, а другой - образованной в результате расчета релевантности! Ее еще называют «кэшем». Термин «апдейт в выдаче», столь распространенный в среде оптимизаторов, как раз и обозначает пересчет данных в кэше – как следствие, изменяется и выдача поисковой системы по запросу.

Если запрос состоит из нескольких слов, то он в кэше поисковой системы не хранится. В этом случае по каждому из слов запроса находится определенное количество релевантных документов (порядка нескольких тысяч), затем с помощью операторов математической логики (например, логическое «И», «ИЛИ») происходит выбор самых релевантных документов по всем словам запроса.

Это упрощенное описание алгоритма поиска, на самом деле все сложнее: существует большое количество различных дополнительных фильтров, позволяющих уменьшить количество расчетов и повысить скорость. Например, для уменьшения количества терминов, по которым будет производиться расчет релевантности определенного документа, уже в процессе индексировании документа может составляться его некий «поисковый образ» – набор слов, описывающих содержание. Далее расчет будет производиться только по этим «характеризующим» терминам.

3. Проблемы при интерпретации поискового запроса

При поиске информации уже на этапе анализа запроса пользователя возникают некоторые проблемы. Стоит заметить, они касаются не только одного поиска, но частично и процесса индексирования тоже.

Морфология, словоформы

В индексной базе все слова, знакомые информационной системе, хранятся в какой-либо стандартной форме. Например, существительные – в именительном падеже, единственном числе, глаголы – в инфинитиве. Также существует дополнительная таблица, которая содержит все формы всех слов. На этапе разбора поискового запроса на основе этой дополнительной таблицы слово преобразовывается в свой стандартный вид, чтобы находился эквивалент в индексной базе. Правильная трактовка морфологии – задача интерфейса поиска.

Яндекс хорошо различает морфологию и словоформы. Например, если ввести запрос «шел», Яндекс найдет документы, содержащие слово «идет», «идти» и т.п.

Аналогично, если ввести запрос «идти», найдут документы со словами «шел», «шла», однако сайты в выдаче будут совершенно другие, т.е. хоть Яндекс и разбирает морфологию, при ранжировании он отдает приоритет точному соответствию.

Этот факт надо учитывать при продвижении сайта и стараться затачивать страничку под тот запрос, который Вы действительно считаете нужным.

В подтверждении слов такой пример. По запросу «шел» для анализа берем первый сайт. Щелкаем по ссылке «найденные слова» и копируем содержимое строки браузера. Нас будут интересовать только последние несколько слов. Мы видим следующее:

    шел::3366&dsn=111&d=4775389

Видно, что слово «шел» имеет идентификатор под №3366. Если проделать такие же манипуляции, но с сайтом, найденным по запросу «иду», мы увидим:

    иду::3366&dsn=118&d=589397

Здесь слово «иду» имеет тоже идентификатор №3366.
Кстати, такая поисковая система как Google, только с недавних пор начала учитывать морфологию русского языка, правда, на данный момент делает это гораздо хуже Яндекса. Это сказывается на релевантности найденных документов (в сторону ее ухудшения конечно же).

Омонимия

Омонимия – явление в русском языке, когда слова одинаково звучат, но имеют разный смысл. Яндекс, конечно же, не знает, что хочет от него пользователь. Поэтому если Вы захотели, например, найти описания и фотографии замков и ввели однословный запрос «зáмки», то на самом деле в выдаче Вы получите в основном сайты, посвященные «замкáм», просто потому, что эти сайты так ли иначе оптимизируются под поисковые системы и оказываются релевантнее. В данном случае для того, чтобы найти нужную информацию, надо было просто ввести запрос «фотографии замков».

4. Применение возможностей «расширенного поиска» и языка запросов при продвижении сайта


Яндекс имеет достаточно широкие возможности для поиска информации. И оптимизаторам надо этим пользоваться, чтобы более качественно продвигать свои сайты.

Просмотр проиндексированных страниц

Надо знать, какие страницы Вашего сайта проиндексированы Яндексом, чтобы вовремя принять необходимые меры для устранения причин неиндексации. Для этого надо воспользоваться «расширенным поиском» и в строке «находятся на сайте» ввести URL вашего сайта. Например,

Яндекс выдаст список страниц сайта, которые он проиндексировал.

Количество ссылок на сайт

При ранжировании сайта используется не только текстовое, но еще и ссылочное ранжирование. Проще говоря, позиции сайта определяются также и количеством ссылок на него. Чтобы это узнать, надо ввести в поле «содержат ссылку» URL сайта, для которого хочется узнать обратные ссылки. Саму строку запроса при этом надо оставить пустой. Например,

Количество ссылок на запрос

Продвижение сайта заключается в основном в простановке ссылок на страницу по определенным запросам. Однако какое количество ссылок необходимо поставить на страницу, чтобы быть на первом месте по определенному запросу, в точности сложно сказать. Примерное же количество найти можно. Воспользуемся расширенным поиском и введем в поле «на сайт» адрес сайта (www.google.ru), а в строку запроса – требуемое слово (поисковая система):

Таким образом, мы найдем, сколько сайтов ссылаются на www.google.ru по запросу «поисковая система». Причем можно даже посмотреть в точности, какие сайты ссылаются.

Расстояние между словами для запроса из нескольких слов

При оптимизации текста страницы под определенный запрос кроме определенного форматирования ключевых слов с помощью тегов

…, и использования title и мета-тегов надо еще и выдерживать определенную плотность ключевых слов. Однако, исходя из контекста, порой бывает сложно каждый раз писать в тексте ключевую фразу в неизменном виде. Однако иногда это и необязательно делать. Почему? Воспользуемся Яндексом. Введем требуемый запрос «работа в США» и нажмем на ссылку «найденные слова». В строке браузера сформируется запрос вида:
    работа в США&reqtext=(работа::1057 &/(-1 3) в::0 &США::4876)//6&dsn=392&d=1132609

Цифры в скобках означают, что слово «работа» может встречаться в найденных документах, как до слова «США» так и после слова «США» на расстоянии в 3 слова. И для Яндекса это будет тоже самое!

5. Интерфейс поисковых запросов, его взаимодействие с базой поисковой системы

Знание языка поисковых запросов может помочь автоматизировать некоторые моменты поиска в Яндексе.

  1. Просмотр проиндексированных страниц
    Для просмотра проиндексированных запросов надо задать запрос вида:

    Например,

  2. Количество ссылок на сайт
    При поиске ссылающихся на сайт надо задать запрос вида:

    Например,

  3. Количество ссылок на запрос
    Для этого надо в строке поиска следует ввести запрос следующего вида:
      anchor#link="www.site.ru/page.htm"[слова запроса]

    Например, запрос
      anchor#link="www.google.ru"[поисковая система]

    позволяет увидеть, какое количество ссылок проиндексировано Яндексом на главную страницу сайта www.google.ru со словами «поисковая система».

    6. Заключение

    Знание языка поисковых запросов позволяет не только вести эффективный поиск документов, но и помогает людям, занимающимся продвижением сайта. С помощью некоторых возможностей языка можно проводить анализ своих сайтов и сайтов конкурентов.

    Знание самих операторов языка позволяет автоматизировать некоторые функции. Например, можно написать скрипт, который для списка сайтов будет вычислять количество входящих ссылок или забирать все обратные ссылки на сайт конкурента.

(Голосов: 5, Рейтинг: 5)