1. Вступление
2. История роботов Яндекса
3. Роботы Яндекса
4. Процесс индексации документа
5. Возможные препятствия при индексации документа
6. Заключение
1. Вступление
Яндекс сегодня является самой популярной поисковой системой русскоязычного Интернета, которой каждый день пользуется более миллиона человек. Такая популярность объясняется тем, что база Яндекса содержит огромное количество проиндексированных страниц Интернета, содержащих самую разнообразную и порой уникальную информацию. Вкупе с алгоритмом поиска это приводит к высокой релевантности документов, найденных по запросу пользователя и, в конечном счете, к полному удовлетворению информационной потребности пользователя.
На 17.07.06 Яндексом было проиндексировано 1 058 914 756 веб-страниц. Получение информации с сайтов Интернета и отправка ее в базу поисковой системы – задача специального робота-индексатора. Во многом благодаря высокой скорости его работы на сегодняшний день Яндекс имеет такую обширную базу документов для поиска.
2. История роботов Яндекса
Яндекс появился в 1996 году. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site – программа, производящая поиск на сайте, Яndex.CD – программа поиска документов на сd-диске.
Сама же поисковая система возникла осенью 1997 года. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы Интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.
Поэтому в 1999 году был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа – в URL, в заголовках, в ссылках и т.п.
Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.
3. Роботы Яндекса
Робот каждой поисковой системы имеет свое имя. Например, у Рамблера – «StackRambler/2.0», у Гугла – «Googlebot/2.1». Яндекс в своем составе имеет несколько специализированных роботов, выполняющих строго определенные задачи. Вот каких роботов Яндекса можно встретить:
Кроме того у Яндекса есть группа роботов, которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.
В отличие от роботов первой группы, эти роботы не забирают содержимое странички, а фиксируют лишь ответ сервера. Поэтому они делают несколько другой запрос к серверу. Например, посещение робота Dyatel может быть зафиксировано в логах сервера в виде строки следующего содержания:
213.180.193.53 - - [02/Jun/2006:02:22:00 +0400] "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)".
Как видно, используется директива Head, запрашивающая только лишь заголовки сервера. В данном случае сайт доступен, так как был возвращен статусный код 200 ОК.
Кроме перечисленных роботов, у Яндекса есть так называемый «быстрого робота» – частота индексации им документа больше в несколько раз, чем у обычного робота-индексатора. По заявлению главного редактора компании "Яндекс" Елены Колмановской: «Быстрый робот нужен для индексации актуальных документов, наиболее востребованных пользователями».
Узнать, посещал ли сайт быстрый робот, можно только одним путем – в результатах поиска рядом с адресом страницы сайта должна появиться небольшая приписка, обозначающая, сколько часов назад страницу посетил быстрый робот. Например, «5 часов назад».
4. Процесс индексации документа
Процесс индексации документа роботами поисковых систем как правило начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница «Добавить URL». Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. А вот в Рамблере, например, требуется указывать еще и название сайта, короткое описание регистрируемого сайта и контактное лицо.
Если сайт добавляется впервые, то Яндекс выдаст сообщение:
«Адрес http://example.com/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска»
Если сайт уже посещался роботом-индексатором, то появится сообщение:Документ http://example.com/ уже проиндексирован и доступен для поиска.
Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц).
После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является требование русскоязычности ресурса. Поэтому, как пример, может возникнуть такая ситуация:
Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст.
Если же все хорошо, то в логах сайта можно будет обнаружить строку:
213.180.206.223 - - [18/Jul/2006:10:22:08 +0400] "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (compatible; Win16; D)"
213.180.206.223 - - [18/Jul/2006:10:22:08 +0400] "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (compatible; Win16; D)"
После добавления сайта на странице «Добавить URL» менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.
5. Возможные препятствия при индексации документа
Есть несколько причин, препятствующих правильной индексации сайта в Яндексе.
6. Заключение
Следует отметить, что Яндекс индексирует не только документы html. Кроме них доступными для индексации являются документы следующих типов: PDF (файл Adobe Acrobat), DOC (MS Word), RTF (Reach text format). Также Яндекс индексирует сайты, созданные на основе Flash-технологий. А вот Рамблер индексирует только файлы html, htm, shtml, а динамические страницы и flash сайты индексирует плохо.
Просмотреть, в каком виде хранится web-страничка в базе Яндекса, можно следующим образом.
Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:
Каждому, кто ведет в Интернете серьезный проект, необходимо понимать основные принципы работы роботов-индексаторов поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.
Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?
Знание основным моментов процесса индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.