Фактор “свежести” информации в Google

Наряду с уже патентованными терминами, как PageRank и TrustRank, возможно появление нового, а именно “FreshRank” (пока неофициального), фактора, определяющий «свежесть» документов. В патентной заявке от Моники Хензингер в адрес Патентного ведомства США утверждается, что одной из проблем, связанных с определением «свежести» документа, индексируемого в поисковой системе, являются данные о «дате последнего изменения», которые не всегда верны. Веб-мастера могут вносить изменения в эти данные. Это не противоречит принципам Google, т.к. поисковая система, главным образом, следит за изменениями контента. Как Google определяет «свежесть» документа, пока остается секретом. Только по многим оценкам, работу по определению «свежести» контента сайтов он выполняет некачественно, т.к. многие из них не соответствуют релевантности запроса.

В данной ситуации появляется вопрос: как фактор свежести влияет на определение релевантности? Некоторые считают, что для Google это не имеет значения, особенно, если документ имеет много внешних ссылок. Моника Хензингер считает нужным ввести более четкое определение «свежести» документа, т.к. не все поисковые системы используют данные о «дате последнего изменения» документа, т.о. необходим более надежный источник для определения апдейта контента.

К сожалению, по причине штрафных санкций за дублирование контента, стало трудно определить данные о «свежести» документа. В частности, фильтр, используемый Google для определения дубликатов, не принимает во внимание его происхождение. Это кажется, по крайней мере, странным, что наряду с постоянными технологическими инновациями Google не предпринимает шагов по усовершенствованию способов по определению «свежести» документа. Отметим, что у Yahoo и MSN такой проблемы нет, так в чем же дело с Google?

Google: средства для удаления вредоносных программ (Removal Tool) и дублированного контента

Еще одним препятствием на пути фактора свежести стал Removal Tool, который многие считают «панацеей», лекарством от всех болезней, таких, как дублированные контенты или временные редиректы.

Если Вам когда-либо приходилось использовать Removal Tool, то Вы могли заметить, что, в итоге, количество страниц на сайте остается без изменений, однако некоторые страницы могут просто не открываться. Почему это происходит? Дело в том, что Removal Tool не удалил URL-страницы, а просто отфильтровал сами страницы. Поэтому, несмотря на то, что эти страницы уже удалены, они продолжают числиться в базе данных. Только через 3-6 месяцев Google, например, удалит URL-ы этих страниц из индекса.

Далее внимание будет уделено страницам, выделенным таким тэгом, как < meta name="robots" content="noindex,follow">. После всех этапов естественного обхода, роботы перестают индексировать такие страницы по причине наличия мета-тэга robots, но PageRank данных страниц остается неизменным, к тому же они сохраняют возможность передавать его другим страницам, тогда как у страниц, по отношению к которым был применен Removal Tool, нет никакого PageRank.

Следует учесть, что ссылки с удаленных страниц рассматриваются как «мертвые» ссылки. Например, существуют страницы 1, 2, 3, ссылающиеся друг на друга: страница 1-> страница 2-> страница 3-> ... После удаления страницы 2 при помощи Removal Tool, поисковые роботы не будут обходить страницу 3 и все последующие страницы.

Google неумело работает с контентом

После всего вышесказанного может возникнуть вопрос: какое отношение имеют удаленные страницы к фактору «свежести»? Отфильтрованные страницы после периода ожидания появляются вновь, но уже с устаревшим и неактуальным контентом. В этом и заключается основная проблема: они представляют собой «мертвые» страницы с «мертвой» навигацией. Несмотря на это, они продолжают фигурировать в индексе поисковой системы и зачастую занимать лучшие позиции в ранжировании по сравнению со страницами, на которых контент является более актуальным.

Например, некоторые сайты не нуждаются в обновлении. Значит ли это, что информация на них не актуальна и устарела? Не совсем. Если рассматривать правительственный законопроект, принятый 10 лет назад, то здесь уже не может быть новой информации; или же рассматривать информацию о формуле пенициллина, то это тоже не предполагает каких-либо изменений. Наша жизнь изобилует подобными примерами.

В патентной заявке Google нет упоминаний о том, как оценить актуальность и релевантность цитирования. Так что же такое Фактор «Свежести» Google? В чем его суть: в актуальности документов или в их релевантности?

Определение фактора «свежести»

Как Google определяет «свежесть» документов? Давайте разберемся. Ранее уже упоминалось о возможности изменить «дату последнего изменения». Это означает, что данную характеристику нельзя учитывать при оценке «свежести».
Определить актуальность документа представляется возможным лишь при рассмотрении совокупности элементов, таких как:

• частота всех изменений страницы (дата последнего изменения);
• количество изменений на странице и их характер: структурные изменения или незначительные;
• изменения в распространении и плотности ключевых слов;
• текущее количество внешних ссылок;
• изменение или доработка ссылочного текста;
• количество других страниц в базе данных, релевантных таким же ключевым словам;
• число дубликатов контента;
• количество новых ссылок на сайты с низким показателем доверия.

В представленный список могут быть включены и другие факторы, которые в той или иной степени имеют отношение к актуальности документа. Полезным советом в данном случае остается: не проводить регулярных изменений на страницах сайта, однако вести мониторинг актуальности контента следует регулярно, но это не всегда предполагает его изменение. Нужно помнить о том, что кардинальные изменения контента могут привести к «песочнице», что больше характерно для новых сайтов в индексе.

Чем грозит новизна документов

В патенте Google говорится, что значительные изменения тематических разделов документа могут быть связаны со сменой владельца, в результате чего, все ранние показатели документа (оценка, ссылочный текст и т.д.) обнуляются.Внезапное появление большого числа тематических разделов может быть расценено как результат спам-деятельности. Если у документа, долгое время состоящего из определенного набора разделов, вдруг появляется несколько дополнительных разделов, для поисковой системы это может означать связь документа с дорвеями (входными страницами).

Внезапное исчезновение оригинальных тематических разделов документа также может стать источником проблем. Если подобное будет зарегистрировано несколько раз, поисковая система (Google) может занизить относительную оценку документа, ссылок, ссылочного текста и других данных, связанных с документом.

Из всего вышесказанного может показаться, что надежность и достоверность являются для Google основными критериями качества документов, в то время как «свежесть» играет лишь вспомогательную роль. Кажется, что на кону намного больше, чем просто определение новизны контента и даты его создания. Вероятно, речь вовсе не о «свежести» документа, а все о тех же внешних ссылках.

По информации www.seochat.com