11 Ноября 2009 в 16:07

Четверть сайтов рунета – поисковый спам

0 1838

Большинство сайтов Рунета (56%) состоит из одной страницы. Такие данные получил Яндекс, исследуя контент российского сегмента Интернета. А четверть сайтов, по оценке Яндекса, не содержат информации, полезной для пользователя: «Они созданы, чтобы привлекать посетителей на другие сайты или влиять на их ранжирование в поисковых системах».

88% текста всего Рунета находится менее чем на одном проценте сайтов. А все текстовые документы Рунета занимают более 140 000 Гб, если не учитывать дублированные страницы.

Яндекс определил, что средний сайт Рунета содержит 255 страниц, на которых находится около 159 тысяч слов и менее 10 картинок. А если все слова, опубликованные в Рунете, записать на бумаге, то потом можно сложить из листов куб с длиной стороны основания 26 метров и высотой с девятиэтажный дом.

Яндекс, исследуя контент Рунета, сравнил наиболее часто встречающиеся там слова с самыми частотными словами по версии РАН. Оказалось, что и в Рунете, и в словаре самым частым прилагательным является «новый». И вообще среди прилагательных наблюдается высокий уровень соответствия. Самыми частотными существительными в Рунете являются «сообщение», «сайт», «год», «новость» и «телефон». Понятно, что в частотном словаре русской лексики другие первые места. Также Яндекс посмотрел на то, как иностранные слова склоняются к одному из вариантов написания:

Доля ошибочных написаний слов, по данным Яндекса, не так велика, но абсолютное количество слов с ошибкой велико: «В масштабах Рунета даже сравнительно небольшая доля ошибок означает огромные числа. 5,78% неправильных написаний слова агентство в Рунете — это 21 миллион агенств».

0 комментариев
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
Поделиться 
Поделиться дискуссией:

Отправьте отзыв!
X | Закрыть