«Однако определить оригинал ролика зачастую сложно, - отмечает Михаил Костин, директор по разработке поисковых проектов компании Mail.RU. - В выдачу попадает ролик, наиболее релевантный запросу по нашему стандартному алгоритму ранжирования, то есть тот, который был бы выше в результатах поиска, если бы мы не отслеживали копии».
При желании пользователь может просмотреть все ролики, которые поисковик посчитал очень схожими, кликнув на ссылку «Похожие ролики». Аналогично процесс фильтрации происходит и в поиске по картинкам. Система анализирует фотографии, найденные в базе по запросу пользователя, и, обнаружив высокую вероятность совпадения нескольких друг с другом, оставляет в выдаче только одну из них.
Сейчас в базе поисковика уже более трех миллионов роликов и сотни миллионов изображений. Наращивание индексной базы GoGo.Ru и включение в поиск новых видеосервисов привело к тому, что по некоторым популярным пользовательским запросам (например, названию фильма или песни) количество ссылок с одним роликом могло составлять до половины всех результатов на странице. Эту же проблему Михаил поднимал на поисковой секции КИБа. Тогда была озвучена цифра в 30%, это то количество роликов, которые повторяются в базе GoGo.
«Фильтрация одинакового фото- и видеоконтента позволяет ликвидировать такие последствия стремительного роста индексной базы как появление копий картинок и роликов, - говорит директор по маркетингу и PR компании Mail.Ru Анна Артамонова. - Это действительно полезное и важное улучшение в работе GoGo.Ru, которое сделает работу с поисковиком гораздо удобнее».