В рунете продолжается конференц-сезон, на этот раз эстафету переняло сообщество веб-разработчиков, собравшихся на двухдневную конференцию
Эта же идея популяризируется посредствам Клуба Профессионалов
Однако вернемся к событиям РИТа. Открытие получилось интригующим. Видеопривествие Стива Балмера, генерального директора компании Microsoft, чуть не сорвал сотрудник российского офиса компании, Петр Диденко, попытавшийся выдать себя за главу корпорации. Праздник спасли ведущие, оперативно среагировавшие: «Петь, это кажется, не твой текст!». Шутка удалась. А потом целых пять минут (!) участники конференции слушали настоящего Балмера. Настроение мероприятию было задано! Секции собирали большое количество слушателей, докладчики приходили за несколько минут до своего выступления, а ответив на вопросы, убегали на другие секции или в лаундж-зоны. Ничто иное как неформальная тусовка единомышленников с математическим складом ума и ноутбуками в рюкзаках, которым есть что обсудить, о чем дискутировать.
Тем, заслуживающих освещения, было много, а время ограничено. Это задавало соответствующий ритм, которому должны были подчиняться все. Сошедших временно с дистанции брал на себя Рамблер, раскидавший по всей площади Крокус-Экспо большие разноцветные подушки, на которых можно было посидеть и перевести дух.
Прерванное выступление Петра Диденко было компенсировано его докладом на секции, посвященной технологиям и алгоритмам. Рассказывая об услугах хостинг-провайдеров, он остановился на способах заработка для них. Начали с воспоминаний о том, что когда-то домен стоил целых $120, сейчас цена сравнительно меньше, как и средний заработок хостера с одного клиента ($10). Дополнительным способом монетизации должны стать сервисы, именно за ними будущее. Предоставляя своим пользователям всю инфраструктуру из разнообразных сервисов, провайдеры увеличат спрос и, следовательно, приток денег.
Непосредственно алгоритмам были посвящены следующие доклады. Алексей Лагутин рассказал об инновационной технологии индексирования и поиска изображений в интернете. Алгоритм под названием IMAGIUM принимает в качестве поискового запроса изображение. Cистема осуществляет поиск по образцу (фрагменту), с учетом заданных допустимых геометрических искажений, IMAGIUM ищет похожие изображения. С его помощью можно мониторить интернет на предмет соблюдения авторских прав на фото, например. Также данная технология может использоваться на тематических сайтах, обладающих своей коллекцией изображений, в фото-банках и фото-хостингах с большим массивом слабоструктурированного контента
Александр Кшевецкий, представитель компании Tillicity, опираясь на свои разработки в данной области, затронул другой нерешенный на сегодняшний день вопрос - аудиопоиск. Поиск слов в аудио основывается на нескольких направлениях распознавания речи:
- диктовка текста;
- полное распознавание (запись должна быть хорошего качества, точность может составлять не менее 80%) и
- выделение ключевых слов.
В России, к сожалению, пока нет хороших движков распознавания речи. В идеале поиск аудио-файлов будет транскрибировать их содержание, определяя релевантность запросу пользователя. Обработка будет вестись специальными программами декодирования, классифицирующими слова по схожим признакам, например фонемам. Успехи компании Tillicity на поприще поиска слов в аудиозаписях докладчик предложил прямо на секции, желающий нашелся быстро. Однако наговорить произвольный текст докладчик не позволил, сказав «говорите слова, которые указаны здесь». Но и с таким жестким условием, система продемонстрировала 50% точность.
Интересным и позитивным оказался доклад Алексея Байтина, представителя Яндекса, посвященный ошибкам в запросах. Оказывается, 15% запросов вводятся с ошибками, большинство из них сделаны по невнимательности пользователя (например, грибница фараона, желательная резинка или вышел с ухой из воды), остальные же по неграмотности (например, Игипет, Египед).
Основные трудности у пользователей возникают со слитным или раздельным написанием слов, минимальное количество ошибок связанно с неправильной раскладкой клавиатуры. Однако встречаются и забавные случаи симбиоза, например, «скчать кодык игре ыефдлук». Чтобы разобраться, чего хотел пользователь, Яндекс сегментирует запрос (кодык - коды к), исправляет неправильную раскладку (ыефдлук - stalker), по мере близости с правильным вариантом заменяет скчать на скачать. Таким образом, все становится на свои места, ищем «скачать коды к игре stalker».
Однако ничто не идеально и даже Яндекс, часто система предлагает неудачные подсказки. Например, еще некоторое время назад Белявский подменялся Милявским, олбас менялся на колбас и др., возможно и сейчас могут найтись слова, которые поисковик примет за неправильно написанные.