Google разработал новый алгоритм SMITH, который способен лучше понимать длинные запросы и документы, чем BERT. Информация о нем была опубликована Google в научной статье.
Новая модель SMITH разработана для семантического сопоставления длинных текстов. Если BERT обучен понимать слова в контексте предложений, то SMITH пытается понять документы целиком. Т.е. модель ориентирована на понимание фрагментов в контексте всего документа.
В отличие от BERT, который обучается на наборах данных для предсказания случайным образом скрытых слов из контекста в предложениях, – SMITH обучается предсказывать следующий блок предложений.
Такое обучение поможет новому алгоритму лучше понимать объемные документы.
Используется ли SMITH в полной мере в работе Google пока не известно. Официальных заявлений на этот счет компания не давала.
Ознакомиться с описанием алгоритма SMITH можно здесь.
Источник: Search Engine Journal