YATI

8 декабря 2020

С ноября 2020 года поиск Яндекса работает на YATI (Yet Another Transformer with Improvements). Яндекс 10 лет работал над этой технологией и теперь обещает, что новый текстовый анализ на базе нейросетей-трансформеров изменит поиск так, как не смогли вместе взятые «Палех» и «Королев».

Чем YATI отличается от предыдущих поисковых алгоритмов

Алгоритмы Яндекса до 2016 года работали на математическом анализе текста: считали количество вхождений, смотрели на длину подстроки, использовали историю поиска, оценивали кликабельность. В то время текстовый анализ рассчитывал вероятность смысловой связи запроса и документа и на основе значимых статистических расчетов этой вероятности формировал выдачу. Вот почему в текстах, которые писались на сайты до 2016 года, жестко контролировались количество вхождений ключевых слов, соблюдалась их последовательность, важны были точные склонения и спряжения. Контент той эпохи выглядел примерно так:

контент.jpg

В ноябре 2016 года в Яндексе случился «Палех», а в августе 2017 года — «Королев». Оба алгоритма работали на нейронных сетях и, в отличие от предыдущих, находили документы не по словам, а по смыслу запросов и заголовков. Нейронные сети 2016-2017 гг преобразовывали запросы в поисковой строке и заголовки страниц на сайтах в семантические векторы, а потом сравнивали их друг с другом. Чем сильнее были похожи векторы, тем ближе по смыслу оказывались запрос и смысл страницы.

В SEO времен «Палеха» и «Королева» на первое место вышло качество контента и релевантные заголовки, ушли простыни текста и нечитабельные вхождения ключевых слов. Качество поиска ощутимо улучшилось, но нейронные сети все равно учитывали порядок слов не полностью, слабо владели словарем, использовали только один вектор для документа. В итоге пользователям приходилось несколько раз переформулировать запрос, чтобы получить подходящий ответ.

Как работает YATI

Новая технология основана не просто на нейросети, а на тяжелой нейросетевой архитектуре. Физически это сотни GPU-карт, сервера в дата-центре Яндекса и несколько версий вычислительных кластеров. На этой базе и сформирована нейросетевая модель, которая обучается сначала свойствам языка, потом толокерским оценкам релевантности, а затем и эталонным оценкам асессоров. Здесь Яндекс не стал изобретать велосипед, а использовал метод последовательного дообучения модели от простых задач к сложным, от больших общих выборок — к узким, малым.

В результате, YATI не просто сравнивает запрос со смыслом документов. Он понимает смысл запроса и веб-страницы и сравнивает их. Алгоритм вычленяет из текста области с основным содержанием и структурой, безотносительно к длине фрагментов. Также, YATI распознает порядок слов и учитывает контекст со всеми нюансами языкового окружения, семантического поля.

«YATI будет больше внимания уделять внимание LSI текстам, качественно написанным, с четкой структурой и в тематике сайта. В принципе, этот стал заметен давно, просто сейчас Яндекс официально рассказал о новой технологии и добавил мощностей на обработку данных.

Хочется добавить, что какой бы текст ни был хороший, но если сайт нерелевантный, вряд ли такой сайт будет показываться в ТОП. И просто оптимизировать метатеги уже мало. Нужно, чтобы страница сайта максимально отвечала на все вопросы пользователей. Для этого SEO-специалист должен оптимизировать страницы сайта не только для поисковых машин, но и задумываться о пользователях».

Наталья Любанская, SEO-специалист NowMedia

Таким образом, если следовать логике алгоритма, для попадания в релевантную выдачу сайт должен содержать расширенное семантическое ядро с релевантными запросами из систем аналитики, подсказок, поисковой видимости и логов внутреннего поиска.

По материалам YaC 2020 и Habr.ru

Есть проект? Свяжитесь с нами.

Дальше: Яндекс и его новые сервисы