Яндекс, Палех и нейронные сети

Яндекс. Алгоритм Палех 2016

Яндекс разработал и запустил алгоритм «Палех». Это интеллектуальный поисковый алгоритм нового поколения на основе перспективных нейронных сетей. Он сопоставляет смысл поисковых запросов и проиндексированных документов. Благодаря алгоритму «Палех» органическую выдачу займут релевантные страницы сайта Watermillsky, которые содержат искомые ключевые фразы и соответствуют смыслу поиска.

 

Почему Палех?

 

Каждый божий день неутомимый Яндекс находит ответ на более чем 280 000 000 пользовательских запросов. Высокочастотные запросы [новости], [погода] или [одноклассники] запрашиваются ежесекундно. Другие запросы абсолютно уникальные. Вполне возможно, что такие фразы задают один раз в год и больше они не повторяются. По статистике Яндекса подобные фразы составляют порядка 35% от общего количества запросов по всем частотностям. Для пущей наглядности Яндекс представил графическое частотное распределение запросов в виде сказочной Жар-Птицы. В клюве находятся самые распространённые высокочастотные фразы, в туловище – среднечастотные. Длинный хвост состоит исключительно из низкочастотных фраз, коих набирается каждый день свыше 100 миллионов.

 

 

Яндекс. Алгоритм Палех 2016

 

 

Благодаря новому алгоритму «Палех» поиск Яндекса обладает лучшей релевантностью и способен давать корректный ответ на сложные фразы из нескольких слов. Низкочастотные запросы из «длинного хвоста» разделяются на группы. Например, для детей поиск Яндекса – это живой и понимающий собеседник, которому часто задают своеобразные вопросы: [дорогой яндекс посоветуй где найти новые игры про зубную фею]. Другой сегмент для тех, кто решил найти название кинофильма или книги по отдельному эпизоду [фильм где профессор отправился на автомобиле в будущее] («Назад в будущее») или [фильм где астронавты летят к солнцу] («Пекло»).

 

НЧ-запросы из хвоста птицы Палех представляют определённую сложность в плане выдачи релевантных ответов. Если по ВЧ-фразам накоплена объёмная пользовательская статистика о действиях посетителей сайтов, то для ультранизкочастотных и редких фраз из хвоста птицы, поведенческие данные могут вовсе отсутствовать. В этом случае Яндексу сложнее строить релевантную поисковую выдачу, так как смысл запроса в органическом поиске и на искомой страницы может отличаться. Чтобы получить достоверные результаты и представить корректную выдачу Яндекс использует возможности нейронных сетей.

 

 

Особенности алгоритма Палех

 

В основе работы алгоритма Палеха лежит нейронная сеть. Нейросеть обучилась работать с положительными и отрицательными примерами, заранее предсказывая релевантность документа по искомой ключевой фразе. Перед нейронной сетью поставлена главная цель – понять семантическую близость поисковых запросов и содержимого веб-страниц. С этим делом Палех справляется намного лучше, чем алгоритм ВМ25, особенно при подборе документов по нечётким запросам. Переформулировка ключевых фраз путает все карты для BM25 – фактор принимает нулевое значение на релевантных заголовках. Алгоритм Палех стойко выдерживает эксперименты с поисковыми запросами, придавая релевантным заголовкам высокое значение фактора, нерелевантным – низкое.

 

Таким образом, разработчики нового алгоритма Яндекса создали улучшенную модель ранжирования документов при поиске по нечётким фразам. Палех одинаково хорошо работает со всеми типами пользовательским запросов во всех регионах поиска и на всех языках (кроме поиска по цитатам). Недавние колебания органического трафика, которые заметили наблюдательные веб-мастера, могут быть связаны с запуском нового алгоритма.

 

 

Семантический анализ

 

В последние годы нейронные сети представляют одну из форм развития искусственного интеллекта на основе технологий машинного обучения Яндекса. Нейросети научились многому и добились выдающихся результатов в процессе анализа текстовой, графической и звуковой информации. Сегодня нейронная сеть быстро учится определять отдельные объекты на сложных изображениях. При обучении нейросеть анализирует значительные объёмы как положительных, так и отрицательных примеров. По итогам обучения достигается высокая вероятность распознавания заданных объектов на любых графических изображениях.

 

При работе алгоритма Палех с пользовательскими запросами вместо картинок используются заголовки и тексты на страницах сайтов. На основе поведения пользователей подбираются примеры с положительным и отрицательными ответом. При обучении подбираются пары «запрос – заголовок», чтобы нейронная сеть научилась «думать», как человек и понимать смысл между тем, что ищет пользователя и тем, что написано в заголовке текста.

 

 

Семантический вектор

 

Но нейронная сеть Палех «любит» работать с числами и для удобства поиска смысловых соответствий заголовки страниц трансформированы в группы, в каждой из которых находится триста чисел. Таким образом, каждый просканированный документ из базы данных Яндекс получил собственные уникальные координаты в гипотетическом пространстве из 300 измерений. Для обычного человека, далёкого от высшей математики, довольно сложно представить подобную систему координат. По аналогии с трехмерным пространством, где каждая точка имеет координаты по трём осям и, соответственно, точное расположение в пространстве из трех измерений, каждая веб-страница имеет собственные координаты в N-мерном пространстве, которые определяются по расположению точки на каждой из трехсот координатных осей.

 

Схожим образом алгоритм Палех переводит текст поисковой фразы в набор чисел. Проще говоря, запрос и текст веб-страницы размещаются в идентичном координатном пространстве. Этот способ анализа и обработки поисковых запросов с последующим сравнением с возможными ответами получил название «семантический вектор». Он выявляет те страницы, которые лучшим образом отвечают на пользовательские запросы. Семантический вектор умеет работать с НЧ-фразами и предоставляет релевантные страницы под сложные фразы из «длинного хвоста». Даже в самом трудном случае, когда запрос и текст не содержат идентичных слов, семантический вектор сможет сопоставить поисковую фразу и веб-страницу на предмет поиска общего смысла.

 

 

Дальнейшее развитие поиска

 

Семантический вектор нашел применение в органическом поиске Яндекса и прочих пользовательских сервисах поисковой системы. По этой технологии в Яндекс.Картинках происходит поиск изображений по точному тексту. Дальнейшее развитие технологии семантического вектора на основе сетей с искусственными интеллектом позволит анализировать тексты просканированных документов и предоставлять данные в трёхсотмерном цифровом пространстве. Другое направление – анализ поведения пользователей в сети Интернет и разработка профиля пользователя с учётом его интересов и намерений. Стратегическая цель развития нейросетей – создать поисковые модели, которые работают на технологиях искусственного интеллекта и понимают семантический смысл пользовательских запросов и текстового контента так же хорошо, как это делает обычный человек.

 

WM+

 

 

Новости поисковых систем

 

 

 

© WaterMillSky 2012-2016