Палех - новый алгоритм Яндекс

Alla Rud 14.11.2016 на прочтение 4 минуты

2 ноября в блоге Яндекса появилась новость о запуске нового алгоритма - Палех. Данный алгоритм создан с целью более детально распознавать запросы пользователей. Благодаря ему пользователи смогут более точно попадать на целевые страницы, не только по анализу ключевых слов, но и по смысловой нагрузки запроса.

algoritm_palex

По официальной статистике Яндекса каждый день поисковая система обрабатывает 280 млн запросов. Большинство из них повторяются постоянно, например, запрос “одноклассники”, но и есть часть уникальных запросов, их около 100 млн в день. Такие запросы практически не повторяются, но все же они есть и пользователи по ним должны попадать на запрашиваемые веб-ресурсы.

Альтернативы сервисам Яндекса: поисковики, браузеры, почта. Что выбрать?

Все запросы системы разделяют на три категории, которые в целом можно представить в виде птицы. Ее клюв это те запросы, которые наиболее часто встречаются, те, которые пользователи вводят ежедневно, это по сути краткие запросы. Среднечастотные запросы встречаются периодически, и это туловище “птицы”. Но в данной статье нас интересует “хвост птицы” - существенная часть поискового потока, запросы, которые встречаются довольно редко.

Новый алгоритм позволяет поиску намного качественнее отвечать на сложные запросы из «длинного хвоста». Этот хвост есть у сказочной Жар-птицы, которая появляется на палехской миниатюре. Потому алгоритм получил название Палех.

Если анализировать все запросы из хвоста, то можно даже выделить несколько групп. Среди них весомую долю занимают запросы детей, которые еще не умеют правильно пользоваться поисковой системой. Например, запрос типа “дорогой яндекс подскажи мультик про котиков”, точно принадлежит ребенку. Еще есть группа запросов от людей, который ищут музыку или фильм по какому-то отрывку. Например, фильм про человека, который летел на луну и тп.

Редкие запросы сложно анализировать Яндексу, потому что по них нет поведенческой статистики. Поисковой системе сложно понять какие сайты подходят под данные запросы, а какие нет. Осложнение и в том, что далеко не в каждом случае на релевантной странице встречаются слова из запроса - ведь один и тот же смысл в запросе и на странице может быть выражен совершенно в разных вариантах.

Для того, чтобы по каждому долгому запросу находить верный и подходящий ответ разработчики Яндекса решили применить основы работы нейронных сетей.

Данный метод машинного обучения стал особо популярным в последнее время. Нейронные сети хорошо анализируют картинки, звуковую информацию и текст. В данном случае они имеют дело с текстами. Анализируя поведение посетителей, нейросеть понимает связь между запросами и заголовками страниц.

По заявлению Яндекса, для понимания работы алгоритма, нужно знать, что любому компьютеру проще работать с числами, а не с текстами. Поэтому нейронные сети алгоритма будут переводить текст в числа. Данная схема очень сложна для понимания. Но ее суть работы заключается в том, что миллиарды известных Яндексу заголовков веб-страниц будут переводиться в числа, а если быть точнее, то в группы из 300 чисел каждая. В итоге все документы из базы данных Яндекса получили координаты в трёхсот мерном пространстве.

Способ обработки запроса и его сопоставления с подходящими ответами получили название семантического вектора. Это хорошо работает в случаях, когда запрос является вида «длинного хвоста». Семантические векторы позволяют качественнее находить ответы на сложные и длинные низкочастотные запросы, по которым очень мало статистики по пользователям. Более того, представляя запрос и веб-страницу в виде вектора в 300-х пространстве, можно понять, что они хорошо соответствуют друг другу, даже если у них нет ни одного похожего слова.

Данный семантический вектор по заявлению поисковой системы начали использовать еще несколько месяцев назад. О том, как происходило обучение нейронной сети опубликована даже специальная статья.

Семантический вектор применяется не только в поисковом сервисе, но и в Картинках для осуществления более точного поиска.

Данная технология обладает огромным потенциалом и имеет огромное будущее. К примеру, переводить в такие векторы можно не только заголовки, но и полные тексты документов. Это даст возможность еще более точно сопоставлять запросы и страницы.

Более подробная статья о коммерческих факторах ранжирования на нашем блоге.