Ждали Анадырь, а получили Арзамас
Только пару дней назад я писал об изменениях в поисковом алгоритме Яндекса, который по первой версии должен был назваться «Анадырь», но как помнится на конференции NetPromoter 09, Александр Садовский говорил, что может будет и «Арзамас». После официального заявления Яндекса о смене поискового алгоритма, который всё-таки обозвали «Арзамас», на форумах уже бурно обсуждают его последствия. Многим как обычно Яндекс не угодил и чьи-то сайты сильно просели в выдаче, но есть и те, кто доволен нововведениями в том числе и я.
А вот и официальное заявление Яндекса:
На www.yandex.ru обновлена поисковая программа — теперь там работает «Арзамас» (ранее известный как «Анадырь»). В серии постингов мы расскажем, что сделано за это время.
Снятие омонимии
Яндекс научился еще лучше понимать русский язык, разрешая неоднозначности слов в запросах.
Как известно, знание русской морфологии позволяет поиску Яндекса находить больше полезных ответов. Если вы спросили [реконструкция Маяковской], мы покажем также страницу со словами [станция Маяковская открылась после реконструкции]. Но русский язык — тонкий, сложный и неоднозначный. Тем, кто ищет [фото львов], могут быть нужны как фотографии животных, так и фотографии города Львова. Человек может уточнить свое высказывание, добавив к нему одно или несколько слов: [фото африканских львов] или [фото город львов]. Теперь эти уточнения наш поиск научился понимать.
Мы реализовали алгоритм снятия омонимии, позволяющий во многих случаях определить, какое слово имеется в виду, и предлагаем в ответ только документы с формами нужного слова. По запросу [фото африканских львов] пользователь получит в ответ документы со словами “лев”, “льва”, “льву”, но не получит документы, где встречаются лишь слова “Львова” или “Львову”.
Как мы научили машину отличать, когда речь идет о животных, а когда — о городах? Алгоритм снятия омонимии основан на анализе данных запросов наших пользователей, учитывает частоту слов в Интернете и их сочетаемость, а также опирается на лексическую статистику слов из Национального корпуса русского языка — академического проекта, разрабатываемого при поддержке Яндекса. При анализе неоднозначного запроса мы выбираем наиболее частотную модель. Выбор в пользу наиболее вероятной конструкции помогает понять, что “день рыбака” — это не призыв, а праздник, а “платья придворных дам” — не обещание поделиться одеждой.
А любимый наш вопрос — тот, на который мы знаем целых два правильных ответа. Звучит он так: “Сколько голов у Павлюченко?”
Александр Садовский и команда поиска
Яндекс всегда меня очень радовал своим постоянным улучшением поиска и сервисов и это улучшение не исключение.








На самом деле словил себя на мысли, что за год Яндекс действительно стал лучше искать…
Если раньше можно было даже писать гневные записи, что яндекс нашел по запросу “Достоевский” сравнивая с выдачей гугла, то сейчас все очень даже симпатично.
Как пользователя меня это радует.