Анализатор устойчивости к опечаткам
Человек – не робот и может ошибиться. В том числе и при вводе поискового запроса в поисковую строку поисковой машины. Он может просто допустить опечатку, введя соседний символ (и тогда вместо "запрос" получится "звпрос"), он может по ошибке ввести символ дважды или пропустить вовсе (и тогда вместо "запрос" получится "зпрос" или "заппрос"), наконец, он может не знать правильного написания слова и ввести его "как слышится" (и тогда вместо "яндекс" получится "яндыкс").
Поисковик в этом случае может придерживаться одной из трех стратегий:
1) никак не обрабатывать эти случаи и искать строго то что ввел пользователь
2) понять что имела место опечатка, тем не менее найти то что введено и рядом предложить правильную по мнению поисковой машины форму – "возможно, вы имели ввиду [правильное написание запроса]"
3) понять что имела место опечатка, не искать ошибочное написание а сразу искать правильную форму
В зависимости от выбранной стратегии, пользователь либо не увидит что он ошибся при написании, либо увидит это и сделает лишний клик (если захочет), либо даже не догадается о собственной опечатке.
В данном анализаторе сравнивается поисковая выдача по "правильному запросу" и по нескольким формам возможных его опечаток. Оценивается степень близости поисковой выдачи по запросу с опечаткой к выдаче по "правильному" запросу
Кроме сознательного исправления опечаток, совпадения могут возникать в четырех случаях:
1) случайно
3) страница содержит как правильную форму, так и форму с опечаткой
4) ложное срабатывание морфологии поисковика (например, приведение неизвестного поисковику слова "гриби", которое есть опечатка слова "грибы" к слову "гриб")
5) продвижение одних и тех же сайтов как по запросам в правильном ниписании, так и по запросам с опечатками
Все эти случаи в рамках данного анализатора дают шум – случайное совпадение результатов.
Степень близости оценивается аналогично тому как это делается в анализаторе апдейтов, только сравниваются другие запросы.
Чем большее совпадение результатов зафиксировано, тем выше результат поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.
В дальнейшем будет введена ротация групп запросов с опечатками из большого массива групп.
- 90−100%
- 80−90%
- 60−80%
- 40−60%
- 20−40%
- 0−20%
|
|