Анализатор полноты индексов
Для качества поиска довольно важно, насколько полно индексируется Интернет поисковой машиной. Если поисковая база поисковика маленькая, то часть веб-страниц могут оказаться вообще недоступными через данный поисковик.
Конечно, по большинству частотных и среднечастотных запросов любая поисковая машина гарантированно выдаст вам десятки или сотни тысяч результатов. При этом, однако, реальный размер базы у разных поисковиков может отличаться в несколько раз.
Как понять истинный размер базы? Это непросто и вот почему:
а) Нельзя доверять декларации поисковиков "всего найдено N документов", поскольку у каждого поисковика количество найденного подсчитывается по-своему. Кто-то считает только документы, где есть все заданные в запросе слова, а кто-то дописывает в "хвост" вообще все документы. где встретилось хотя бы одно слово из запроса. Поисковики любят мериться мускулами и не чужды маркетинговых трюков.
б) Более того, в действительности ни один поисковик никогда не покажет вам все заявленные 10 000 результатов. Листая результаты поиска, Вы сможете увидеть десятки, в лучшем случае сотни страниц результатов поиска, после чего вас так или иначе отключат.
Таким образом, можно быть уверенным, что мы знаем истинное количество страниц в Интернете с данным словом, только когда результатов – максимум сотня-другая.
в) доверять декларации поисковика о том, что им заиндексировано M миллиардов документов – тоже нельзя, потому что, опять-таки способ подсчёта неизвестен (считаются ли дубли, например, и какие именно), а также потому, что может оказаться, что половина Рунета всё-таки оказалась вне этих условных M миллиардов страниц и не попала в индекс вообще.
Поэтому мы выбрали наиболее простой и надёжный способ анализа полноты поисковой базы по редким запросам.
Редкими здесь мы называем запросы, которые встречаются в Интернете всего несколько десятков раз. Впрочем, обычно такие запросы – редкие и в смысле частоты поиска их в поисковиках, поскольку если запрос – частотный, то под него моментально подстраиваются спамеры, производя множество фальшивых страниц с этим словом или словосочетанием.
Итак, мы построили набор редких запросов, по каждому из которых поисковики выдают не более нескольких десятков результатов. И проверяем "окраины Интернета" на предмет того, видит ли их каждая из поисковых машин. Анализатор раз в сутки проверяет все поисковики на предмет того, сколько страниц найдёно каждым поисковиком по каждому запросу.
После чего вычисляется показатель полноты базы по следующей формуле: Проводится поиск по запросу во всех сравниваемых поисковых машинах. Для машины, в которой найдено максимальное число страниц, полнота считается равной 1, для остальных – определяется пропорционально. Затем полнота усредняется по множеству специфических запросов. Это и есть значение анализатора полноты.
Мы постоянно пополняем список запросов-маркеров, стараясь охватить все "окраины Интернета". Если вам кажется, что есть ещё какие-то редкие слова и словосочетания, которые стоит включить в базу маркеров – присылайте их нам.
- 90−100%
- 80−90%
- 60−80%
- 40−60%
- 20−40%
- 0−20%
|
|