|
|
Анализатор полноты индексов
Этот анализатор работает в тестовом режиме. Результаты могут быть некорректными.
Для качества поиска довольно важно, насколько полно индексируется Интернет поисковой машиной. Если поисковая база поисковика маленькая, то часть веб-страниц могут оказаться вообще недоступными через данный поисковик. Раскрыть →
Конечно, по большинству частотных и среднечастотных запросов любая поисковая машина гарантированно выдаст вам десятки или сотни тысяч результатов. При этом, однако, реальный размер базы у разных поисковиков может отличаться в несколько раз. Как понять истинный размер базы? Это непросто и вот почему: а) Нельзя доверять декларации поисковиков "всего найдено N документов", поскольку у каждого поисковика количество найденного подсчитывается по-своему. Кто-то считает только документы, где есть все заданные в запросе слова, а кто-то дописывает в "хвост" вообще все документы. где встретилось хотя бы одно слово из запроса. Поисковики любят мериться мускулами и не чужды маркетинговых трюков. б) Более того, в действительности ни один поисковик никогда не покажет вам все заявленные 10 000 результатов. Листая результаты поиска, Вы сможете увидеть десятки, в лучшем случае сотни страниц результатов поиска, после чего вас так или иначе отключат. Таким образом, можно быть уверенным, что мы знаем истинное количество страниц в Интернете с данным словом, только когда результатов – максимум сотня-другая. в) доверять декларации поисковика о том, что им заиндексировано M миллиардов документов – тоже нельзя, потому что, опять-таки способ подсчёта неизвестен (считаются ли дубли, например, и какие именно), а также потому, что может оказаться, что половина Рунета всё-таки оказалась вне этих условных M миллиардов страниц и не попала в индекс вообще. Поэтому мы выбрали наиболее простой и надёжный способ анализа полноты поисковой базы по редким запросам. Редкими здесь мы называем запросы, которые встречаются в Интернете всего несколько десятков раз. Впрочем, обычно такие запросы – редкие и в смысле частоты поиска их в поисковиках, поскольку если запрос – частотный, то под него моментально подстраиваются спамеры, производя множество фальшивых страниц с этим словом или словосочетанием. Итак, мы построили набор редких запросов, по каждому из которых поисковики выдают не более нескольких десятков результатов. И проверяем "окраины Интернета" на предмет того, видит ли их каждая из поисковых машин. Анализатор раз в сутки проверяет все поисковики на предмет того, сколько страниц найдёно каждым поисковиком по каждому запросу. После чего вычисляется показатель полноты базы по следующей формуле: Проводится поиск по запросу во всех сравниваемых поисковых машинах. Для машины, в которой найдено максимальное число страниц, полнота считается равной 1, для остальных – определяется пропорционально. Затем полнота усредняется по множеству специфических запросов. Это и есть значение анализатора полноты.
Мы постоянно пополняем список запросов-маркеров, стараясь охватить все "окраины Интернета". Если вам кажется, что есть ещё какие-то редкие слова и словосочетания, которые стоит включить в базу маркеров – присылайте их нам.
Свернуть ↑
[ Ссылка на статью ]
|