по-русски in English
Анализаторов
на сайте
13 Открыть
все
в Рунете в мире

Что такое анализаторы поисковых машин

AnalyzeThis.ru — это проект независимой автоматизированной оценки качества поисковых машин. Он придуман и реализован в компании «Ашманов и партнеры».

Проект технологический — мы не оцениваем качество поиска вручную, мы находим такие его аспекты, которые можно измерить автоматически. Измерения ведутся каждый день, и это дает возможность следить за взлетами и падениями поисковиков, за тем, как они конкурируют друг с другом и борются за улучшение качества поиска.

Проект стартовал в 2007 году, и сейчас таких поддающихся автоматическому контролю параметров поиска найдено уже несколько десятков. В конце 2012 года, когда был открыт новый сайт проекта, анализаторов было уже 37, и нам пришлось разбить их на группы, т. к. их список стал слишком длинным.

Каждый анализатор — это программа, получающая ответы поисковых машин на специально подобранные запросы и проверяющая, насколько эти ответы соответствуют заранее описанным формальным критериям (подробнее см. ниже, Как работают анализаторы).

Разумеется, эти критерии для всех поисковиков одинаковы. Подробные результаты публикуются. Можно в любой момент посмотреть, какие запросы были заданы в тот или иной день — вот например, запросы навигационного анализатора за 1 января 2010 года и оценки, полученные по ним поисковыми машинами. Можно увидеть даже конкретные результаты поиска по конкретному запросу — вот, например, что отвечала в этот день поисковая машина GoGo, прообраз поиска Mail.ru, на запрос большой театр; «правильный» ответ выделен зеленым фоном. Всё это обеспечивает высокую объективность оценок.

Насколько нам известно, проект AnalyzeThis.ru уникален — не только в Рунете, но и за его пределами.

Как работают анализаторы

Описание каждого из анализаторов можно найти на его странице. Все вместе эти описания собраны здесь.

Давайте рассмотрим работу анализаторов подробнее на примере самого первого и, возможно, самого простого из них — анализатора качества навигационного поиска. Этот анализатор проверяет, как часто пользователь, который ищет конкретный сайт, сможет, задав соответствующий запрос поисковой машине, попасть на него.

Ежедневно каждая поисковая машина из тех, чьи результаты мы анализируем, отвечает на сто запросов. Эта сотня одна и та же для всех поисковиков, но каждый день она выбирается случайным образом более чем из 600 запросов (во многих других анализаторах, впрочем, сотня запросов всегда одна и та же; в некоторых анализаторах запросов больше ста).

Полученные от поисковых машин веб-страницы обрабатываются специальными шаблонами, из них выделяются собственно результаты поиска — с первого по десятый. Для каждого результата запоминаются: ссылка на найденную веб-страницу (эта ссылка часто отсутствует в результатах поиска в чистом виде, и тогда ее приходится специально выделять), заголовок и снипет (т. е. фрагмент или фрагменты текста, которые представляют страницу в дополнение к заголовку).

Для каждой из ссылок проверяется, принадлежит ли она одному из эталонных сайтов, которые были предварительно выписаны для данного запроса. Обычно такой сайт один, но иногда их больше — например, для запроса банк русский стандарт по состоянию на конец 2012 года эталонными наряду с rsb.ru считались сайты rs.ru и bank.rs.ru: с них осущестлялся редирект на rsb.ru, поэтому пользователь, кликнув на ссылку, ведущую на один из них, попадал на нужный ему сайт.

Таким образом, для каждого из 100 запросов мы для каждой поисковой системы получаем данные о том, попадают ли в ней эталонные для данного запроса сайты в «десятку» — и если да, то на какую позицию (или на какие позиции, если таких результатов несколько). Остается только посчитать для каждого поисковика процент тех запросов, по которым эталонные сайты находятся, и мы получаем оценку навигационного поиска.

Впрочем, в этом же анализаторе есть и другая, несколько более тонкая метрика — она доступна по ссылке с учетом позиции. В этом случае учитывается не только наличие эталонных сайтов в выдаче, но и их позиция. Если эталонный сайт находится на 1 позиции, мы засчитываем запросу единицу, если на второй — 0,9, если на третьей — 0,8, и так далее (если эталонные сайты присутствуют в выдаче несколько раз, учитывается только первое вхождение). Если эталонный сайт найден на десятой позиции, запрос получает 0,1, если не найден (не попал в десятку) вообще — ноль. Затем полученные числа для всех запросов складываются, а результат делится на общее количество запросов, по которым получены ответы поисковой машины (оно может отличаться от 100, если по техническим причинам по части запросов ответ поисковика получить не удалось; а если получено менее 50% ответов, то результат за этот день не засчитывается). Оценка с учетом позиции отличается от оценки без учета позиции тем меньше, чем выше в среднем находятся в поисковой выдаче эталонные сайты.


В других анализаторах способ контроля может быть другим — например, может проверяться наличие (или отутствие) тех или иных слов в заголовке и снипете или на странице найденного сайта. Однако почти всегда подбираются запросы и те или иные маркеры к ним, а контроль осуществляется по наличию/отсутствию в поисковой выдаче маркеров. Это и позволяет вынести нашу аналитическую работу за рамки ежедневных оценок, которые выполняются полностью автоматически.

Работа, тем не менее, нужна довольно большая. Необходимо продумать принцип действия анализатора (и особенно способ контроля оцениваемого параметра), подобрать запросы, маркеры к ним, проверить и отладить результаты... После запуска надо следить, чтобы маркеры не устаревали. Например, в рассмотренном выше навигационном анализаторе сайты-маркеры время от времени становятся недоступными, переезжают на новые адреса, появляются новые их «зеркала», и т. п.


Есть и другие анализаторы — такие, которые требуют больше «ручного» труда. Например, в анализаторе поискового спама наши аналитики регулярно дооценивают те сайты, которые до сих пор не попадали в поисковую выдачу по 100 запросам и не оценивались на спам. В анализаторе рекламной нагрузки дооцениваются скрипты и прочие элементы кода, которые могут вызывать рекламные носители. Наконец, в асессорском анализаторе наши асессоры оценивают релевантность всех не оценивавшихся ранее результатов поиска по 100 запросам.

Но и в этих анализаторах ручная работа сводится к необходимому минимуму, а оценки остаются объективными — те, кто оценивают релевантность, наличие спама и т. п. даже не знают, от какой из поисковых машин пришел тот или иной результат.

Многие анализаторы помимо основного результата вычисляют одну или несколько дополнительных метрик, которые не учитываются в интегральных показателях, но могут представлять самостоятельный интерес. В некоторых случаях дополнительные метрики соответствуют более или, наоборот, менее строгому учету искомого, в других — дополнительным параметрам выдачи поисковиков, связанной с проверяемой стороной поиска.

Для чего нужны анализаторы

Современные технологии обеспечивают возможность доступа к огромным объемам информации за считанные секунды. Однако чем больше объёмы данных, тем сложнее найти именно то, что нужно, тем самым существование и качество работы поисковых машин становится критичным. В Сети представлено немало поисковиков — но как понять, какой из них лучше?

Вероятно, этим вопросом задавался каждый, кто искал что-либо в интернете. Цель нашего проекта — предоставить подробную информацию о сильных и слабых сторонах поисковиков всем желающим, тем самым обеспечивая возможность оправданного выбора инструментов поиска. Выбор поисковика часто основан на привычках и даже предрассудках — и для многих может быть интересно узнать, в чём на самом деле сильные и слабые стороны Яндекса, Google, Mail.ru и других поисковых машин.

Впрочем, информация о качестве поиска может быть полезна не только конечным пользователям поиска, но и всем, кто связан с индустрией поиска. Например, веб-мастерам и оптимизаторам наши анализаторы помогут лучше понимать «стихию» поисковых машин и отслеживать изменения в них — не только с помощью популярного в SEO-среде анализатора апдейтов, но и по скачкам в оценке поисковой выдачи в различных анализаторах.

Журналисты и блогеры найдут в наблюдении за анализаторами вдохновение для аналитических обзоров, еженедельных колонок и просто заметок на полях. Кстати, мы и сами теперь ведем блог проекта, где будем не только освещать свои нововведения, но и анализировать успехи и неудачи поисковиков.

Инвесторы могут использовать объективные данные о поисковых машинах для оценки их прогресса и оправданности инвестиций в них.

Но есть одна категория пользователей, для которых этот сервис просто незаменим. Это разработчики поисковых машин. Им анализаторы помогут сравнить себя с конкурентами, увидеть свои (и их) слабые стороны. И в конечном счете — добиться более высоких результатов и оставить конкурентов позади.

Поэтому, кстати, мы настоятельно рекомендуем разработчикам поисковых машин никогда не использовать данные анализаторов для непосредственной настройки, исправления и т. п. своих поисковых алгоритмов. В случае такого использования данные анализаторов сразу перестают быть объективными, и первые, кто от этого страдает — сами разработчики, получающие вместо полезного инструмента кривое зеркало.


Какие поисковые машины мы анализируем

По состоянию на конец 2012 года, анализаторы оценивают выдачу семи поисковых машин Рунета: Bing, Google, Mail.ru, Mail.ru β, Rambler, Yahoo!, Яндекс (в алфавитном порядке).

Однако необходимо иметь в виду, что не все они независимы друг от друга. Так, с 2011-го года Rambler работает на поисковых алгоритмах Яндекса, хотя их поисковая выдача по-прежнему в некоторых отношениях различается. Вполне возможно, в скором времени мы перестанем оценивать выдачу Рамблера (как сделали это ранее с Апортом), тем более, что и поисковая доля этой поисковой машины, которая в начале измерений, в 2007 году, еще превышала 15%, упала более чем в 10 раз.

С 2010-го года поиск Yahoo! обеспечивается поисковыми алгоритмами Bing, но различия в русскоязычной поисковой выдаче в этом случае ещё заметнее.

В последнее время то Bing, то Yahoo! периодически начинают выдавать нам «упрощенные» результаты поиска (по-видимому, это мера защиты от роботов). В такие моменты оценки этих поисковых машин оказываются существенно заниженными. Мы с удовольствием сообщим представителям этих поисковых машин IP, с которых приходят наши роботы, чтобы они перестали нас «банить».


Наконец, Mail.ru-beta — это находящийся в открытом доступе тестовый проект компании Mail.ru, который используется для проверки новых алгоритмов, находящих (или не находящих) впоследствии применение в работе основного сервиса Mail.ru. Разумеется, поиск Mail-β очень похож на поиск Mail.ru, и отличается от него лишь нюансами.

Это что касается Рунета. Однако мы сравниваем качество поиска и по англоязычным запросам. Здесь другой набор поисковых машин, и пока значительно меньше анализаторов.

Мы планируем расширить и углубить это направление работы — подключить новые поисковые машины, разработать новые анализаторы. А возможно, даже создать инфраструктуру в ряде стран, подобную той, которая была создана в 10 городах России для региональных анализаторов.

Так кто же лучше ищет

Мы не отвечаем однозначно на вопрос, «какой поисковик лучше всех?» — мы тщательно сравниваем поисковые машины по десяткам параметров и ежедневно публикуем подробные результаты анализа.

Тем не менее, вопрос, кто всё-таки лучше, с неизбежностью возникает, и у нас есть на него осторожный ответ. Даже два.

Во-первых, мы уже давно сделали интегральный анализатор качества поиска, который суммирует данные всех других анализаторов (за исключением асессорского, о котором см. ниже, а также анализаторов апдейтов и переходов, которые не имеют прямого отношения к качеству поиска). Результаты каждого из анализаторов учитываются с некоторым весовым коэффициентом, в диапазоне от 0 до 1, который мы посчитали соответствующим его значимости и распространенности запросов, для которых он релевантен.

Если вы считаете, что коэффициенты следовало бы расставить иначе, вы можете сделать это и посмотреть, как это повлияет на результат.

К сожалению, интегральный показатель качества поиска довольно капризен — например, он резко меняется всякий раз, как мы подключаем учет нового анализатора.

Во-вторых, возможна и прямая оценка качества поиска в целом, и ей давно и активно пользуются разработчики поисковых машин (только результатов своих, разумеется, не публикуют). Это асессорские оценки.

В 2012 году мы разработали первый независимый асессорский анализатор, и теперь можно сравнивать релевантность результатов разных поисковых машин напрямую.

Данные двух способов оценки — интегрального и асессорского анализаторов — не всегда совпадают, и это не удивительно: ведь в качество поиска входят и такие параметры, которые с релевантностью никак не связаны. Например, скорость выдачи результатов поиска.

Обратная связь

Безусловно, постоянно изменяющаяся ситуация в области интернет-поиска не может не влиять на наши анализаторы. Зачастую приходится менять некоторые аспекты работы анализаторов, связанные с изменением поисковой выдачи, появлением в ней новых блоков (карты, конвертеры и т. п.), а иногда даже алгоритмы. Запросы многих анализаторов (в первую очередь тех, которые имеют отношение к актуальности поиска) проходят регулярную ручную проверку. Маркеры других проверяются автоматически в ежедневном режиме.

Тем не менее, мы не всегда успеваем увидеть ошибки раньше вас, поэтому будем признательны за сообщения о них. Если у вас есть идеи усовершенствования имеющихся или создания новых анализаторов, тоже пишите нам на info@analyzethis.ru.