Анализатор запросов-синонимов
Один и тот же вопрос можно задать десятком способов. Например, для пользователей запросы "как узнать адрес по номеру телефона", "поиск адреса по номеру телефона" и "найти адрес по номеру телефона" имеют одинаковый смысл, это запросы-синонимы.
Запросы-синонимы появляются по разным причинам:
- при использовании общепринятых сокращений – "погода в Санкт-Петербурге" и "погода в Спб"; - использовании транслитераций – "характеристики toyota camry" и "характеристики тойота камри"; - использовании разных падежей – "сценарий встречи Нового Года" и "сценарий встреча Новый Год"; - использовании перестановок слов – "ремонт АКПП", "АКПП ремонт"; - использовании жаргонизмов – "скачать мультфильмы", "скачать мультики"; - использовании слов, не несущих смысловой нагрузки – "быстрый интернет", "супер быстрый интернет"; - использовании синонимов слов, входящих в запрос – "грустные стихи", "печальные стихи". Поисковые системы в ответ на запрос должны подобрать наилучший набор ссылок. И, конечно, чаще всего в результатах поиска люди ожидают увидеть информацию, соответствующую смыслу, а не букве запроса. Из этого следует, что выдача в ответ на синонимичные запросы должна быть одинаковой, несмотря на то, что формулировки отличаются друг от друга. Анализатор поиска по запросам-синонимам проверяет, насколько совпадает выдача по разным запросам, имеющим одинаковое значение. Образно можно сказать, что анализатор в какой-то мере показывает способность поисковика "понимать" смысл запроса. В информере поисковые системы отсортированы по убыванию этого показателя. Все примеры, используемые в данном анализаторе, реальные, они получены с помощью сервиса статистики поисковых запросов "Рамблера" (http://adstat.rambler.ru/wrds/) Отметим, что мы не рассматриваем здесь варианты запросов с ошибками и опечатками. |
Анализатор спама в поисковой выдаче
Компания "Ашманов и партнеры" профессионально занимается изучением феномена поискового спама – приемов и технологий, ухудшающих качество поисковой выдачи и мешающих нормальной работе поисковых систем.
Поисковым спамом могут быть названы текст, ссылка, технология, программный код и иные элементы веба, созданные не для повышения удобства пользователей, целью которых является быстрый и легкий поиск полной, профессионально оформленной, достоверной информации, определяемой поисковым запросом. Но для которых точно известно, что причиной их создания является желание веб-мастера улучшить позиции продвигаемого сайта в результатах поиска. Эксперты регулярно просматривают Тор10 выдачи по выборке поисковых запросов, отмечая сайты, которые, с их точки зрения, содержат элементы поискового спама. Сводные данные выводятся на информер и показывают процент отмеченных экспертами сайтов от общего количества сайтов в Тор10 выдачи по анализируемым запросам. Источник информации о спам-статусе данного URL – собственные данные антиспам-лаборатории компании "Ашманов и Партнеры". Используются следующие категории поискового спама: * doorway – безусловный спам: дорвеи, увод пользователя к другим страницам, * spamcatalog – безусловный спам: спамерские каталоги, * spamcontent – безусловный спам: спамерский заимствованный контент, * pseudosite – безусловный спам: сайт, маскирующийся под корпоративный (псевдофирма), * catalog – каталоги, * board – доски объявлений, * domainsale – домены на продажу, * secondary – вторичный, заимствованный контент, * partner – любые партнерки, * linksite – сайт линкоподдержки, * spamforum – заспамленный форум, * techspam – технический спам, * searchres – результаты поиска Сводным показателем является доля спам-сайтов в поисковой выдаче. Лучшим является поисковик с наименьшим сводным показателем. Именно в таком порядке поисковики отсортированы в информере данного анализатора. [ Ссылка на коллекцию примеров поискового спама ] |
Анализатор наличия 'сайтов для взрослых' в поисковой выдаче
Этот анализатор работает в тестовом режиме, в настоящее время идет отладка детектора порнографии в текстах документов. Результаты могут быть некорректными.
Данный анализатор собирает результаты поиска по запросам, которые могут трактоваться как поиск порнографии определенной тематики, но эта трактовка не единственно возможная. Среди этих запросов нет таких, которые однозначно являются поиском порно. Например, запрос «колготки» может означать, что пользователь ищет магазин колготок, а может означать поиск соответствующего раздела порнографии. Для детектирования порнографии в поисковой выдаче используется технология «Семантическое Зеркало», разработанная нашей компанией. В данном анализаторе «контентом для взрослых» считается документ, который получил рубрику /Dosug/Adult или ее подрубрики. Для каждого поисковика среди всех его топ10 поиска вычисляется доля документов, отнесенных к этим рубрикам. Анализатор наличия «сайтов для взрослых» в поисковой выдаче не имеет «оценочной» составляющей. То есть, мы не утверждаем что поисковик с высокой долей порно в поисковой выдаче «плохой», «аморальный» и т.д. |
Анализатор переходов
Анализатор доли переходов с поисковых машин не является «качественным» анализатором, а отражает популярность и используемость поисковых машин. Для его построения используются данные счетчика Liveinternet.ru. Таким образом, учитываются переходы только на те сайты, на которых установлен счетчик Liveinternet.ru.
Данный анализатор отражает процентное соотношение переходов с поисковых машин на сайты Рунета. Используются данные статистики счётчика LiveInternet по переходам с поисковиков. Здесь необходимо сделать несколько поясняющих комментариев:
А. Здесь взят срез статистики счётчика LiveInternet по российским пользователям (то есть пользователям с российским адресом IP). Это сделано, чтобы отфильтровать шум, возникающий из-за так называемых idiot clicks, то есть случайных переходов западных пользователей из "больших" поисковых машин, таких как Гугл, MSN Live Search, Yahoo. Эти пользователи не являются настоящими пользователями поисковиков Рунета, но могут довольно сильно искажать статистику (так как западный Интернет большой и таких случайных пользователей много). Б. Принято считать эти цифры долями рынка поисковых машин, но это не вполне корректно. Дело в том, что: а) счётчик LiveInternet показывает переходы только на те сайты, на которых установлен счётчик. Некоторые крупные сайты не ставят счётчик, что может давать смещение статистики при экстраполяции на весь Рунет. б) точно неизвестно, что именно показывает процент переходов с поисковика, и как он связан с истинной популярностью поисковика. Можно предположить, что посещаемость поисковика и количество переходов с него коррелируют, но это только предположение. Вдруг, например, в "плохом" поисковике пользователь вынужден много раз щёлкнуть по результатом поиска, пока он найдёт нужный сайт, а в "хорошем" он находит нужный сайт с одного клика? Тогда "плохой" поисковик будет генерировать много переходов на одного пользователя, а "хороший" – только один переход. В общем, точно это соотношение популярности и переходов неизвестно, и именно поэтому мы назвали данный параметр техническим. Вероятно, сильное изменение процентной доли переходов (скажем, на 5-10 пунктов и более) может отражать реальное изменение посещаемости поисковика. Про малые флуктуации (1-2%) этого утверждать наверняка нельзя. В. Нужно не забывать, что эти цифры – не абсолютная посещаемость или количество переходов, а процентные доли (сумма которых постоянна и равна 100%). Именно это вызывает эффект ясно видимых на месячном графике зеркальных ям Яндекса и наведённых выступов Гугла: посещаемость Яндекса в выходные падает, а посещаемость Гугла, похоже, падает не так сильно (мы не знаем, почему). Поэтому оттого, что доля Яндекса велика, то из-за её падения пропорционально увеличивается процентная доля Гугла по выходным (ведь сумма долей всех поисковиков постоянна). У Рамблера же, очевидно, падение в выходные также ярко выражено, так что его процентная доля не подскакивает так, как у Гугла. Лучшим по данному анализатору считается поисковик с наибольшей долей переходов. Именно в таком порядке сверху вниз отсортированы поисковики в информере данного анализатора. |

