Общие характеристики
Интегральный показатель качества поиска
Для расчёта используются результаты всех анализаторов, оценивающих качество отдельных аспектов поиска (не учитываются анализаторы апдейтов и переходов: их результаты - не оценка, а информация).
Полученные значения умножаются на коэффициенты, отражающие наши представления о значимости соответствующего вида или функциональности поиска в интернет-поиске в целом. Значения коэффициентов по умолчанию можно найти - и поменять на свои - на соответствующей странице. После этого все значения суммируются и делятся на сумму коэффициентов, чтобы получить число от 1 до 100 — значение интегрального показателя качества поиска.
Анализатор апдейтов поисковых машин
Индикатор апдейтов вычисляется по формуле:
10
∑ Di/100
i=1
Для наглядности рассмотрим два примера:
Пример 1
В 1-й день по некоторому запросу Top10 имеет следующий вид:
С1, С2, С3, С4, С5, С6, С7, С8, С9, С10.
Во 2-й день по тому же запросу Top10 выглядит так:
Сн, С1, С2, С3, С4, С5, С6, С7, С8, С9.
Результат вычисления индикатора апдейта в этом случае:
((2-1)+(3-2)+(4-3)+ ... +(10-9)+10)/100 = 0.19 (19%)
Пример 2
В 1-й день по некоторому запросу Top10 имеет следующий вид:
С1, С2, С3, С4, С5, С6, С7, С8, С9, С10.
Во 2-й день по тому же запросу Top10 выглядит так:
Сн1, Сн2, Сн3, Сн4, Сн5, Сн6, Сн7, Сн8, Сн9, Сн10.
В этом случае индикатор апдейта равен:
10*10/100 = 1.00 (100%)
Кроме того, вычисляются дополнительные параметры – количество исчезнувших из поисковой выдачи сайтов и количество сайтов, изменивших позицию.
У данного анализатора нет оценочной характеристики. Результаты можно трактовать двояко: поисковик с частыми большими апдейтами можно считать более актуальным, часто обновляющим свои данные; поисковик с редкими апдейтами можно считать стабильным и предсказуемым. В информере данного анализатора поисковики отсортированы в порядке увеличения уровня апдейта сверху вниз.
Анализаторы навигационного поиска
Анализаторы этой группы оценивают навигационные аспекты поиска — то есть наличие на первой странице поисковой выдачи искомого сайта или страницы.
Навигационными называются запросы, направленные в первую очередь на поиск конкретного сайта, файла или страницы. Таковы запросы, содержащие названия компаний и организаций (например, [северсталь] или [мэрия краснодара]), печатных изданий и сайтов (например, [известия] или [башорг]), указывающие на конкретную страницу или раздел сайта (например, [салон моне ленинский 70]). Навигационными часто оказываются и запросы, связанные с именами или псевдонимами людей, имеющих персональные сайты или ведущих блоги (например, [антон носик] или [адагамов]).
Разумеется, навигационные запросы могут иметь и другие смыслы. Задавая запрос [мвд] или [виталий петров], пользователь может искать и независимую информацию о структуре или человеке — и всё-таки их официальные сайты, безусловно, должны присутствовать в выдаче поисковой машины, занимая там высокие позиции. При этом анализаторы данной группы позволяют переключаться между более строгими критериями (требуется, чтобы искомая страница была первой в результатах поиска, или по крайней мере чем выше, тем лучше) и менее строгими (достаточно попадания в «десятку», а позиция внутри нее не важна).
Анализатор качества навигационного поиска
Навигационным называется запрос, с помощью которого пользователь ищет определенный сайт. Таковы, например, запросы "сбербанк", "комсомольская правда", "рамблер", "газета ру" и т.п.
Лучшим результатом в ответ на навигационный запрос является искомый сайт (маркер) на первой позиции поисковой выдачи.
Для оценки качества навигационного поиска производится опрос поисковиков по 100 запросам, случайно выбираемым из общего массива навигационных запросов (более 600). Каждому запросу приписан один или несколько сайтов-маркеров. (Несколько сайтов-маркеров возникает обычно в тех случаях, когда сайт доступен по нескольким веб-адресам: может, например, открываться несколько зеркал одного и того же сайта, либо один из сайтов может осуществлять редирект на другой.)
В Топ-10 поисковой выдачи ищутся вхождения сайтов-маркеров. Если для запроса задано несколько маркеров — учитывается вхождение любого из них. Далее рассчитывается доля запросов, для которых на первой странице результатов поиска найден сайт-маркер. Эта доля (в процентах) и служит сводным показателем качества навигационного поиска.
Вторая метрика данного анализатора, с учетом позиции, учитывает не только наличие сайтов-маркеров в выдаче, но и их позицию. Поисковик получает за запрос единицу, если маркер найден на первом месте; 0,9, если на втором; ...; 0,1, если на десятом; 0, если маркеры вообще не найдены. Если вхождений маркеров несколько, учитывается только первое из них. Эти числа для всех запросов складываются, а потом делятся на общее количество запросов, по которым есть ответ от данного поисковика. Оценка с учетом позиции отличается от оценки без учета позиции тем меньше, чем выше в среднем находятся в поисковой выдаче эталонные сайты.
Анализатор качества поиска персон
Анализатор качества поиска персон входит в линейку анализаторов, проверяющих качество поиска по навигационным запросам.
Запросы, содержащие имя и фамилию, нередко задаются именно как навигационные — пользователя в первую очередь интересует конкретный сайт (официальный персональный сайт того лица, о котором он спрашивает).
Впрочем, даже если пользователь не знает, есть ли у интересующей его персоны персональный сайт, попадание такого сайта (если уж он существует) в «десятку» весьма желательно.
Подбирая запросы для анализатора качества поиска персон, мы постарались, чтобы в него вошли не только сайты «звезд» (актеров, певцов, лиц с телеэкрана), но и сайты людей, известных в какой-либо более узкой области — ученых, фотографов, психологов и т.п.
Анализаторы информационного поиска
Информационные запросы — самая большая и расплывчатая группа запросов, связанная с поиском информации в широком смысле слова. Охватить ее целиком практически невозможно, но мы постарались проанализировать различные аспекты информационного поиска.
Среди них — цитатный поиск (Цитаты, Крылатые слова, отчасти Оригиналы), поиск ответов на вопросы. Очень важно, в какой мере поисковые машины умеют (и хотят) отличать первоисточник от перепечаток и подражаний — этот вопрос исследует анализатор оригиналов.
Мы планируем расширить спектр исследуемых аспектов информационного поиска. Впрочем, и сейчас он шире, чем может показаться, т. к. прямое отношение к информационному поиску имеет ряд анализаторов в других группах. Так, именно с «непониманием» информационных запросов обычно связаны ошибки поисковых машин. Запросы, которые легли в основу некоторых анализаторов актуальности, тоже информационные. И, разумеется, информационные запросы преобладают в асессорском анализаторе — поскольку они преобладают в поиске вообще.
Анализатор качества поиска цитат
Цитатный поиск — это поиск текста по заданному фрагменту.
Пользователь, задавший такой запрос, вероятнее всего, хочет найти происхождение цитаты — то есть либо увидеть произведение, из которого она взята (в таком случае на найденной странице будет представлен достаточно широкий оригинальный контекст цитаты, что и проверяется анализатором), либо хотя бы узнать автора и название этого произведения.
Анализатор задает поисковым машинам 100 запросов, представляющих собой достаточно длинные цитаты из произведений, опубликованных в Сети. Для каждой поисковой машины подсчитывается процент результатов поиска, в которых на найденной странице а) представлен более обширный фрагмент искомого произведения или б) упомянуты автор и название произведения.
Позиции найденных страниц в результатах поиска не учитываются. Неважно также (в отличие от анализатора оригиналов, где отслеживается приоритет источника), на каком из сайтов искомый текст был опубликован впервые.
Анализатор качества поиска крылатых слов
Данный анализатор собирает результаты поиска по запросам, содержащим крылатые слова — то есть устойчивые словосочетания, которые вошли в язык из литературных источников и получили широкое распространение.
Например, задавая запрос [контора пишет], пользователь, скорее всего, ищет либо толкование этого выражения, либо его происхождение (текст-источник и его автора). А результатом поиска по подобным запросам часто является множество случаев цитирования выражения, что вряд ли оправдывает ожидания пользователя.
Анализатор задает поисковым машинам по 100 запросов, содержащих крылатые выражения, происхождение которых известно. Для каждой из них вычисляется процент результатов поиска, содержащих а) фрагмент произведения, где выражение было употреблено впервые (иногда несколько вариантов такого фрагмента) или б) автора и название оригинального произведения. Позиции ответов в результатах поиска не учитываются.
Анализатор качества поиска ответов
Этот анализатор проверяет, насколько хорошо поисковые машины умеют находить ответы на вопросы как явные (содержащие вопросительное слово, например, [В каком году ЦСКА завоевал кубок УЕФА?], [Где добывают уран в России?]), так и подразумеваемые (имеющие вид утверждения со значением вопроса, например, [Автор книг Девятые врата], [Общая высота водопада Анхель]).
Когда пользователь вводит запрос, содержащий явный или неявный вопрос, он, скорее всего, просто ищет ответ. Чем быстрее он его увидит, тем лучше; в идеале ответ должен содержаться прямо на странице результатов поиска, в первом же снипете.
Однако, данный анализатор оценивает поисковые машины четырьмя способами, отличающимися по степени «строгости». В связи с этим у анализатора четыре вкладки:
1. Позиции ответов в снипетах
Поисковая машина получает за запрос единицу, если ответ содержится в снипете в первом по порядку результате поиска, 0,9 если во втором, 0,8 если в третьем, и так далее. Если ответ встретился в десятом снипете результата поиска, поисковая машина получает 0,1; если вообще не встретился в снипетах первой десятки результатов ноль.
2. Ответы в снипетах
Поисковая машина получает за запрос единицу, если ответ на вопрос содержится хотя бы в одном из снипетов первой страницы выдачи, и ноль в противном случае.
3. Позиции ответов на сайтах
Поисковая машина получает за запрос от 1 до 0,1, в зависимости от того, на какой по счёту странице из первой десятки результатов поиска найден ответ на вопрос.
4. Ответы на сайтах
Поисковая машина получает за запрос единицу, если ответ на запрос содержится хотя бы на одной из найденных веб-страниц, попавших в первую десятку результатов поиска.
Для вопроса могут считаться правильными несколько вариантов ответа. Например, [Самый длинный световой день в году] 21 июня / 21.06 / летнее солнцестояние.
Анализатор поиска оригиналов: новости
В интернете, к сожалению, широко распространено незаконное копирование информации. С воровством сталкивался любой автор: спустя дни, а то и часы после выкладывания на сайт свежей статьи ее текст может появиться на ресурсах, не имеющих разрешения на републикацию. Укравшие информацию обычно говорят, что она «взята из открытых источников». Либо объясняют: статья размещена кем-то из пользователей, за действия которого владелец сайта ответственности не несет. Используя чужой контент, можно получать посетителей из результатов поиска и конвертировать этот трафик в деньги. Что, собственно, и является главным экономическим мотивом «заимствования». Поэтому очень важны способность поисковых систем отличать оригинальные материалы от копий, и умение ссылки на оригиналы в результатах поиска размещать всегда выше.
Анализатор поиска оригиналов ежедневно проверяет по точной цитате позиции ста статей-маркеров, для которых известны адреса, где они находятся на законных основаниях. Подсчитывается количество запросов, для которых данный поисковик дает ссылку на оригинал документа выше, чем ссылки на его перепечатки.
По умолчанию, анализатор оценивает запросы-цитаты из искомых статей, заданные в кавычках. Хотя такие запросы редко задают пользователи, по ним с большой вероятностью будет находиться именно статья-маркер и ее копии. На дополнительной вкладке можно оценить поиск оригиналов по тем же запросам, заданным без кавычек.
В информере анализатора поисковые системы отсортированы по убыванию способности находить оригинальные источники.
Анализаторы полноты и разнообразия
Поскольку интернет-поиском пользуются для самых разных целей, одним из важнейших критериев его качества является возможность нахождения содержательного ответа на самые разнообразные запросы. Для этого поисковая машина должна обладать большим охватом и уметь широко трактовать запросы.
Анализаторы этой группы исследуют оба указанных аспекта работы поисковиков: оцениваются как количественные параметры выдачи, так и её разнообразие в случаях недостаточно узких запросов. Для того чтобы оценки анализаторов соответствовали действительности, полнота и широта нашей базы маркеров, которая здесь является в некотором смысле эталоном, регулярно контролируется.
Стоит отметить, что поскольку информация, которую нельзя найти в поисковиках, в некотором смысле является недоступной, в анализаторах этой группы относительные результаты поисковых машин представляют никак не меньший интерес, чем абсолютные значения.
Анализатор полноты индексов
Для качества поиска довольно важно, насколько полно индексируется Интернет поисковой машиной. Если поисковая база поисковика маленькая, то часть веб-страниц могут оказаться вообще недоступными через данный поисковик.
Конечно, по большинству частотных и среднечастотных запросов любая поисковая машина гарантированно выдаст вам десятки или сотни тысяч результатов. При этом, однако, реальный размер базы у разных поисковиков может отличаться в несколько раз.
Как понять истинный размер базы? Это непросто и вот почему:
а) Нельзя доверять декларации поисковиков "всего найдено N документов", поскольку у каждого поисковика количество найденного подсчитывается по-своему. Кто-то считает только документы, где есть все заданные в запросе слова, а кто-то дописывает в "хвост" вообще все документы. где встретилось хотя бы одно слово из запроса. Поисковики любят мериться мускулами и не чужды маркетинговых трюков.
б) Более того, в действительности ни один поисковик никогда не покажет вам все заявленные 10 000 результатов. Листая результаты поиска, Вы сможете увидеть десятки, в лучшем случае сотни страниц результатов поиска, после чего вас так или иначе отключат.
Таким образом, можно быть уверенным, что мы знаем истинное количество страниц в Интернете с данным словом, только когда результатов – максимум сотня-другая.
в) доверять декларации поисковика о том, что им заиндексировано M миллиардов документов – тоже нельзя, потому что, опять-таки способ подсчёта неизвестен (считаются ли дубли, например, и какие именно), а также потому, что может оказаться, что половина Рунета всё-таки оказалась вне этих условных M миллиардов страниц и не попала в индекс вообще.
Поэтому мы выбрали наиболее простой и надёжный способ анализа полноты поисковой базы по редким запросам.
Редкими здесь мы называем запросы, которые встречаются в Интернете всего несколько десятков раз. Впрочем, обычно такие запросы – редкие и в смысле частоты поиска их в поисковиках, поскольку если запрос – частотный, то под него моментально подстраиваются спамеры, производя множество фальшивых страниц с этим словом или словосочетанием.
Итак, мы построили набор редких запросов, по каждому из которых поисковики выдают не более нескольких десятков результатов. И проверяем "окраины Интернета" на предмет того, видит ли их каждая из поисковых машин. Анализатор раз в сутки проверяет все поисковики на предмет того, сколько страниц найдёно каждым поисковиком по каждому запросу.
После чего вычисляется показатель полноты базы по следующей формуле: Проводится поиск по запросу во всех сравниваемых поисковых машинах. Для машины, в которой найдено максимальное число страниц, полнота считается равной 1, для остальных – определяется пропорционально. Затем полнота усредняется по множеству специфических запросов. Это и есть значение анализатора полноты.
Мы постоянно пополняем список запросов-маркеров, стараясь охватить все "окраины Интернета". Если вам кажется, что есть ещё какие-то редкие слова и словосочетания, которые стоит включить в базу маркеров – присылайте их нам.
Анализаторы понимания запроса
О понимании запроса поисковиком можно говорить, конечно, только условно. И тем не менее, пользователи уже привыкли, что поисковые машины подходят к их запросам «творчески» — подсказывают варианты запроса, не дожидаясь окончания ввода; когда надо, исправляют опечатки; уточняют и расширяют запросы; пытаются угадать цели пользователя и отранжировать в соответствии с ними результаты поиска, и т. п.
Имеющиеся на данный момент анализаторы этой группы оценивают достаточно простые умения поисковиков — исправлять опечатки, давать подсказки, расширять запрос синонимами.
О более тонких поисковых технологиях, связанных с интерпретацией запроса, нечетким поиском и т. п., анализаторы пока позволяют судить лишь косвенно — по ошибкам, которые возникают, когда понимание запроса оказывается обманчивым (таких анализаторов уже несколько, и они выделены в отдельную группу). Впрочем, как раз ошибки нагляднее всего показывают, как поисковики научились работать с запросами. Мы просто не замечаем «уловок» поисковиков, когда они срабатывают корректно — а ошибки обнажают прием и делают его заметным.
Анализатор качества подсказок
Большинство поисковых машин, заподозрив при вводе поискового запроса опечатку, пытаются предложить пользователю правильное (по мнению поисковика) написание запроса. Качество подсказок является важным дополнением к общему качеству поиска.
В данном анализаторе ищется правильная подсказка в поисковой выдаче по запросу с заведомой опечаткой и оценивается количество случаев, когда подсказка содержит "правильную" форму запроса.
Оценка производится по тем же группам запросов с опечатками что и в анализаторе устойчивости к опечаткам. Чем больше правильных подсказок было дано, тем выше показатель данного поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.
Анализатор устойчивости к опечаткам
Человек – не робот и может ошибиться. В том числе и при вводе поискового запроса в поисковую строку поисковой машины. Он может просто допустить опечатку, введя соседний символ (и тогда вместо "запрос" получится "звпрос"), он может по ошибке ввести символ дважды или пропустить вовсе (и тогда вместо "запрос" получится "зпрос" или "заппрос"), наконец, он может не знать правильного написания слова и ввести его "как слышится" (и тогда вместо "яндекс" получится "яндыкс").
Поисковик в этом случае может придерживаться одной из трех стратегий:
1) никак не обрабатывать эти случаи и искать строго то что ввел пользователь
2) понять что имела место опечатка, тем не менее найти то что введено и рядом предложить правильную по мнению поисковой машины форму – "возможно, вы имели ввиду [правильное написание запроса]"
3) понять что имела место опечатка, не искать ошибочное написание а сразу искать правильную форму
В зависимости от выбранной стратегии, пользователь либо не увидит что он ошибся при написании, либо увидит это и сделает лишний клик (если захочет), либо даже не догадается о собственной опечатке.
В данном анализаторе сравнивается поисковая выдача по "правильному запросу" и по нескольким формам возможных его опечаток. Оценивается степень близости поисковой выдачи по запросу с опечаткой к выдаче по "правильному" запросу
Кроме сознательного исправления опечаток, совпадения могут возникать в четырех случаях:
1) случайно
3) страница содержит как правильную форму, так и форму с опечаткой
4) ложное срабатывание морфологии поисковика (например, приведение неизвестного поисковику слова "гриби", которое есть опечатка слова "грибы" к слову "гриб")
5) продвижение одних и тех же сайтов как по запросам в правильном ниписании, так и по запросам с опечатками
Все эти случаи в рамках данного анализатора дают шум – случайное совпадение результатов.
Степень близости оценивается аналогично тому как это делается в анализаторе апдейтов, только сравниваются другие запросы.
Чем большее совпадение результатов зафиксировано, тем выше результат поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.
В дальнейшем будет введена ротация групп запросов с опечатками из большого массива групп.
Анализаторы раздражающих факторов
Как бы хорошо ни работал поисковик, есть детали, которые могут сильно испортить пользователю впечатление от качественных результатов и заметно повлиять на его лояльность сервису. К таким, безусловно, относятся опасности заражения вирусами, раздражающие рекламные баннеры и т.п.
Конечно, количество рекламы или опасных скриптов на сайтах не зависит от поисковиков. Однако концентрация нежелательного содержимого в поисковой выдаче – полностью в их компетенции. Соответственно, в их интересах ранжировать сайты с большим количеством раздражающих факторов заметно ниже качественных и безопасных.
В большинстве анализаторов этой группы применяются специальные технологии, разработанные в компании Ашманов и партнеры для обнаружения рекламы, порнографии, вирусов и т.п. А для большей наглядности результатов маркеры подобраны так, чтобы вероятность появления в выдаче нежелательных элементов была выше обычного.
Анализатор спама в поисковой выдаче
Компания "Ашманов и партнеры" профессионально занимается изучением феномена поискового спама – приемов и технологий, ухудшающих качество поисковой выдачи и мешающих нормальной работе поисковых систем.
Поисковым спамом могут быть названы текст, ссылка, технология, программный код и иные элементы веба, созданные не для повышения удобства пользователей, целью которых является быстрый и легкий поиск полной, профессионально оформленной, достоверной информации, определяемой поисковым запросом. Но для которых точно известно, что причиной их создания является желание веб-мастера улучшить позиции продвигаемого сайта в результатах поиска.
Эксперты регулярно просматривают Тор10 выдачи по выборке поисковых запросов, отмечая сайты, которые, с их точки зрения, содержат элементы поискового спама. Сводные данные выводятся на информер и показывают процент отмеченных экспертами сайтов от общего количества сайтов в Тор10 выдачи по анализируемым запросам.
Источник информации о спам-статусе данного URL – собственные данные антиспам-лаборатории компании "Ашманов и Партнеры". Используются следующие категории поискового спама:
* doorway – безусловный спам: дорвеи, увод пользователя к другим страницам,
* spamcatalog – безусловный спам: спамерские каталоги,
* spamcontent – безусловный спам: спамерский заимствованный контент,
* pseudosite – безусловный спам: сайт, маскирующийся под корпоративный (псевдофирма),
* catalog – каталоги,
* board – доски объявлений,
* domainsale – домены на продажу,
* secondary – вторичный, заимствованный контент,
* partner – любые партнерки,
* linksite – сайт линкоподдержки,
* spamforum – заспамленный форум,
* techspam – технический спам,
* searchres – результаты поиска
* cj – порно-галереи, перебрасывающие на другие подобные сайты
Сводным показателем является доля спам-сайтов в поисковой выдаче. Лучшим является поисковик с наименьшим сводным показателем. Именно в таком порядке поисковики отсортированы в информере данного анализатора.
Анализатор наличия 'сайтов для взрослых' в поисковой выдаче
Данный анализатор собирает результаты поиска по запросам, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары, – в том числе и детьми.
Например, пользователь, задавший запрос [колготки], может искать как магазины чулочно-носочных изделий, так и порнографию соответствующего жанра.
Выдавая по подобным запросам порноссылки, поисковики рискуют показать их пользователям, которые ничего «такого» в виду не имели, в том числе и несовершеннолетним.
Мы не утверждаем, что поисковик, находящий порно по порнозапросам, плохой или аморальный, но считаем, что выдача «откровенных» материалов по «обычным» запросам нежелательна.
Для детектирования эротики и порнографии в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Для каждого поисковика вычисляется доля в первой десятке результатов поиска страниц, отнесенных к рубрике «Эротика и секс».
Анализатор качества семейного фильтра
Семейный фильтр — это настройки поисковой системы, препятствующие попаданию в результаты поиска сайтов «для взрослых». Такую возможность предлагает большинство поисковиков. Но насколько эффективна фильтрация?
В данном анализаторе мы рассматриваем запросы, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары — в том числе и детьми. Что будет, если задать поисковикам такие «двусмысленные» запросы при включенном семейном фильтре? Будут ли в этом случае отфильтрованы порносайты и эротика?
В этом анализаторе запросы те же, что и в анализаторе «сайтов для взрослых», но при этом в поисковых системах (везде, где предусмотрена такая возможность) включен семейный фильтр. В идеале результаты поиска вообще не должны содержать сайтов «для взрослых». Если такие сайты в выдачу всё-таки попадают, это (тут можно сказать однозначно!) очень плохо: поисковик не выполняет данного пользователю обещания защитить его от порноконтента.
Кроме того, найденные страницы не должны содержать нецензурной брани — таково требование закона. Результаты, содержащие матерную лексику, помечаются розовым цветом и также учитываются как нежелательные.
Для детектирования эротики и порнографии, а также нецензурной брани в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Как и в анализаторе «сайтов для взрослых», для каждого поисковика вычисляется доля страниц, на которых был обнаружен порнографический контент, в первой десятке результатов поиска.
Разумеется, навигационные запросы могут иметь и другие смыслы. Задавая запрос [мвд] или [виталий петров], пользователь может искать и независимую информацию о структуре или человеке — и всё-таки их официальные сайты, безусловно, должны присутствовать в выдаче поисковой машины, занимая там высокие позиции. При этом анализаторы данной группы позволяют переключаться между более строгими критериями (требуется, чтобы искомая страница была первой в результатах поиска, или по крайней мере чем выше, тем лучше) и менее строгими (достаточно попадания в «десятку», а позиция внутри нее не важна).
Лучшим результатом в ответ на навигационный запрос является искомый сайт (маркер) на первой позиции поисковой выдачи.
В Топ-10 поисковой выдачи ищутся вхождения сайтов-маркеров. Если для запроса задано несколько маркеров — учитывается вхождение любого из них. Далее рассчитывается доля запросов, для которых на первой странице результатов поиска найден сайт-маркер. Эта доля (в процентах) и служит сводным показателем качества навигационного поиска.
Вторая метрика данного анализатора, с учетом позиции, учитывает не только наличие сайтов-маркеров в выдаче, но и их позицию. Поисковик получает за запрос единицу, если маркер найден на первом месте; 0,9, если на втором; ...; 0,1, если на десятом; 0, если маркеры вообще не найдены. Если вхождений маркеров несколько, учитывается только первое из них. Эти числа для всех запросов складываются, а потом делятся на общее количество запросов, по которым есть ответ от данного поисковика. Оценка с учетом позиции отличается от оценки без учета позиции тем меньше, чем выше в среднем находятся в поисковой выдаче эталонные сайты.
Анализатор качества поиска персон
Анализатор качества поиска персон входит в линейку анализаторов, проверяющих качество поиска по навигационным запросам.
Запросы, содержащие имя и фамилию, нередко задаются именно как навигационные — пользователя в первую очередь интересует конкретный сайт (официальный персональный сайт того лица, о котором он спрашивает).
Впрочем, даже если пользователь не знает, есть ли у интересующей его персоны персональный сайт, попадание такого сайта (если уж он существует) в «десятку» весьма желательно.
Подбирая запросы для анализатора качества поиска персон, мы постарались, чтобы в него вошли не только сайты «звезд» (актеров, певцов, лиц с телеэкрана), но и сайты людей, известных в какой-либо более узкой области — ученых, фотографов, психологов и т.п.
Анализаторы информационного поиска
Впрочем, даже если пользователь не знает, есть ли у интересующей его персоны персональный сайт, попадание такого сайта (если уж он существует) в «десятку» весьма желательно.
Подбирая запросы для анализатора качества поиска персон, мы постарались, чтобы в него вошли не только сайты «звезд» (актеров, певцов, лиц с телеэкрана), но и сайты людей, известных в какой-либо более узкой области — ученых, фотографов, психологов и т.п.
Мы планируем расширить спектр исследуемых аспектов информационного поиска. Впрочем, и сейчас он шире, чем может показаться, т. к. прямое отношение к информационному поиску имеет ряд анализаторов в других группах. Так, именно с «непониманием» информационных запросов обычно связаны ошибки поисковых машин. Запросы, которые легли в основу некоторых анализаторов актуальности, тоже информационные. И, разумеется, информационные запросы преобладают в асессорском анализаторе — поскольку они преобладают в поиске вообще.
Анализатор качества поиска цитат
Цитатный поиск — это поиск текста по заданному фрагменту.
Пользователь, задавший такой запрос, вероятнее всего, хочет найти происхождение цитаты — то есть либо увидеть произведение, из которого она взята (в таком случае на найденной странице будет представлен достаточно широкий оригинальный контекст цитаты, что и проверяется анализатором), либо хотя бы узнать автора и название этого произведения.
Анализатор задает поисковым машинам 100 запросов, представляющих собой достаточно длинные цитаты из произведений, опубликованных в Сети. Для каждой поисковой машины подсчитывается процент результатов поиска, в которых на найденной странице а) представлен более обширный фрагмент искомого произведения или б) упомянуты автор и название произведения.
Позиции найденных страниц в результатах поиска не учитываются. Неважно также (в отличие от анализатора оригиналов, где отслеживается приоритет источника), на каком из сайтов искомый текст был опубликован впервые.
Анализатор качества поиска крылатых слов
Данный анализатор собирает результаты поиска по запросам, содержащим крылатые слова — то есть устойчивые словосочетания, которые вошли в язык из литературных источников и получили широкое распространение.
Например, задавая запрос [контора пишет], пользователь, скорее всего, ищет либо толкование этого выражения, либо его происхождение (текст-источник и его автора). А результатом поиска по подобным запросам часто является множество случаев цитирования выражения, что вряд ли оправдывает ожидания пользователя.
Анализатор задает поисковым машинам по 100 запросов, содержащих крылатые выражения, происхождение которых известно. Для каждой из них вычисляется процент результатов поиска, содержащих а) фрагмент произведения, где выражение было употреблено впервые (иногда несколько вариантов такого фрагмента) или б) автора и название оригинального произведения. Позиции ответов в результатах поиска не учитываются.
Анализатор качества поиска ответов
Этот анализатор проверяет, насколько хорошо поисковые машины умеют находить ответы на вопросы как явные (содержащие вопросительное слово, например, [В каком году ЦСКА завоевал кубок УЕФА?], [Где добывают уран в России?]), так и подразумеваемые (имеющие вид утверждения со значением вопроса, например, [Автор книг Девятые врата], [Общая высота водопада Анхель]).
Когда пользователь вводит запрос, содержащий явный или неявный вопрос, он, скорее всего, просто ищет ответ. Чем быстрее он его увидит, тем лучше; в идеале ответ должен содержаться прямо на странице результатов поиска, в первом же снипете.
Однако, данный анализатор оценивает поисковые машины четырьмя способами, отличающимися по степени «строгости». В связи с этим у анализатора четыре вкладки:
1. Позиции ответов в снипетах
Поисковая машина получает за запрос единицу, если ответ содержится в снипете в первом по порядку результате поиска, 0,9 если во втором, 0,8 если в третьем, и так далее. Если ответ встретился в десятом снипете результата поиска, поисковая машина получает 0,1; если вообще не встретился в снипетах первой десятки результатов ноль.
2. Ответы в снипетах
Поисковая машина получает за запрос единицу, если ответ на вопрос содержится хотя бы в одном из снипетов первой страницы выдачи, и ноль в противном случае.
3. Позиции ответов на сайтах
Поисковая машина получает за запрос от 1 до 0,1, в зависимости от того, на какой по счёту странице из первой десятки результатов поиска найден ответ на вопрос.
4. Ответы на сайтах
Поисковая машина получает за запрос единицу, если ответ на запрос содержится хотя бы на одной из найденных веб-страниц, попавших в первую десятку результатов поиска.
Для вопроса могут считаться правильными несколько вариантов ответа. Например, [Самый длинный световой день в году] 21 июня / 21.06 / летнее солнцестояние.
Анализатор поиска оригиналов: новости
В интернете, к сожалению, широко распространено незаконное копирование информации. С воровством сталкивался любой автор: спустя дни, а то и часы после выкладывания на сайт свежей статьи ее текст может появиться на ресурсах, не имеющих разрешения на републикацию. Укравшие информацию обычно говорят, что она «взята из открытых источников». Либо объясняют: статья размещена кем-то из пользователей, за действия которого владелец сайта ответственности не несет. Используя чужой контент, можно получать посетителей из результатов поиска и конвертировать этот трафик в деньги. Что, собственно, и является главным экономическим мотивом «заимствования». Поэтому очень важны способность поисковых систем отличать оригинальные материалы от копий, и умение ссылки на оригиналы в результатах поиска размещать всегда выше.
Анализатор поиска оригиналов ежедневно проверяет по точной цитате позиции ста статей-маркеров, для которых известны адреса, где они находятся на законных основаниях. Подсчитывается количество запросов, для которых данный поисковик дает ссылку на оригинал документа выше, чем ссылки на его перепечатки.
По умолчанию, анализатор оценивает запросы-цитаты из искомых статей, заданные в кавычках. Хотя такие запросы редко задают пользователи, по ним с большой вероятностью будет находиться именно статья-маркер и ее копии. На дополнительной вкладке можно оценить поиск оригиналов по тем же запросам, заданным без кавычек.
В информере анализатора поисковые системы отсортированы по убыванию способности находить оригинальные источники.
Анализаторы полноты и разнообразия
Поскольку интернет-поиском пользуются для самых разных целей, одним из важнейших критериев его качества является возможность нахождения содержательного ответа на самые разнообразные запросы. Для этого поисковая машина должна обладать большим охватом и уметь широко трактовать запросы.
Анализаторы этой группы исследуют оба указанных аспекта работы поисковиков: оцениваются как количественные параметры выдачи, так и её разнообразие в случаях недостаточно узких запросов. Для того чтобы оценки анализаторов соответствовали действительности, полнота и широта нашей базы маркеров, которая здесь является в некотором смысле эталоном, регулярно контролируется.
Стоит отметить, что поскольку информация, которую нельзя найти в поисковиках, в некотором смысле является недоступной, в анализаторах этой группы относительные результаты поисковых машин представляют никак не меньший интерес, чем абсолютные значения.
Анализатор полноты индексов
Для качества поиска довольно важно, насколько полно индексируется Интернет поисковой машиной. Если поисковая база поисковика маленькая, то часть веб-страниц могут оказаться вообще недоступными через данный поисковик.
Конечно, по большинству частотных и среднечастотных запросов любая поисковая машина гарантированно выдаст вам десятки или сотни тысяч результатов. При этом, однако, реальный размер базы у разных поисковиков может отличаться в несколько раз.
Как понять истинный размер базы? Это непросто и вот почему:
а) Нельзя доверять декларации поисковиков "всего найдено N документов", поскольку у каждого поисковика количество найденного подсчитывается по-своему. Кто-то считает только документы, где есть все заданные в запросе слова, а кто-то дописывает в "хвост" вообще все документы. где встретилось хотя бы одно слово из запроса. Поисковики любят мериться мускулами и не чужды маркетинговых трюков.
б) Более того, в действительности ни один поисковик никогда не покажет вам все заявленные 10 000 результатов. Листая результаты поиска, Вы сможете увидеть десятки, в лучшем случае сотни страниц результатов поиска, после чего вас так или иначе отключат.
Таким образом, можно быть уверенным, что мы знаем истинное количество страниц в Интернете с данным словом, только когда результатов – максимум сотня-другая.
в) доверять декларации поисковика о том, что им заиндексировано M миллиардов документов – тоже нельзя, потому что, опять-таки способ подсчёта неизвестен (считаются ли дубли, например, и какие именно), а также потому, что может оказаться, что половина Рунета всё-таки оказалась вне этих условных M миллиардов страниц и не попала в индекс вообще.
Поэтому мы выбрали наиболее простой и надёжный способ анализа полноты поисковой базы по редким запросам.
Редкими здесь мы называем запросы, которые встречаются в Интернете всего несколько десятков раз. Впрочем, обычно такие запросы – редкие и в смысле частоты поиска их в поисковиках, поскольку если запрос – частотный, то под него моментально подстраиваются спамеры, производя множество фальшивых страниц с этим словом или словосочетанием.
Итак, мы построили набор редких запросов, по каждому из которых поисковики выдают не более нескольких десятков результатов. И проверяем "окраины Интернета" на предмет того, видит ли их каждая из поисковых машин. Анализатор раз в сутки проверяет все поисковики на предмет того, сколько страниц найдёно каждым поисковиком по каждому запросу.
После чего вычисляется показатель полноты базы по следующей формуле: Проводится поиск по запросу во всех сравниваемых поисковых машинах. Для машины, в которой найдено максимальное число страниц, полнота считается равной 1, для остальных – определяется пропорционально. Затем полнота усредняется по множеству специфических запросов. Это и есть значение анализатора полноты.
Мы постоянно пополняем список запросов-маркеров, стараясь охватить все "окраины Интернета". Если вам кажется, что есть ещё какие-то редкие слова и словосочетания, которые стоит включить в базу маркеров – присылайте их нам.
Анализаторы понимания запроса
О понимании запроса поисковиком можно говорить, конечно, только условно. И тем не менее, пользователи уже привыкли, что поисковые машины подходят к их запросам «творчески» — подсказывают варианты запроса, не дожидаясь окончания ввода; когда надо, исправляют опечатки; уточняют и расширяют запросы; пытаются угадать цели пользователя и отранжировать в соответствии с ними результаты поиска, и т. п.
Имеющиеся на данный момент анализаторы этой группы оценивают достаточно простые умения поисковиков — исправлять опечатки, давать подсказки, расширять запрос синонимами.
О более тонких поисковых технологиях, связанных с интерпретацией запроса, нечетким поиском и т. п., анализаторы пока позволяют судить лишь косвенно — по ошибкам, которые возникают, когда понимание запроса оказывается обманчивым (таких анализаторов уже несколько, и они выделены в отдельную группу). Впрочем, как раз ошибки нагляднее всего показывают, как поисковики научились работать с запросами. Мы просто не замечаем «уловок» поисковиков, когда они срабатывают корректно — а ошибки обнажают прием и делают его заметным.
Анализатор качества подсказок
Большинство поисковых машин, заподозрив при вводе поискового запроса опечатку, пытаются предложить пользователю правильное (по мнению поисковика) написание запроса. Качество подсказок является важным дополнением к общему качеству поиска.
В данном анализаторе ищется правильная подсказка в поисковой выдаче по запросу с заведомой опечаткой и оценивается количество случаев, когда подсказка содержит "правильную" форму запроса.
Оценка производится по тем же группам запросов с опечатками что и в анализаторе устойчивости к опечаткам. Чем больше правильных подсказок было дано, тем выше показатель данного поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.
Анализатор устойчивости к опечаткам
Человек – не робот и может ошибиться. В том числе и при вводе поискового запроса в поисковую строку поисковой машины. Он может просто допустить опечатку, введя соседний символ (и тогда вместо "запрос" получится "звпрос"), он может по ошибке ввести символ дважды или пропустить вовсе (и тогда вместо "запрос" получится "зпрос" или "заппрос"), наконец, он может не знать правильного написания слова и ввести его "как слышится" (и тогда вместо "яндекс" получится "яндыкс").
Поисковик в этом случае может придерживаться одной из трех стратегий:
1) никак не обрабатывать эти случаи и искать строго то что ввел пользователь
2) понять что имела место опечатка, тем не менее найти то что введено и рядом предложить правильную по мнению поисковой машины форму – "возможно, вы имели ввиду [правильное написание запроса]"
3) понять что имела место опечатка, не искать ошибочное написание а сразу искать правильную форму
В зависимости от выбранной стратегии, пользователь либо не увидит что он ошибся при написании, либо увидит это и сделает лишний клик (если захочет), либо даже не догадается о собственной опечатке.
В данном анализаторе сравнивается поисковая выдача по "правильному запросу" и по нескольким формам возможных его опечаток. Оценивается степень близости поисковой выдачи по запросу с опечаткой к выдаче по "правильному" запросу
Кроме сознательного исправления опечаток, совпадения могут возникать в четырех случаях:
1) случайно
3) страница содержит как правильную форму, так и форму с опечаткой
4) ложное срабатывание морфологии поисковика (например, приведение неизвестного поисковику слова "гриби", которое есть опечатка слова "грибы" к слову "гриб")
5) продвижение одних и тех же сайтов как по запросам в правильном ниписании, так и по запросам с опечатками
Все эти случаи в рамках данного анализатора дают шум – случайное совпадение результатов.
Степень близости оценивается аналогично тому как это делается в анализаторе апдейтов, только сравниваются другие запросы.
Чем большее совпадение результатов зафиксировано, тем выше результат поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.
В дальнейшем будет введена ротация групп запросов с опечатками из большого массива групп.
Анализаторы раздражающих факторов
Как бы хорошо ни работал поисковик, есть детали, которые могут сильно испортить пользователю впечатление от качественных результатов и заметно повлиять на его лояльность сервису. К таким, безусловно, относятся опасности заражения вирусами, раздражающие рекламные баннеры и т.п.
Конечно, количество рекламы или опасных скриптов на сайтах не зависит от поисковиков. Однако концентрация нежелательного содержимого в поисковой выдаче – полностью в их компетенции. Соответственно, в их интересах ранжировать сайты с большим количеством раздражающих факторов заметно ниже качественных и безопасных.
В большинстве анализаторов этой группы применяются специальные технологии, разработанные в компании Ашманов и партнеры для обнаружения рекламы, порнографии, вирусов и т.п. А для большей наглядности результатов маркеры подобраны так, чтобы вероятность появления в выдаче нежелательных элементов была выше обычного.
Анализатор спама в поисковой выдаче
Компания "Ашманов и партнеры" профессионально занимается изучением феномена поискового спама – приемов и технологий, ухудшающих качество поисковой выдачи и мешающих нормальной работе поисковых систем.
Поисковым спамом могут быть названы текст, ссылка, технология, программный код и иные элементы веба, созданные не для повышения удобства пользователей, целью которых является быстрый и легкий поиск полной, профессионально оформленной, достоверной информации, определяемой поисковым запросом. Но для которых точно известно, что причиной их создания является желание веб-мастера улучшить позиции продвигаемого сайта в результатах поиска.
Эксперты регулярно просматривают Тор10 выдачи по выборке поисковых запросов, отмечая сайты, которые, с их точки зрения, содержат элементы поискового спама. Сводные данные выводятся на информер и показывают процент отмеченных экспертами сайтов от общего количества сайтов в Тор10 выдачи по анализируемым запросам.
Источник информации о спам-статусе данного URL – собственные данные антиспам-лаборатории компании "Ашманов и Партнеры". Используются следующие категории поискового спама:
* doorway – безусловный спам: дорвеи, увод пользователя к другим страницам,
* spamcatalog – безусловный спам: спамерские каталоги,
* spamcontent – безусловный спам: спамерский заимствованный контент,
* pseudosite – безусловный спам: сайт, маскирующийся под корпоративный (псевдофирма),
* catalog – каталоги,
* board – доски объявлений,
* domainsale – домены на продажу,
* secondary – вторичный, заимствованный контент,
* partner – любые партнерки,
* linksite – сайт линкоподдержки,
* spamforum – заспамленный форум,
* techspam – технический спам,
* searchres – результаты поиска
* cj – порно-галереи, перебрасывающие на другие подобные сайты
Сводным показателем является доля спам-сайтов в поисковой выдаче. Лучшим является поисковик с наименьшим сводным показателем. Именно в таком порядке поисковики отсортированы в информере данного анализатора.
Анализатор наличия 'сайтов для взрослых' в поисковой выдаче
Данный анализатор собирает результаты поиска по запросам, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары, – в том числе и детьми.
Например, пользователь, задавший запрос [колготки], может искать как магазины чулочно-носочных изделий, так и порнографию соответствующего жанра.
Выдавая по подобным запросам порноссылки, поисковики рискуют показать их пользователям, которые ничего «такого» в виду не имели, в том числе и несовершеннолетним.
Мы не утверждаем, что поисковик, находящий порно по порнозапросам, плохой или аморальный, но считаем, что выдача «откровенных» материалов по «обычным» запросам нежелательна.
Для детектирования эротики и порнографии в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Для каждого поисковика вычисляется доля в первой десятке результатов поиска страниц, отнесенных к рубрике «Эротика и секс».
Анализатор качества семейного фильтра
Семейный фильтр — это настройки поисковой системы, препятствующие попаданию в результаты поиска сайтов «для взрослых». Такую возможность предлагает большинство поисковиков. Но насколько эффективна фильтрация?
В данном анализаторе мы рассматриваем запросы, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары — в том числе и детьми. Что будет, если задать поисковикам такие «двусмысленные» запросы при включенном семейном фильтре? Будут ли в этом случае отфильтрованы порносайты и эротика?
В этом анализаторе запросы те же, что и в анализаторе «сайтов для взрослых», но при этом в поисковых системах (везде, где предусмотрена такая возможность) включен семейный фильтр. В идеале результаты поиска вообще не должны содержать сайтов «для взрослых». Если такие сайты в выдачу всё-таки попадают, это (тут можно сказать однозначно!) очень плохо: поисковик не выполняет данного пользователю обещания защитить его от порноконтента.
Кроме того, найденные страницы не должны содержать нецензурной брани — таково требование закона. Результаты, содержащие матерную лексику, помечаются розовым цветом и также учитываются как нежелательные.
Для детектирования эротики и порнографии, а также нецензурной брани в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Как и в анализаторе «сайтов для взрослых», для каждого поисковика вычисляется доля страниц, на которых был обнаружен порнографический контент, в первой десятке результатов поиска.
Пользователь, задавший такой запрос, вероятнее всего, хочет найти происхождение цитаты — то есть либо увидеть произведение, из которого она взята (в таком случае на найденной странице будет представлен достаточно широкий оригинальный контекст цитаты, что и проверяется анализатором), либо хотя бы узнать автора и название этого произведения.
Позиции найденных страниц в результатах поиска не учитываются. Неважно также (в отличие от анализатора оригиналов, где отслеживается приоритет источника), на каком из сайтов искомый текст был опубликован впервые.
Например, задавая запрос [контора пишет], пользователь, скорее всего, ищет либо толкование этого выражения, либо его происхождение (текст-источник и его автора). А результатом поиска по подобным запросам часто является множество случаев цитирования выражения, что вряд ли оправдывает ожидания пользователя.
Анализатор качества поиска ответов
Этот анализатор проверяет, насколько хорошо поисковые машины умеют находить ответы на вопросы как явные (содержащие вопросительное слово, например, [В каком году ЦСКА завоевал кубок УЕФА?], [Где добывают уран в России?]), так и подразумеваемые (имеющие вид утверждения со значением вопроса, например, [Автор книг Девятые врата], [Общая высота водопада Анхель]).
Когда пользователь вводит запрос, содержащий явный или неявный вопрос, он, скорее всего, просто ищет ответ. Чем быстрее он его увидит, тем лучше; в идеале ответ должен содержаться прямо на странице результатов поиска, в первом же снипете.
Однако, данный анализатор оценивает поисковые машины четырьмя способами, отличающимися по степени «строгости». В связи с этим у анализатора четыре вкладки:
1. Позиции ответов в снипетах
Поисковая машина получает за запрос единицу, если ответ содержится в снипете в первом по порядку результате поиска, 0,9 если во втором, 0,8 если в третьем, и так далее. Если ответ встретился в десятом снипете результата поиска, поисковая машина получает 0,1; если вообще не встретился в снипетах первой десятки результатов ноль.
2. Ответы в снипетах
Поисковая машина получает за запрос единицу, если ответ на вопрос содержится хотя бы в одном из снипетов первой страницы выдачи, и ноль в противном случае.
3. Позиции ответов на сайтах
Поисковая машина получает за запрос от 1 до 0,1, в зависимости от того, на какой по счёту странице из первой десятки результатов поиска найден ответ на вопрос.
4. Ответы на сайтах
Поисковая машина получает за запрос единицу, если ответ на запрос содержится хотя бы на одной из найденных веб-страниц, попавших в первую десятку результатов поиска.
Для вопроса могут считаться правильными несколько вариантов ответа. Например, [Самый длинный световой день в году] 21 июня / 21.06 / летнее солнцестояние.
Анализатор поиска оригиналов: новости
В интернете, к сожалению, широко распространено незаконное копирование информации. С воровством сталкивался любой автор: спустя дни, а то и часы после выкладывания на сайт свежей статьи ее текст может появиться на ресурсах, не имеющих разрешения на републикацию. Укравшие информацию обычно говорят, что она «взята из открытых источников». Либо объясняют: статья размещена кем-то из пользователей, за действия которого владелец сайта ответственности не несет. Используя чужой контент, можно получать посетителей из результатов поиска и конвертировать этот трафик в деньги. Что, собственно, и является главным экономическим мотивом «заимствования». Поэтому очень важны способность поисковых систем отличать оригинальные материалы от копий, и умение ссылки на оригиналы в результатах поиска размещать всегда выше.
Анализатор поиска оригиналов ежедневно проверяет по точной цитате позиции ста статей-маркеров, для которых известны адреса, где они находятся на законных основаниях. Подсчитывается количество запросов, для которых данный поисковик дает ссылку на оригинал документа выше, чем ссылки на его перепечатки.
По умолчанию, анализатор оценивает запросы-цитаты из искомых статей, заданные в кавычках. Хотя такие запросы редко задают пользователи, по ним с большой вероятностью будет находиться именно статья-маркер и ее копии. На дополнительной вкладке можно оценить поиск оригиналов по тем же запросам, заданным без кавычек.
В информере анализатора поисковые системы отсортированы по убыванию способности находить оригинальные источники.
Анализаторы полноты и разнообразия
Поскольку интернет-поиском пользуются для самых разных целей, одним из важнейших критериев его качества является возможность нахождения содержательного ответа на самые разнообразные запросы. Для этого поисковая машина должна обладать большим охватом и уметь широко трактовать запросы.
Анализаторы этой группы исследуют оба указанных аспекта работы поисковиков: оцениваются как количественные параметры выдачи, так и её разнообразие в случаях недостаточно узких запросов. Для того чтобы оценки анализаторов соответствовали действительности, полнота и широта нашей базы маркеров, которая здесь является в некотором смысле эталоном, регулярно контролируется.
Стоит отметить, что поскольку информация, которую нельзя найти в поисковиках, в некотором смысле является недоступной, в анализаторах этой группы относительные результаты поисковых машин представляют никак не меньший интерес, чем абсолютные значения.
Анализатор полноты индексов
Для качества поиска довольно важно, насколько полно индексируется Интернет поисковой машиной. Если поисковая база поисковика маленькая, то часть веб-страниц могут оказаться вообще недоступными через данный поисковик.
Конечно, по большинству частотных и среднечастотных запросов любая поисковая машина гарантированно выдаст вам десятки или сотни тысяч результатов. При этом, однако, реальный размер базы у разных поисковиков может отличаться в несколько раз.
Как понять истинный размер базы? Это непросто и вот почему:
а) Нельзя доверять декларации поисковиков "всего найдено N документов", поскольку у каждого поисковика количество найденного подсчитывается по-своему. Кто-то считает только документы, где есть все заданные в запросе слова, а кто-то дописывает в "хвост" вообще все документы. где встретилось хотя бы одно слово из запроса. Поисковики любят мериться мускулами и не чужды маркетинговых трюков.
б) Более того, в действительности ни один поисковик никогда не покажет вам все заявленные 10 000 результатов. Листая результаты поиска, Вы сможете увидеть десятки, в лучшем случае сотни страниц результатов поиска, после чего вас так или иначе отключат.
Таким образом, можно быть уверенным, что мы знаем истинное количество страниц в Интернете с данным словом, только когда результатов – максимум сотня-другая.
в) доверять декларации поисковика о том, что им заиндексировано M миллиардов документов – тоже нельзя, потому что, опять-таки способ подсчёта неизвестен (считаются ли дубли, например, и какие именно), а также потому, что может оказаться, что половина Рунета всё-таки оказалась вне этих условных M миллиардов страниц и не попала в индекс вообще.
Поэтому мы выбрали наиболее простой и надёжный способ анализа полноты поисковой базы по редким запросам.
Редкими здесь мы называем запросы, которые встречаются в Интернете всего несколько десятков раз. Впрочем, обычно такие запросы – редкие и в смысле частоты поиска их в поисковиках, поскольку если запрос – частотный, то под него моментально подстраиваются спамеры, производя множество фальшивых страниц с этим словом или словосочетанием.
Итак, мы построили набор редких запросов, по каждому из которых поисковики выдают не более нескольких десятков результатов. И проверяем "окраины Интернета" на предмет того, видит ли их каждая из поисковых машин. Анализатор раз в сутки проверяет все поисковики на предмет того, сколько страниц найдёно каждым поисковиком по каждому запросу.
После чего вычисляется показатель полноты базы по следующей формуле: Проводится поиск по запросу во всех сравниваемых поисковых машинах. Для машины, в которой найдено максимальное число страниц, полнота считается равной 1, для остальных – определяется пропорционально. Затем полнота усредняется по множеству специфических запросов. Это и есть значение анализатора полноты.
Мы постоянно пополняем список запросов-маркеров, стараясь охватить все "окраины Интернета". Если вам кажется, что есть ещё какие-то редкие слова и словосочетания, которые стоит включить в базу маркеров – присылайте их нам.
Анализаторы понимания запроса
О понимании запроса поисковиком можно говорить, конечно, только условно. И тем не менее, пользователи уже привыкли, что поисковые машины подходят к их запросам «творчески» — подсказывают варианты запроса, не дожидаясь окончания ввода; когда надо, исправляют опечатки; уточняют и расширяют запросы; пытаются угадать цели пользователя и отранжировать в соответствии с ними результаты поиска, и т. п.
Имеющиеся на данный момент анализаторы этой группы оценивают достаточно простые умения поисковиков — исправлять опечатки, давать подсказки, расширять запрос синонимами.
О более тонких поисковых технологиях, связанных с интерпретацией запроса, нечетким поиском и т. п., анализаторы пока позволяют судить лишь косвенно — по ошибкам, которые возникают, когда понимание запроса оказывается обманчивым (таких анализаторов уже несколько, и они выделены в отдельную группу). Впрочем, как раз ошибки нагляднее всего показывают, как поисковики научились работать с запросами. Мы просто не замечаем «уловок» поисковиков, когда они срабатывают корректно — а ошибки обнажают прием и делают его заметным.
Анализатор качества подсказок
Большинство поисковых машин, заподозрив при вводе поискового запроса опечатку, пытаются предложить пользователю правильное (по мнению поисковика) написание запроса. Качество подсказок является важным дополнением к общему качеству поиска.
В данном анализаторе ищется правильная подсказка в поисковой выдаче по запросу с заведомой опечаткой и оценивается количество случаев, когда подсказка содержит "правильную" форму запроса.
Оценка производится по тем же группам запросов с опечатками что и в анализаторе устойчивости к опечаткам. Чем больше правильных подсказок было дано, тем выше показатель данного поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.
Анализатор устойчивости к опечаткам
Человек – не робот и может ошибиться. В том числе и при вводе поискового запроса в поисковую строку поисковой машины. Он может просто допустить опечатку, введя соседний символ (и тогда вместо "запрос" получится "звпрос"), он может по ошибке ввести символ дважды или пропустить вовсе (и тогда вместо "запрос" получится "зпрос" или "заппрос"), наконец, он может не знать правильного написания слова и ввести его "как слышится" (и тогда вместо "яндекс" получится "яндыкс").
Поисковик в этом случае может придерживаться одной из трех стратегий:
1) никак не обрабатывать эти случаи и искать строго то что ввел пользователь
2) понять что имела место опечатка, тем не менее найти то что введено и рядом предложить правильную по мнению поисковой машины форму – "возможно, вы имели ввиду [правильное написание запроса]"
3) понять что имела место опечатка, не искать ошибочное написание а сразу искать правильную форму
В зависимости от выбранной стратегии, пользователь либо не увидит что он ошибся при написании, либо увидит это и сделает лишний клик (если захочет), либо даже не догадается о собственной опечатке.
В данном анализаторе сравнивается поисковая выдача по "правильному запросу" и по нескольким формам возможных его опечаток. Оценивается степень близости поисковой выдачи по запросу с опечаткой к выдаче по "правильному" запросу
Кроме сознательного исправления опечаток, совпадения могут возникать в четырех случаях:
1) случайно
3) страница содержит как правильную форму, так и форму с опечаткой
4) ложное срабатывание морфологии поисковика (например, приведение неизвестного поисковику слова "гриби", которое есть опечатка слова "грибы" к слову "гриб")
5) продвижение одних и тех же сайтов как по запросам в правильном ниписании, так и по запросам с опечатками
Все эти случаи в рамках данного анализатора дают шум – случайное совпадение результатов.
Степень близости оценивается аналогично тому как это делается в анализаторе апдейтов, только сравниваются другие запросы.
Чем большее совпадение результатов зафиксировано, тем выше результат поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.
В дальнейшем будет введена ротация групп запросов с опечатками из большого массива групп.
Анализаторы раздражающих факторов
Как бы хорошо ни работал поисковик, есть детали, которые могут сильно испортить пользователю впечатление от качественных результатов и заметно повлиять на его лояльность сервису. К таким, безусловно, относятся опасности заражения вирусами, раздражающие рекламные баннеры и т.п.
Конечно, количество рекламы или опасных скриптов на сайтах не зависит от поисковиков. Однако концентрация нежелательного содержимого в поисковой выдаче – полностью в их компетенции. Соответственно, в их интересах ранжировать сайты с большим количеством раздражающих факторов заметно ниже качественных и безопасных.
В большинстве анализаторов этой группы применяются специальные технологии, разработанные в компании Ашманов и партнеры для обнаружения рекламы, порнографии, вирусов и т.п. А для большей наглядности результатов маркеры подобраны так, чтобы вероятность появления в выдаче нежелательных элементов была выше обычного.
Анализатор спама в поисковой выдаче
Компания "Ашманов и партнеры" профессионально занимается изучением феномена поискового спама – приемов и технологий, ухудшающих качество поисковой выдачи и мешающих нормальной работе поисковых систем.
Поисковым спамом могут быть названы текст, ссылка, технология, программный код и иные элементы веба, созданные не для повышения удобства пользователей, целью которых является быстрый и легкий поиск полной, профессионально оформленной, достоверной информации, определяемой поисковым запросом. Но для которых точно известно, что причиной их создания является желание веб-мастера улучшить позиции продвигаемого сайта в результатах поиска.
Эксперты регулярно просматривают Тор10 выдачи по выборке поисковых запросов, отмечая сайты, которые, с их точки зрения, содержат элементы поискового спама. Сводные данные выводятся на информер и показывают процент отмеченных экспертами сайтов от общего количества сайтов в Тор10 выдачи по анализируемым запросам.
Источник информации о спам-статусе данного URL – собственные данные антиспам-лаборатории компании "Ашманов и Партнеры". Используются следующие категории поискового спама:
* doorway – безусловный спам: дорвеи, увод пользователя к другим страницам,
* spamcatalog – безусловный спам: спамерские каталоги,
* spamcontent – безусловный спам: спамерский заимствованный контент,
* pseudosite – безусловный спам: сайт, маскирующийся под корпоративный (псевдофирма),
* catalog – каталоги,
* board – доски объявлений,
* domainsale – домены на продажу,
* secondary – вторичный, заимствованный контент,
* partner – любые партнерки,
* linksite – сайт линкоподдержки,
* spamforum – заспамленный форум,
* techspam – технический спам,
* searchres – результаты поиска
* cj – порно-галереи, перебрасывающие на другие подобные сайты
Сводным показателем является доля спам-сайтов в поисковой выдаче. Лучшим является поисковик с наименьшим сводным показателем. Именно в таком порядке поисковики отсортированы в информере данного анализатора.
Анализатор наличия 'сайтов для взрослых' в поисковой выдаче
Данный анализатор собирает результаты поиска по запросам, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары, – в том числе и детьми.
Например, пользователь, задавший запрос [колготки], может искать как магазины чулочно-носочных изделий, так и порнографию соответствующего жанра.
Выдавая по подобным запросам порноссылки, поисковики рискуют показать их пользователям, которые ничего «такого» в виду не имели, в том числе и несовершеннолетним.
Мы не утверждаем, что поисковик, находящий порно по порнозапросам, плохой или аморальный, но считаем, что выдача «откровенных» материалов по «обычным» запросам нежелательна.
Для детектирования эротики и порнографии в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Для каждого поисковика вычисляется доля в первой десятке результатов поиска страниц, отнесенных к рубрике «Эротика и секс».
Анализатор качества семейного фильтра
Семейный фильтр — это настройки поисковой системы, препятствующие попаданию в результаты поиска сайтов «для взрослых». Такую возможность предлагает большинство поисковиков. Но насколько эффективна фильтрация?
В данном анализаторе мы рассматриваем запросы, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары — в том числе и детьми. Что будет, если задать поисковикам такие «двусмысленные» запросы при включенном семейном фильтре? Будут ли в этом случае отфильтрованы порносайты и эротика?
В этом анализаторе запросы те же, что и в анализаторе «сайтов для взрослых», но при этом в поисковых системах (везде, где предусмотрена такая возможность) включен семейный фильтр. В идеале результаты поиска вообще не должны содержать сайтов «для взрослых». Если такие сайты в выдачу всё-таки попадают, это (тут можно сказать однозначно!) очень плохо: поисковик не выполняет данного пользователю обещания защитить его от порноконтента.
Кроме того, найденные страницы не должны содержать нецензурной брани — таково требование закона. Результаты, содержащие матерную лексику, помечаются розовым цветом и также учитываются как нежелательные.
Для детектирования эротики и порнографии, а также нецензурной брани в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Как и в анализаторе «сайтов для взрослых», для каждого поисковика вычисляется доля страниц, на которых был обнаружен порнографический контент, в первой десятке результатов поиска.
Однако, данный анализатор оценивает поисковые машины четырьмя способами, отличающимися по степени «строгости». В связи с этим у анализатора четыре вкладки:
1. Позиции ответов в снипетах
Поисковая машина получает за запрос единицу, если ответ содержится в снипете в первом по порядку результате поиска, 0,9 если во втором, 0,8 если в третьем, и так далее. Если ответ встретился в десятом снипете результата поиска, поисковая машина получает 0,1; если вообще не встретился в снипетах первой десятки результатов ноль.
2. Ответы в снипетах
Поисковая машина получает за запрос единицу, если ответ на вопрос содержится хотя бы в одном из снипетов первой страницы выдачи, и ноль в противном случае.
3. Позиции ответов на сайтах
Поисковая машина получает за запрос от 1 до 0,1, в зависимости от того, на какой по счёту странице из первой десятки результатов поиска найден ответ на вопрос.
4. Ответы на сайтах
Поисковая машина получает за запрос единицу, если ответ на запрос содержится хотя бы на одной из найденных веб-страниц, попавших в первую десятку результатов поиска.
Для вопроса могут считаться правильными несколько вариантов ответа. Например, [Самый длинный световой день в году] 21 июня / 21.06 / летнее солнцестояние.
По умолчанию, анализатор оценивает запросы-цитаты из искомых статей, заданные в кавычках. Хотя такие запросы редко задают пользователи, по ним с большой вероятностью будет находиться именно статья-маркер и ее копии. На дополнительной вкладке можно оценить поиск оригиналов по тем же запросам, заданным без кавычек.
В информере анализатора поисковые системы отсортированы по убыванию способности находить оригинальные источники.
Анализаторы полноты и разнообразия
Стоит отметить, что поскольку информация, которую нельзя найти в поисковиках, в некотором смысле является недоступной, в анализаторах этой группы относительные результаты поисковых машин представляют никак не меньший интерес, чем абсолютные значения.
Как понять истинный размер базы? Это непросто и вот почему:
а) Нельзя доверять декларации поисковиков "всего найдено N документов", поскольку у каждого поисковика количество найденного подсчитывается по-своему. Кто-то считает только документы, где есть все заданные в запросе слова, а кто-то дописывает в "хвост" вообще все документы. где встретилось хотя бы одно слово из запроса. Поисковики любят мериться мускулами и не чужды маркетинговых трюков.
б) Более того, в действительности ни один поисковик никогда не покажет вам все заявленные 10 000 результатов. Листая результаты поиска, Вы сможете увидеть десятки, в лучшем случае сотни страниц результатов поиска, после чего вас так или иначе отключат.
Таким образом, можно быть уверенным, что мы знаем истинное количество страниц в Интернете с данным словом, только когда результатов – максимум сотня-другая.
в) доверять декларации поисковика о том, что им заиндексировано M миллиардов документов – тоже нельзя, потому что, опять-таки способ подсчёта неизвестен (считаются ли дубли, например, и какие именно), а также потому, что может оказаться, что половина Рунета всё-таки оказалась вне этих условных M миллиардов страниц и не попала в индекс вообще.
Поэтому мы выбрали наиболее простой и надёжный способ анализа полноты поисковой базы по редким запросам.
Редкими здесь мы называем запросы, которые встречаются в Интернете всего несколько десятков раз. Впрочем, обычно такие запросы – редкие и в смысле частоты поиска их в поисковиках, поскольку если запрос – частотный, то под него моментально подстраиваются спамеры, производя множество фальшивых страниц с этим словом или словосочетанием.
Итак, мы построили набор редких запросов, по каждому из которых поисковики выдают не более нескольких десятков результатов. И проверяем "окраины Интернета" на предмет того, видит ли их каждая из поисковых машин. Анализатор раз в сутки проверяет все поисковики на предмет того, сколько страниц найдёно каждым поисковиком по каждому запросу.
После чего вычисляется показатель полноты базы по следующей формуле: Проводится поиск по запросу во всех сравниваемых поисковых машинах. Для машины, в которой найдено максимальное число страниц, полнота считается равной 1, для остальных – определяется пропорционально. Затем полнота усредняется по множеству специфических запросов. Это и есть значение анализатора полноты.
Мы постоянно пополняем список запросов-маркеров, стараясь охватить все "окраины Интернета". Если вам кажется, что есть ещё какие-то редкие слова и словосочетания, которые стоит включить в базу маркеров – присылайте их нам.
Анализаторы понимания запроса
О более тонких поисковых технологиях, связанных с интерпретацией запроса, нечетким поиском и т. п., анализаторы пока позволяют судить лишь косвенно — по ошибкам, которые возникают, когда понимание запроса оказывается обманчивым (таких анализаторов уже несколько, и они выделены в отдельную группу). Впрочем, как раз ошибки нагляднее всего показывают, как поисковики научились работать с запросами. Мы просто не замечаем «уловок» поисковиков, когда они срабатывают корректно — а ошибки обнажают прием и делают его заметным.
В данном анализаторе ищется правильная подсказка в поисковой выдаче по запросу с заведомой опечаткой и оценивается количество случаев, когда подсказка содержит "правильную" форму запроса.
Анализатор устойчивости к опечаткам
Человек – не робот и может ошибиться. В том числе и при вводе поискового запроса в поисковую строку поисковой машины. Он может просто допустить опечатку, введя соседний символ (и тогда вместо "запрос" получится "звпрос"), он может по ошибке ввести символ дважды или пропустить вовсе (и тогда вместо "запрос" получится "зпрос" или "заппрос"), наконец, он может не знать правильного написания слова и ввести его "как слышится" (и тогда вместо "яндекс" получится "яндыкс").
Поисковик в этом случае может придерживаться одной из трех стратегий:
1) никак не обрабатывать эти случаи и искать строго то что ввел пользователь
2) понять что имела место опечатка, тем не менее найти то что введено и рядом предложить правильную по мнению поисковой машины форму – "возможно, вы имели ввиду [правильное написание запроса]"
3) понять что имела место опечатка, не искать ошибочное написание а сразу искать правильную форму
В зависимости от выбранной стратегии, пользователь либо не увидит что он ошибся при написании, либо увидит это и сделает лишний клик (если захочет), либо даже не догадается о собственной опечатке.
В данном анализаторе сравнивается поисковая выдача по "правильному запросу" и по нескольким формам возможных его опечаток. Оценивается степень близости поисковой выдачи по запросу с опечаткой к выдаче по "правильному" запросу
Кроме сознательного исправления опечаток, совпадения могут возникать в четырех случаях:
1) случайно
3) страница содержит как правильную форму, так и форму с опечаткой
4) ложное срабатывание морфологии поисковика (например, приведение неизвестного поисковику слова "гриби", которое есть опечатка слова "грибы" к слову "гриб")
5) продвижение одних и тех же сайтов как по запросам в правильном ниписании, так и по запросам с опечатками
Все эти случаи в рамках данного анализатора дают шум – случайное совпадение результатов.
Степень близости оценивается аналогично тому как это делается в анализаторе апдейтов, только сравниваются другие запросы.
Чем большее совпадение результатов зафиксировано, тем выше результат поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.
В дальнейшем будет введена ротация групп запросов с опечатками из большого массива групп.
Анализаторы раздражающих факторов
1) никак не обрабатывать эти случаи и искать строго то что ввел пользователь
2) понять что имела место опечатка, тем не менее найти то что введено и рядом предложить правильную по мнению поисковой машины форму – "возможно, вы имели ввиду [правильное написание запроса]"
3) понять что имела место опечатка, не искать ошибочное написание а сразу искать правильную форму
В зависимости от выбранной стратегии, пользователь либо не увидит что он ошибся при написании, либо увидит это и сделает лишний клик (если захочет), либо даже не догадается о собственной опечатке.
В данном анализаторе сравнивается поисковая выдача по "правильному запросу" и по нескольким формам возможных его опечаток. Оценивается степень близости поисковой выдачи по запросу с опечаткой к выдаче по "правильному" запросу
Кроме сознательного исправления опечаток, совпадения могут возникать в четырех случаях:
1) случайно
3) страница содержит как правильную форму, так и форму с опечаткой
4) ложное срабатывание морфологии поисковика (например, приведение неизвестного поисковику слова "гриби", которое есть опечатка слова "грибы" к слову "гриб")
5) продвижение одних и тех же сайтов как по запросам в правильном ниписании, так и по запросам с опечатками
Все эти случаи в рамках данного анализатора дают шум – случайное совпадение результатов.
Степень близости оценивается аналогично тому как это делается в анализаторе апдейтов, только сравниваются другие запросы.
Чем большее совпадение результатов зафиксировано, тем выше результат поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.
В дальнейшем будет введена ротация групп запросов с опечатками из большого массива групп.
В большинстве анализаторов этой группы применяются специальные технологии, разработанные в компании Ашманов и партнеры для обнаружения рекламы, порнографии, вирусов и т.п. А для большей наглядности результатов маркеры подобраны так, чтобы вероятность появления в выдаче нежелательных элементов была выше обычного.
Анализатор спама в поисковой выдаче
Компания "Ашманов и партнеры" профессионально занимается изучением феномена поискового спама – приемов и технологий, ухудшающих качество поисковой выдачи и мешающих нормальной работе поисковых систем.
Поисковым спамом могут быть названы текст, ссылка, технология, программный код и иные элементы веба, созданные не для повышения удобства пользователей, целью которых является быстрый и легкий поиск полной, профессионально оформленной, достоверной информации, определяемой поисковым запросом. Но для которых точно известно, что причиной их создания является желание веб-мастера улучшить позиции продвигаемого сайта в результатах поиска.
Эксперты регулярно просматривают Тор10 выдачи по выборке поисковых запросов, отмечая сайты, которые, с их точки зрения, содержат элементы поискового спама. Сводные данные выводятся на информер и показывают процент отмеченных экспертами сайтов от общего количества сайтов в Тор10 выдачи по анализируемым запросам.
Источник информации о спам-статусе данного URL – собственные данные антиспам-лаборатории компании "Ашманов и Партнеры". Используются следующие категории поискового спама:
* doorway – безусловный спам: дорвеи, увод пользователя к другим страницам,
* spamcatalog – безусловный спам: спамерские каталоги,
* spamcontent – безусловный спам: спамерский заимствованный контент,
* pseudosite – безусловный спам: сайт, маскирующийся под корпоративный (псевдофирма),
* catalog – каталоги,
* board – доски объявлений,
* domainsale – домены на продажу,
* secondary – вторичный, заимствованный контент,
* partner – любые партнерки,
* linksite – сайт линкоподдержки,
* spamforum – заспамленный форум,
* techspam – технический спам,
* searchres – результаты поиска
* cj – порно-галереи, перебрасывающие на другие подобные сайты
Сводным показателем является доля спам-сайтов в поисковой выдаче. Лучшим является поисковик с наименьшим сводным показателем. Именно в таком порядке поисковики отсортированы в информере данного анализатора.
Анализатор наличия 'сайтов для взрослых' в поисковой выдаче
Данный анализатор собирает результаты поиска по запросам, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары, – в том числе и детьми.
Например, пользователь, задавший запрос [колготки], может искать как магазины чулочно-носочных изделий, так и порнографию соответствующего жанра.
Выдавая по подобным запросам порноссылки, поисковики рискуют показать их пользователям, которые ничего «такого» в виду не имели, в том числе и несовершеннолетним.
Мы не утверждаем, что поисковик, находящий порно по порнозапросам, плохой или аморальный, но считаем, что выдача «откровенных» материалов по «обычным» запросам нежелательна.
Для детектирования эротики и порнографии в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Для каждого поисковика вычисляется доля в первой десятке результатов поиска страниц, отнесенных к рубрике «Эротика и секс».
Анализатор качества семейного фильтра
Семейный фильтр — это настройки поисковой системы, препятствующие попаданию в результаты поиска сайтов «для взрослых». Такую возможность предлагает большинство поисковиков. Но насколько эффективна фильтрация?
В данном анализаторе мы рассматриваем запросы, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары — в том числе и детьми. Что будет, если задать поисковикам такие «двусмысленные» запросы при включенном семейном фильтре? Будут ли в этом случае отфильтрованы порносайты и эротика?
В этом анализаторе запросы те же, что и в анализаторе «сайтов для взрослых», но при этом в поисковых системах (везде, где предусмотрена такая возможность) включен семейный фильтр. В идеале результаты поиска вообще не должны содержать сайтов «для взрослых». Если такие сайты в выдачу всё-таки попадают, это (тут можно сказать однозначно!) очень плохо: поисковик не выполняет данного пользователю обещания защитить его от порноконтента.
Кроме того, найденные страницы не должны содержать нецензурной брани — таково требование закона. Результаты, содержащие матерную лексику, помечаются розовым цветом и также учитываются как нежелательные.
Для детектирования эротики и порнографии, а также нецензурной брани в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Как и в анализаторе «сайтов для взрослых», для каждого поисковика вычисляется доля страниц, на которых был обнаружен порнографический контент, в первой десятке результатов поиска.
Поисковым спамом могут быть названы текст, ссылка, технология, программный код и иные элементы веба, созданные не для повышения удобства пользователей, целью которых является быстрый и легкий поиск полной, профессионально оформленной, достоверной информации, определяемой поисковым запросом. Но для которых точно известно, что причиной их создания является желание веб-мастера улучшить позиции продвигаемого сайта в результатах поиска.
Источник информации о спам-статусе данного URL – собственные данные антиспам-лаборатории компании "Ашманов и Партнеры". Используются следующие категории поискового спама:
* doorway – безусловный спам: дорвеи, увод пользователя к другим страницам,
* spamcatalog – безусловный спам: спамерские каталоги,
* spamcontent – безусловный спам: спамерский заимствованный контент,
* pseudosite – безусловный спам: сайт, маскирующийся под корпоративный (псевдофирма),
* catalog – каталоги,
* board – доски объявлений,
* domainsale – домены на продажу,
* secondary – вторичный, заимствованный контент,
* partner – любые партнерки,
* linksite – сайт линкоподдержки,
* spamforum – заспамленный форум,
* techspam – технический спам,
* searchres – результаты поиска
* cj – порно-галереи, перебрасывающие на другие подобные сайты
Сводным показателем является доля спам-сайтов в поисковой выдаче. Лучшим является поисковик с наименьшим сводным показателем. Именно в таком порядке поисковики отсортированы в информере данного анализатора.
Например, пользователь, задавший запрос [колготки], может искать как магазины чулочно-носочных изделий, так и порнографию соответствующего жанра.
Мы не утверждаем, что поисковик, находящий порно по порнозапросам, плохой или аморальный, но считаем, что выдача «откровенных» материалов по «обычным» запросам нежелательна.
Для детектирования эротики и порнографии в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Для каждого поисковика вычисляется доля в первой десятке результатов поиска страниц, отнесенных к рубрике «Эротика и секс».
Анализатор качества семейного фильтра
Семейный фильтр — это настройки поисковой системы, препятствующие попаданию в результаты поиска сайтов «для взрослых». Такую возможность предлагает большинство поисковиков. Но насколько эффективна фильтрация?
В данном анализаторе мы рассматриваем запросы, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары — в том числе и детьми. Что будет, если задать поисковикам такие «двусмысленные» запросы при включенном семейном фильтре? Будут ли в этом случае отфильтрованы порносайты и эротика?
В этом анализаторе запросы те же, что и в анализаторе «сайтов для взрослых», но при этом в поисковых системах (везде, где предусмотрена такая возможность) включен семейный фильтр. В идеале результаты поиска вообще не должны содержать сайтов «для взрослых». Если такие сайты в выдачу всё-таки попадают, это (тут можно сказать однозначно!) очень плохо: поисковик не выполняет данного пользователю обещания защитить его от порноконтента.
Кроме того, найденные страницы не должны содержать нецензурной брани — таково требование закона. Результаты, содержащие матерную лексику, помечаются розовым цветом и также учитываются как нежелательные.
Для детектирования эротики и порнографии, а также нецензурной брани в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Как и в анализаторе «сайтов для взрослых», для каждого поисковика вычисляется доля страниц, на которых был обнаружен порнографический контент, в первой десятке результатов поиска.
В данном анализаторе мы рассматриваем запросы, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары — в том числе и детьми. Что будет, если задать поисковикам такие «двусмысленные» запросы при включенном семейном фильтре? Будут ли в этом случае отфильтрованы порносайты и эротика?
Кроме того, найденные страницы не должны содержать нецензурной брани — таково требование закона. Результаты, содержащие матерную лексику, помечаются розовым цветом и также учитываются как нежелательные.
Для детектирования эротики и порнографии, а также нецензурной брани в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Как и в анализаторе «сайтов для взрослых», для каждого поисковика вычисляется доля страниц, на которых был обнаружен порнографический контент, в первой десятке результатов поиска.