Есть ли способ обнаружить смещение в поисковых системах?

9

На поисковые системы все чаще полагаются как на стражу информации, однако критерии, используемые поисковыми системами для ранжирования результатов, непрозрачны для пользователей. Как пользователи могут быть уверены в том, что их результаты не являются предвзятыми или подделаны каким-либо образом, чтобы получить некоторый интерес за счет качества результатов поиска?

Правительства обычно требуют, чтобы поисковые системы убирали или понижали рейтинг веб-сайтов, считающихся политически нежелательными. Предприятия могут платить поставщикам, чтобы повысить определенные результаты по сравнению с другими, чтобы увеличить свои доходы. Брандмауэры могут вмешиваться в результаты, прежде чем они будут переданы обратно пользователям.

Даже кажущиеся безобидными изменения в алгоритмах ранжирования, которые могут показаться необъективными, на самом деле могут быть коварными, чтобы наносить ущерб веб-сайтам, имеющим некоторые общие черты (не связанные с реальным качеством).

Можно ли обнаружить смещение в поисковых системах, скажем, путем мониторинга результатов в течение определенного периода времени и оценки того, является ли некая «скрытая переменная» (возможно, политическая принадлежность) движущим фактором изменения рейтинга сайта?

Подлый провайдер может постепенно со временем понизить рейтинг целевых сайтов (и, возможно, случайных сайтов, чтобы отвлечь пользователей). Каковы пределы того, сколько смещения поставщик может ввести без обнаружения? Или же можно всегда скрывать такие помехи путем коварного выбора критериев взвешенного ранжирования, которые случайно приводят к ожидаемому результату (путем «отслеживания данных»).

Изменится ли что-нибудь из этого, если критерии ранжирования будут обнародованы? Нужно ли открывать исходные тексты критериев, которые используют поисковые системы?

Это напоминает мне результат, который заключается в том, что обнаружение того, был ли продавец подделан сложным финансовым инструментом, таким как CDO, эквивалентно решению проблемы плотного подграфа:

http://www.cs.princeton.edu/~rongge/derivative.pdf

Спасибо!

рука.
источник
4
это крутой вопрос, но я бы пересмотрел его, задав только один вопрос, связанный с теорией. Наиболее очевидным является сделать запрос на ссылку и спросить: «Кто-нибудь уже смотрел на это?». Если вы уверены, что никто не имеет, то что-то вроде «как это можно смоделировать формально?» может быть хороший вопрос Если вы храните слишком много вопросов, причем некоторые из них потенциально не связаны с теорией, тогда они могут быть закрыты как «не настоящий вопрос».
Артем Казнатчеев
Обратите внимание, что обнародование схемы ранжирования открывает ее для атак спамеров. Интересным вариантом было бы: «есть ли« открытый ключ »для рейтинга»
Суреш Венкат
@SureshVenkat "публичная схема ранжирования открывает ее для атаки" звучит так, как будто вы предлагаете <s> security </ s> непредвзятость через мрак;).
Артем Казнатчеев
нет, но именно поэтому я спросил о версиях схем ранжирования с открытым ключом.
Суреш Венкат
Поскольку предполагается, что ни одна из сторон, участвующих в процессе поиска, не является злонамеренным пользователем, нормальным решением является моделирование процесса как игры с эгоистичными пользователями. При правильном моделировании мы можем выяснить, выгодно ли поисковым системам делать такие вещи или нет. Тогда мы можем разработать механизм предотвращения такого вмешательства.
Гелий

Ответы:

3

Это, очевидно, очень открытый вопрос, но чтобы остаться в теме, вот один из подходов теории CS к идее «справедливости» и способам ее применения.

Работа "Справедливость через осознание", Хардт, Питасси, Рейнгольд, Земель http://arxiv.org/abs/1104.3913

Аарон Рот
источник