Откуда берется параметр URL «? Chocaid = 397»?

9

В Google Webmaster Tools я заметил, что моя первая страница была проиндексирована два раза:

  • example.com/
  • example.com/?chocaid=397

Я знаю, что мог бы исправить это с использованием типа ссылки canonical, но мне интересно: откуда этот параметр?

Существуют различные сайты, на которых страницы индексируются именно с этим параметром / значением: https://duckduckgo.com/?q=chocaid%3D397 .

Я искал сходства между этими сайтами. но не смог найти убедительного: часто это первая полоса, но не в каждом случае. Некоторые NSFW, но не все. Когда URL-адрес одного домена имеет этот параметр, часто его имеют и другие дочерние домены того же домена.

Примеры

Википедия

введите описание изображения здесь

Microsoft Codeplex

введите описание изображения здесь

ОООНР
источник
В Google Webmaster Tools (или журналах вашего реферера) есть какие-либо указания относительно того, какая страница может ссылаться на этот URL?
MrWhite
@ w3d: у меня нет доступа к каким-либо журналам. В GWT он был указан в « Улучшения HTML » → «Повторные заголовки страниц». Поэтому я боюсь, что не могу получить какую-либо справочную информацию.
ОООНР
Мне просто интересно, есть ли что-нибудь в разделе Трафик> Ссылки на ваш сайт> Ваш наиболее связанный контент> Еще (чтобы получить все связанные страницы). Ибо ?chocaid=397для индексации, вероятно, что-то ссылается на него, чтобы Google сначала нашел ссылку?
MrWhite
@ w3d: Ах, я вижу. К сожалению, данные для этого отчета все еще отсутствуют (возможно, потому что я использую GWT только в течение нескольких дней).
ОООНР
Не уверен, поможет ли это, но число 397 как-то связано с хэшами (см. Здесь и здесь ). Я не уверен, имеет ли это какое-либо отношение к этому вопросу, но это ?chocaid=397может быть попытка связать себя с хэшами (я не знаю много об этом, поэтому я не уверен в этом). Кроме того, это отличный вопрос.

Ответы:

1

Насколько новый ваш домен? Вполне возможно, что это был популярный запрос на старом домене, и поэтому вы все еще получаете «посетителей». Это карта на действительной странице или 404? Если вы получаете там много хитов, а это 404, то я бы переназначил его (используйте .htaccess) на вашу домашнюю страницу или что-то в этом роде.

Kyros
источник
1
Я еще не заметил посетителей; Я видел страницу, проиндексированную Google. Он отображается на той же главной странице (как если бы параметр был опущен). Я знаю, что мог перенаправить его или использовать canonical, но этот вопрос больше касается происхождения этого параметра.
ОООНР
2
Но это не объясняет, почему тот же параметр URL появляется в результатах поиска для многих других доменов.
MrWhite
1

Это может быть робот Google, пытающийся получить доступ к jQuery / Javascript и сканировать все, что может. Здесь недавно было сообщение о том, что кто-то просит помощи, потому что робот Googlebot сканирует недействительные URL на своем сайте. Джон М ответил, что робот Google может искать дополнительные URL-адреса для сканирования по сценариям на их сайте. Он работает в Google Webmaster Tools. Вы в значительной степени ответили на свой вопрос, установив канонический тег.

Anagio
источник
1

Хотя у меня нет однозначного ответа, есть несколько вещей, которые я нашел, изучая это, которые могут помочь сузить его:

  • Ссылки также появляются в Bing и Yahoo, так что это не имеет никакого отношения к Google.
  • Они появляются в вики, блогах Tumblr, Wordpress и других сайтах, поэтому их нельзя будет использовать с помощью эксплойта в каком-либо конкретном программном обеспечении.
  • Они появляются на некоторых очень низкокачественных сайтах Tumblr, и поэтому маловероятно, чтобы на них была какая-либо реклама. Кроме того, статьи в Википедии вряд ли будут продвигаться через рекламу.

Мое лучшее предположение было бы, что есть / был некоторый сайт скребка, который добавляет этот URL ко всем ссылкам, которые он находит. Конечно, внешние ссылки кажутся наиболее вероятным объяснением того, откуда они берутся, а каталоги маловероятны из-за того, что они добавляются на совершенно случайные страницы.

RichardB
источник
0

Это может быть от провайдера рекламы, который у вас может быть, у меня та же проблема, и единственно возможное место, откуда она исходит, от провайдера рекламы, внедряющего некоторые вредоносные программы через коды javascript.

Раймунд
источник
У вас есть источник / доказательство этого? Это будет означать, что Википедия заражена этим, так как есть некоторые страницы Википедии, проиндексированные с этим параметром.
ОООНР
Да, потому что у меня есть блог, который Google заблокировал из-за этого, и после удаления рекламы преступников, они начали удалять блок
Raymund