Недавно я заметил, что Google индексирует URL-адреса, содержащие аргументы строки запроса utm_campaign, utm_source и utm_medium. В результате Google показывает URL с этими строками запроса, а не каноническим URL:
Я понимаю, что это может быть проблемой с дублирующимся содержимым, но я использовал этот link rel=canonical
тег на своем веб-сайте. В качестве одного примера:
[snip]
<meta name="description" content="App store optimization helps discovery and rank on Google Play and the App Store. Publishers can use ASO by following these simple steps."/>
<meta name="robots" content="noodp"/>
<link rel="canonical" href="https://sweetpricing.com/blog/2016/11/app-store-optimization/" />
<meta property="og:locale" content="en_US" />
[snip]
Я ожидаю, что Google должен использовать канонический URL для индексации. Что я делаю неправильно?
google
canonical-url
serps
Брендон
источник
источник
site:stackexchange.com inurl:utm_campaign
также возвращает аналогичные результаты (в несколько большем масштабе). Также обратите внимание, чтоsite:
поиски часто возвращают неканонические URL-адреса в результатах, которые обычно не возвращаются при «нормальном» поиске. Однако вышеприведенные URL-адреса также, похоже, возвращаются и при «нормальном» поиске.Ответы:
Пересматривая ваш веб-сайт таким, какой он есть сейчас, я не слишком уверен, что это проблема больше / сейчас.
Проблема заключается не в внутренней связи на вашем сайте с включением параметров UTM (как предполагает другой вопрос).
Похоже, что какой-то процесс, которым вы должны делиться контентом своего веб-сайта в социальных сетях, оставляет параметры UTM в URL-адресах и разделяет эти URL-адреса, что в какой-то момент привело к их индексации.
Это редко случается, но это случалось со многими другими сайтами раньше. Тот факт, что только три страницы проиндексированы с этими параметрами, свидетельствует о том, что это не является серьезной проблемой или проблемой, связанной с другими вопросами.
Вот шаги, которые вы можете предпринять, чтобы помочь искоренить это: -
1. Укажите канонический URL на своих страницах
Вы уже делаете это, и реализация верна. Это обеспечит вес в поисковых системах только указанному каноническому URL. Предположительно, это всегда было на месте, но если нет, то это могло бы объяснить, почему есть некоторые старые экземпляры страниц, все еще проиндексированные с параметрами UTM.
2. Поручить Google не индексировать параметры UTM в консоли поиска.
В случае, когда некоторые URL-адреса индексируются с параметрами UTM (как в вашем случае), параметр URL-адреса должен отображаться как обнаруженный в разделе «Crawl> URL-параметры» консоли поиска Google для вашего домена (см. Ниже).
Даже если параметры UTM не отображаются, вы можете «Добавить параметр» для их создания.
Просто выберите
No: Doesn't affect page content (ex: tracks usage)
(известный как «Пассивные параметры»), и Google будет обычно сканировать только один URL с определенным значением параметра .3 Запретите параметры URL в вашем robots.txt
Это заблокирует Google от индексации содержимого этих URL-адресов, но не самих URL-адресов (они все равно могут отображаться в результатах поиска, но просто опустят описание, как показано ниже).
Просто добавив что-то вроде следующего, вы справитесь с этим
robots.txt
:Вывод
Шаги № 1 и № 2 должны быть выполнены в качестве меры предосторожности и «наилучшей практики», во всяком случае, и шаг № 3 в дополнение к шагам № 1 и № 2, возможно (поскольку они не будут эффективными сами по себе).
В консоли поиска Google также есть возможность (временно) удалять URL-адреса. Это особенно полезно, если некоторые упрямые страницы все еще проиндексированы, но вы знаете, что корневой источник проблемы был решен, и этого средства должно быть достаточно, чтобы раз и навсегда избавиться от них из результатов поиска.
Я не включил это в качестве шага выше, так как, несмотря на то, что исследовал это раньше, я не могу вспомнить, будет ли он поддерживать URL с параметрами [необходимо цитирование]. Я когда-то знал ответ, но моя память подводит меня в этом конкретном случае.
Подробнее о удалении URL-адресов из Google .
источник
robots.txt
(# 3) , то не будете блокировать эти кампании от того отслеживается ? ... а также предотвратить чтение канонического тега на странице (# 1)?noindex: /*?utm=*
в robots.txt.Похоже, что вы используете эти ссылки внутри содержимого вашего сайта, чтобы связать страницы вместе.
Чтобы убедиться, что Google не будет индексировать, вы можете добавить
rel="nofollow"
к этим ссылкам внутри своего сайта и заблокировать эти параметры из файла robots.txt:источник
Вы проверили, что ваш канонический URL был проиндексирован или нет? Если канонический URL был проиндексирован, беспокоиться не о чем.
Вы можете попробовать Инструменты Google для веб-мастеров и изменить способ, которым Google обрабатывает параметры URL здесь .
источник