Почему Google индексирует страницы с помощью строки запроса utm_campaign?

9

Недавно я заметил, что Google индексирует URL-адреса, содержащие аргументы строки запроса utm_campaign, utm_source и utm_medium. В результате Google показывает URL с этими строками запроса, а не каноническим URL:

utm_campaign добавлен в URL

Я понимаю, что это может быть проблемой с дублирующимся содержимым, но я использовал этот link rel=canonicalтег на своем веб-сайте. В качестве одного примера:

[snip]
<meta name="description" content="App store optimization helps discovery and rank on Google Play and the App Store. Publishers can use ASO by following these simple steps."/>
<meta name="robots" content="noodp"/>
<link rel="canonical" href="https://sweetpricing.com/blog/2016/11/app-store-optimization/" />
<meta property="og:locale" content="en_US" />
[snip]

Скриншот канонического тега

Я ожидаю, что Google должен использовать канонический URL для индексации. Что я делаю неправильно?

Брендон
источник
2
Даже без канонического тега робот Googlebot обычно игнорирует параметры UTM, поскольку знает, что они используются только для отслеживания. Я никогда не видел их индексируемыми прежде, особенно с каноническим.
Стивен Остермиллер
4
FWIW site:stackexchange.com inurl:utm_campaignтакже возвращает аналогичные результаты (в несколько большем масштабе). Также обратите внимание, что site:поиски часто возвращают неканонические URL-адреса в результатах, которые обычно не возвращаются при «нормальном» поиске. Однако вышеприведенные URL-адреса также, похоже, возвращаются и при «нормальном» поиске.
MrWhite

Ответы:

3

Пересматривая ваш веб-сайт таким, какой он есть сейчас, я не слишком уверен, что это проблема больше / сейчас.

Проблема заключается не в внутренней связи на вашем сайте с включением параметров UTM (как предполагает другой вопрос).

Похоже, что какой-то процесс, которым вы должны делиться контентом своего веб-сайта в социальных сетях, оставляет параметры UTM в URL-адресах и разделяет эти URL-адреса, что в какой-то момент привело к их индексации.

Это редко случается, но это случалось со многими другими сайтами раньше. Тот факт, что только три страницы проиндексированы с этими параметрами, свидетельствует о том, что это не является серьезной проблемой или проблемой, связанной с другими вопросами.

Вот шаги, которые вы можете предпринять, чтобы помочь искоренить это: -

1. Укажите канонический URL на своих страницах

Вы уже делаете это, и реализация верна. Это обеспечит вес в поисковых системах только указанному каноническому URL. Предположительно, это всегда было на месте, но если нет, то это могло бы объяснить, почему есть некоторые старые экземпляры страниц, все еще проиндексированные с параметрами UTM.

Правильная реализация канонических URL

2. Поручить Google не индексировать параметры UTM в консоли поиска.

В случае, когда некоторые URL-адреса индексируются с параметрами UTM (как в вашем случае), параметр URL-адреса должен отображаться как обнаруженный в разделе «Crawl> URL-параметры» консоли поиска Google для вашего домена (см. Ниже).

Параметры URL UTM консоли поиска Google

Даже если параметры UTM не отображаются, вы можете «Добавить параметр» для их создания.

Просто выберите No: Doesn't affect page content (ex: tracks usage)(известный как «Пассивные параметры»), и Google будет обычно сканировать только один URL с определенным значением параметра .

3 Запретите параметры URL в вашем robots.txt

Это заблокирует Google от индексации содержимого этих URL-адресов, но не самих URL-адресов (они все равно могут отображаться в результатах поиска, но просто опустят описание, как показано ниже).

Индексированная страница запрещена в robots.txt

Просто добавив что-то вроде следующего, вы справитесь с этим robots.txt:

Disallow: /*?utm=*

Вывод

Шаги № 1 и № 2 должны быть выполнены в качестве меры предосторожности и «наилучшей практики», во всяком случае, и шаг № 3 в дополнение к шагам № 1 и № 2, возможно (поскольку они не будут эффективными сами по себе).

В консоли поиска Google также есть возможность (временно) удалять URL-адреса. Это особенно полезно, если некоторые упрямые страницы все еще проиндексированы, но вы знаете, что корневой источник проблемы был решен, и этого средства должно быть достаточно, чтобы раз и навсегда избавиться от них из результатов поиска.

Я не включил это в качестве шага выше, так как, несмотря на то, что исследовал это раньше, я не могу вспомнить, будет ли он поддерживать URL с параметрами [необходимо цитирование]. Я когда-то знал ответ, но моя память подводит меня в этом конкретном случае.

Подробнее о удалении URL-адресов из Google .

zigojacko
источник
1
Но если вы будете блокировать эти адреса из существ для обхода с помощью robots.txt(# 3) , то не будете блокировать эти кампании от того отслеживается ? ... а также предотвратить чтение канонического тега на странице (# 1)?
MrWhite
Я согласен с тем, что w3dk говорит о robots.txt. Во всяком случае используйте noindex: /*?utm=*в robots.txt.
Стивен Остермиллер
2

Похоже, что вы используете эти ссылки внутри содержимого вашего сайта, чтобы связать страницы вместе.

Чтобы убедиться, что Google не будет индексировать, вы можете добавить rel="nofollow"к этим ссылкам внутри своего сайта и заблокировать эти параметры из файла robots.txt:

Disallow : /*utm_campaign
Надим Хаддадин
источник
Хорошо поймать, что они используются для внутренних ссылок. Это объясняет разницу с большинством сайтов, где они обычно используются только для входящих ссылок.
Стивен Остермиллер
Фактически URL-адреса utm_campaign добавляются Buffer.com - например, они выглядят как «utm_source = plus.google.com & utm_campaign = buffer». Я не думаю, что я использую эти ссылки в любом месте на сайте.
Брендон
1

Вы проверили, что ваш канонический URL был проиндексирован или нет? Если канонический URL был проиндексирован, беспокоиться не о чем.

Вы можете попробовать Инструменты Google для веб-мастеров и изменить способ, которым Google обрабатывает параметры URL здесь .

Мухаммед Усман
источник
1
Для некоторых URL-адресов индексируется только URL-адрес utm_campaign. Для других страниц оба URL-адреса отображаются в индексе. Вчера я использовал Fetch как инструмент Google для сканирования одного URL (со строкой запроса utm_campaign) - теперь этот URL, похоже, исчез, и теперь канонический URL проиндексирован.
Брендон
Кроме того, статистика сканирования ( скриншот ), по-видимому, показывает, что страницы сканируются очень долго (в среднем 2,3 с). Я не уверен, является ли это широко распространенной проблемой, но, возможно, у Google есть некоторые проблемы при сканировании сайта.
Брендон
Вы также можете сделать небольшую уборку, как только посетитель попадет на ваш сайт. Используйте ссылку Fresh URL script для динамического удаления любых параметров UTM из URL после получения выгоды от него. Во-вторых, добавьте параметры URL ...
Мухаммед Усман