Как остановить накопление ошибок Soft 404 на странице «Нет результатов»?

9

Недавно я заметил, что у меня есть растущий список ошибок Soft 404 в Google Webmaster Tools. Все они предназначены для динамически генерируемых страниц с результатами поиска, которые сообщают "Совпадений не найдено".

Я действительно понимаю , что означает , что Google с помощью Soft 404 и почему они сообщают о его для этих страниц. Поэтому я добавил <meta name="robots" content="noindex">к этим страницам.

Однако Google по-прежнему сообщает о новых ошибках Soft 404 для страниц, использующих метатег noindex .

Почему Google сообщить любую ошибку на странице , я сказал им , не индексировать?

Проблема в том, что со всеми этими нежелательными ошибками я не вижу, есть ли реальные проблемы, которые нужно исправить.

Некоторые говорят, что эти страницы должны возвращать код состояния 404. Но это только переносит проблему на вкладку 404 ошибок. Кроме того, Google возвращает код состояния 200 для их страницы без результатов .

Я не хочу блокировать доступ с robots.txt, потому что я хочу, чтобы ссылки на этих страницах следовали, и я хочу, чтобы Google видел метатег noindex . Кроме того, нет никакого шаблона, который я мог бы использовать, чтобы заблокировать их.

Google нашел эти URL в первую очередь потому, что контент раньше существовал, но с тех пор был удален. Я не могу вернуть код состояния 410, потому что мой код PHP не может узнать причину, по которой не было найдено никаких результатов.

Что я могу сделать, чтобы было легче увидеть реальные проблемы?

toxalot
источник
Как Google находит эти поисковые URL? Вы связываете их откуда-то?
Рассерженная шлюха
Смотрите следующий вопрос: webmasters.stackexchange.com/q/55624/33777
toxalot
@DisgruntledGoat, я видел это на многих своих сайтах. Роботу Google предоставлена ​​возможность выполнять поиск. Я не слишком уверен, действительно ли это было проблемой. Но мне никогда не удавалось найти другой источник для их странных поисков .
Алексис

Ответы:

7

Вы должны запретить Google сканировать страницы поиска по сайту. Google не хочет сканировать ваш поиск по сайту вообще . Вот сообщение в блоге Мэтта Каттса от Google о проблеме: Результаты поиска в результатах поиска Мэтта Каттса от 10 марта 2007 года . В настоящее время Google активно наказывает сайты, которые позволяют сканировать результаты поиска по их сайту и отображаться в поисковой выдаче Google. Позволяя роботу Googlebot сканировать страницы результатов поиска, вы рискуете всем своим трафиком рефералов Google. Один из любимых приемов рецензента Google - использовать поиск по сайту для таких терминов, как «Виагра». Когда они видят просматриваемую страницу в качестве результата (даже если она говорит «никаких результатов для Виагры не найдено»), они будут применять ручное наказание к вашему сайту как спам-сайту.

Вы должны поставить свой поиск по сайту в robots.txt. Просто убедитесь, что робот Googlebot все еще может сканировать ваши контентные страницы. После этого вы перестанете получать новые сообщения об ошибках soft 404.


Большое количество 404 ошибок (даже мягких 404 ошибок) не влияет на рейтинг вашего сайта. Google сообщает об ошибках на любой странице, которую они могут найти и сканировать, независимо от того, хотите ли вы, чтобы она была проиндексирована, и даже если вы даже не ссылаетесь на нее. Они делают это, потому что сообщения об ошибках предназначены исключительно для вашей выгоды, и они чувствуют, что вы должны быть полностью информированы.

Вот что говорит по этому поводу Джон Мюллер из Google :

  1. 404 ошибки на недействительных URL-адресах никоим образом не влияют на индексацию или рейтинг вашего сайта. Неважно, 100 или 10 миллионов, они не повредят рейтинг вашего сайта. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. В некоторых случаях ошибки сканирования могут быть вызваны законной структурной проблемой на вашем веб-сайте или в CMS. Как вы говорите? Дважды проверьте источник ошибки сканирования. Если на вашем сайте есть неработающая ссылка в статическом HTML страницы, это всегда стоит исправить. (спасибо + Мартино Мосна)
  3. А как насчет фанки URL, которые «явно не работают»? Когда нашим алгоритмам нравится ваш сайт, они могут попытаться найти на нем более качественный контент, например, пытаясь обнаружить новые URL в JavaScript. Если мы попробуем эти «URL» и найдем 404, это здорово и ожидаемо. Мы просто не хотим пропустить ничего важного (вставьте сюда слишком привязанный мем Googlebot). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Вам не нужно исправлять ошибки сканирования в Инструментах для веб-мастеров. Функция «пометить как фиксированную» предназначена только для того, чтобы помочь вам, если вы хотите отслеживать свой прогресс в этом деле; это ничего не меняет в нашем конвейере веб-поиска, поэтому не стесняйтесь игнорировать это, если вам это не нужно. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. Мы перечисляем ошибки сканирования в Инструментах для веб-мастеров по приоритету, что основано на нескольких факторах. Если первая страница ошибок сканирования явно не имеет значения, вы, вероятно, не найдете важных ошибок сканирования на других страницах. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Нет необходимости «исправлять» ошибки сканирования на вашем сайте. Поиск 404 - это нормально и ожидается от здорового, хорошо настроенного веб-сайта. Если у вас есть эквивалентный новый URL, то перенаправление на него является хорошей практикой. В противном случае вам не следует создавать фальшивый контент, вы не должны перенаправлять на свою домашнюю страницу, вы не должны robots.txt запрещать эти URL-адреса - все это затрудняет нам распознавание структуры вашего сайта и его правильную обработку. Мы называем эти «мягкие 404» ошибки. http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Очевидно - если эти ошибки сканирования обнаруживаются для нужных вам URL-адресов, возможно, для URL-адресов в вашем файле Sitemap, то вам следует немедленно принять меры. Если робот Googlebot не может сканировать ваши важные URL-адреса, они могут быть исключены из наших результатов поиска, и пользователи также не смогут получить к ним доступ.
Стивен Остермиллер
источник
Это не «трюк», чтобы предотвратить индексацию бесполезных поисковых страниц. Нет ничего более расстраивающего, чем поиск по термину в Google и получение списка результатов поиска, а не каких-либо реальных результатов. Так что Google наказывает это поведение. Когда вы думаете об этом с точки зрения пользователя, становится очевидным, что временные результаты поиска должны быть проиндексированы не самими страницами контента. Вот почему вы должны использовать что-то вроде карты сайта для индексаторов и использовать динамические страницы поиска в качестве ярлыка только для пользователей.
JamesRyan
Тогда почему результаты индекса Google Yellow Yellow и тому подобное?
Токсалот
Я не думаю, что Google хочет индексировать большинство желтых страниц сайтов, по крайней мере, не делать их заметными в результатах поиска. Superpages.com имеет свою штаб-квартиру вниз по улице от меня. Несколько лет назад Google опустошил рейтинг по всем направлениям. Я неожиданно брал интервью у их разработчиков, которых мы искали для новой работы.
Стивен Остермиллер
2
@StephenOstermiller У вас есть ссылка на то, где Google говорит, что они наказывают сайты, которые позволяют сканировать поисковые страницы? Я ничего не могу найти по этому поводу.
AlexP
1
Что касается Виагры, это не хорошо для меня. Мой сайт отслеживает судебные процессы, и было много реальных юридических споров по поводу патентов, связанных с Виагрой. Как они предотвращают эти ложные срабатывания?
скоростной самолет