Google все еще сканирует и индексирует мои старые, фиктивные, тестовые страницы, которые сейчас не найдены.

19

Я настроил свой сайт с примерами страниц и данными (lorem ipsum и т. Д.), И Google просканировал эти страницы. Я удалил все эти страницы и фактически добавил реальный контент, но в инструментах для веб-мастеров я все еще получаю 404 ошибки, которые Google пытается сканировать на этих страницах. Я установил для них «пометить как решенные», но некоторые страницы все еще возвращаются как 404.

Кроме того, у меня много примеров страниц, которые все еще перечислены, когда я выполняю поиск своего сайта в Google. Как их убрать. Я думаю, что эти нерелевантные страницы вредят моему рейтингу.

Я действительно хотел стереть все эти страницы и начать индексировать мой сайт как новый, но я прочитал, что это невозможно? (Я отправил карту сайта и использовал «Получить как Google».)

туз
источник

Ответы:

17

Ладно. Обо всем по порядку. Не отмечайте свой 404 как исправленный . Вы на самом деле продлеваете проблему. Google попытается получить страницу, которая возвращает 404 несколько раз, прежде чем сдаться. Это связано с тем, что ошибка 404 указывает на временную ситуацию, когда ошибка 410 говорит о том, что страница исчезла . Таким образом, каждый раз, когда вы помечаете 404 как исправленный , вы фактически говорите Google повторить попытку, таким образом снова и снова запуская процесс исключения.

Просто дайте этим страницам некоторое время 404, и Google перестанет их искать и удалит страницы из индекса. Это займет время, но если не считать ошибки 410, это самый простой способ. Ошибка 410 ускорит процесс, но сложнее представить ошибку 410, а по умолчанию используется значение 404, что делает его более простым и естественным решением.

Ваши удаленные страницы исчезнут через 30-60 дней, если вы сможете подождать. Это зависит от того, как часто Google посещает ваши страницы. Это может занять больше времени, но после того, как 404 найдены, Google любит сначала проверять сайт, а затем, в зависимости от количества 404, может стать более агрессивным.

Использование карты сайта на самом деле не решает никаких проблем с индексом. Это только делает жизнь проще для поисковых систем. Он никогда не считается окончательным списком страниц, которые есть у любого сайта. Если поисковая система читает карту сайта и все еще находит страницы, не указанные в карте сайта, она продолжит индексировать эти страницы.

Один из вариантов, если это имеет смысл, - перечислить эти страницы в файле robots.txt. Если их не так много (имеется в виду что-то, что вы можете сделать, и ваш файл robots.txt не будет слишком длинным), это было бы более быстрым решением. В противном случае, я бы просто подождал и позволил 404 ошибкам истечь самостоятельно.

Последнее слово. Вы будете в порядке. В самом деле. Все это будет очень хорошо для вас, если вы терпеливы.

closetnoc
источник
1
Добавление 404 страниц в robots.txt звучит как плохая практика. Это только сбивает с толку гусеницу и отнимает много ненужного домашнего хозяйства.
Дорус
@ Дорус Вовсе нет. Один не имеет ничего общего с другим. Добавление любой страницы в файл robots.txt очень быстро удалит страницу из индекса. Кроме того, поисковая система не будет пытаться получить доступ к файлу и, следовательно, нет 404.
closetnoc
1
Как вы говорите, если вы добавите его в robots.txt, поисковая система не будет пытаться получить доступ к странице, но страница все равно будет существовать. Так что если однажды вы удалите его из роботов, индексирование вернется. Лучше позволить 404 или 410 делать работу.
@closetnoc Что ты имел в виду it is harder to present a 410 error?
Евгений
@Evgeniy Ошибка 404 - это то, что указано по умолчанию (Apache по крайней мере и IIS старых версий). Ошибка 410 должна быть преднамеренной и требует определенной работы, чтобы это произошло. Технически, это не сложная задача, однако, она требует определенных знаний, хотя и не так много. Ура !!
closetnoc
8

После того, как вы опубликуете страницу, Google никогда не забудет об этом. У меня есть сайты, с которых я удалил страницы 15 лет назад. Робот Google по-прежнему возвращается и время от времени проверяет эти страницы.

Чтобы предотвратить отображение страниц в поисковой системе, ваши ошибки 404 сделают эту работу. Google может занять день, чтобы удалить страницу из индекса после следующего сканирования роботом Google. Если вы хотите, чтобы он был удален быстрее, верните вместо него статус «410 Gone». Google удаляет 410 страниц сразу после сканирования, а не ждет дня. Google не удаляет сразу 404 страницы, чтобы веб-мастера не стреляли себе в ногу, как описано Мэттом Каттсом :

Таким образом, с 404-м, наряду с, я думаю, 401-м и, возможно, 403-м, если мы увидим страницу и получим 404-е, мы будем защищать эту страницу в течение 24 часов в системе сканирования, поэтому мы как бы подождали и сказали, что, возможно, это было переходный процесс 404, возможно, он действительно не был предназначен, чтобы страница не была найдена.

Другой метод, который вы могли бы рассмотреть, это перенаправление. 301, перенаправив старую страницу на замену, предотвратит ее появление как ошибку в Инструментах Google для веб-мастеров. Это возможно только при наличии новой страницы для каждой из старых страниц. Перенаправление всех тестовых страниц на домашнюю страницу не поможет, потому что Google считает перенаправления на домашнюю страницу «мягкими ошибками 404», которые все равно будут отображаться в этом отчете.

Наличие 404 ошибок в Инструментах для веб-мастеров не повредит вам. Наличие около 404 ошибок на вашем сайте может даже помочь вам, потому что это показывает Googlebot, что ваш сайт настроен правильно. Вот что говорит Джон Мюллер из Google (который работает с инструментами для веб-мастеров и картами сайтов) о 404 ошибках, которые появляются в инструментах для веб-мастеров :

ПОМОГИТЕ! МОЙ САЙТ ИМЕЕТ 939 КРОЛ ОШИБКИ !! 1

Я вижу подобные вопросы несколько раз в неделю; Вы не одиноки - многие сайты имеют ошибки сканирования.

  1. 404 ошибки на недействительных URL-адресах никоим образом не влияют на индексацию или рейтинг вашего сайта . Неважно, 100 или 10 миллионов, они не повредят рейтинг вашего сайта. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. В некоторых случаях ошибки сканирования могут быть вызваны законной структурной проблемой на вашем веб-сайте или в CMS. Как вы говорите? Еще раз проверьте источник ошибки сканирования. Если на вашем сайте есть неработающая ссылка в статическом HTML страницы, это всегда стоит исправить. (спасибо + Мартино Мосна )
  3. А как насчет прикольных URL-адресов, которые «явно не работают»? Когда наши алгоритмы любят ваш сайт, они могут попытаться найти на нем более интересный контент, например, пытаясь обнаружить новые URL-адреса в JavaScript. Если мы попробуем эти «URL» и найдем 404, это здорово и ожидаемо. Мы просто не хотим пропустить ничего важного (вставьте сюда слишком привязанный мем Googlebot). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Вам не нужно исправлять ошибки сканирования в Инструментах для веб-мастеров. Функция «пометить как фиксированную» предназначена только для того, чтобы помочь вам, если вы хотите отслеживать свой прогресс в этом деле; это ничего не меняет в нашем конвейере веб-поиска, поэтому не стесняйтесь игнорировать это, если вам это не нужно. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. Мы перечисляем ошибки сканирования в Инструментах для веб-мастеров по приоритету, что основано на нескольких факторах. Если первая страница ошибок сканирования явно не имеет значения, вы, вероятно, не найдете важных ошибок сканирования на других страницах. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Нет необходимости «исправлять» ошибки сканирования на вашем сайте. Поиск 404 - это нормально и ожидается от здорового, хорошо настроенного веб-сайта. Если у вас есть эквивалентный новый URL, то перенаправление на него является хорошей практикой. В противном случае вы не должны создавать фальшивый контент, не должны перенаправлять на свою домашнюю страницу, вы не должны robots.txt запрещать эти URL-адреса - все это затрудняет нам распознавание структуры вашего сайта и его правильную обработку. Мы называем эти «мягкие 404» ошибки. http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Очевидно - если эти ошибки сканирования обнаруживаются для нужных вам URL-адресов, возможно, для URL-адресов в вашем файле Sitemap, то вам следует немедленно принять меры. Если робот Googlebot не может сканировать ваши важные URL-адреса, они могут быть исключены из наших результатов поиска, и пользователи также не смогут получить к ним доступ.
Стивен Остермиллер
источник
1
Это не был мой опыт вообще. Google хочет новый индекс и довольно быстро удаляет страницы. То, что я вижу, похоже на то, что вы описываете, когда другие сайты, использующие API Google в прошлом, не обновляют свои данные и будут ссылаться на вашу более старую работу. Это часто спам / нежелательные сайты, и эти цитаты могут появляться / оставаться / исчезать / появляться снова. Основная причина, по которой я это вижу, заключается в том, что API Google раньше был довольно беспорядочным и больше не является, таким образом, данные о спаме намного старше, потому что новые данные очень трудно найти, особенно если вы спамовали в прошлом.
closetnoc
1
У робота Google есть режим сканирования, который я называю «мы нашли коробку URL в подвале». В этом режиме сканирования он может сканировать тысячи URL-адресов с вашего сайта подряд, ни один из которых вы не использовали годами. URL-адреса обычно не имеют входящих ссылок, даже со скребковых сайтов. Они сканируются в порядке длины, короткие URL-адреса сканируются первыми.
Стивен Остермиллер
Это может быть правдой. Гугл явно большие данные. В любой большой базе данных есть шум. Это неизбежно. Это может быть то, что вы испытываете. Возможно, что различные базы данных согласовываются. Это имеет смысл. Но я также предупреждаю, что нежелательные сайты могут появляться только 2 часа со старыми ссылками и старыми цитатами. Я вижу это ежедневно. Они в основном в России и Польше. Эти сайты используются для игры локальных поисковых систем, но влияют на трафик на любой сайт и могут быть получены Google. Я получаю около 12 таких в своей базе данных каждый день. Как правило, только 1 из 12 сайтов остается на любой период.
closetnoc
Что за ошибка 939?
Грег Николофф,
939 - это количество ошибок, это не тип ошибки.
Стивен Остермиллер
5

Google, вероятно, продолжит пытаться сканировать эти страницы в течение длительного времени. Веб-мастера допускают ошибки, или сайты по какой-либо причине становятся недоступными, поэтому Google не будет удалять контент при первых признаках 404.

В качестве альтернативы вы можете подать 410 Gone вместо. Это гораздо более сильный (то есть преднамеренный) сигнал о том, что страница буквально «ушла» и больше не возвращается. Это может побудить Google быстрее удалить страницу из поисковой выдачи.

Я установил для них «пометить как решенные», но некоторые страницы все еще возвращаются как 404.

Они только "решены", если вы вернули страницу назад. Если вы отметите его как разрешенное, а страница не существует, тогда ошибка сканирования просто повторится. Если страница не существует, просто оставьте ее как есть.

Подлинные 404 не повредят вашему поисковому рейтингу. Отчет 404 в GWT в первую очередь для вашего удобства, поэтому вы можете видеть, когда что-то идет не так ... когда не удается найти страницы, которые нужно найти!

Эти нерелевантные страницы в поисковой выдаче, возможно, являются небольшим раздражением для ваших пользователей, однако, что они ищут, чтобы найти ваш lorem ipsum ?

MrWhite
источник