Почему Инструменты Google для веб-мастеров сканируют недействительные URL-адреса и показывают 500 ошибок?

11

Инструменты Google для веб-мастеров сообщают о 12k + 500 ошибок. EEEK!

Ни один из URL-адресов не является действительным - все они содержат www.youtube.com. Во-первых, почему Google сканирует эти URL-адреса, если они не существуют? Я предоставил карту сайта, и они, конечно, не включены в карту сайта.

У меня нет robots.txt, блокирующего что-либо. Я проверил наличие недействительных перенаправлений - нет, и проверил наличие незакрытых тегов или чего-то, что случайно добавило бы www.youtube.com в URL - нет.

В каждом «связанном с» ссылочном URL-адресе также указан неверный URL-адрес, содержащий www.youtube.com. Инструменты Google сообщают об отсутствии вредоносного ПО, и я не могу проверить журналы сервера, потому что хост не предоставит мне доступ.

Действительно застрял! Любые идеи приветствуются!

Амос Кейн
источник
Можете ли вы опубликовать несколько примеров, пожалуйста?
ionFish
Является ли ваш сайт Wordpress или другой блог-платформой?
Ubique
3
Если вы видите ошибки HTTP 500 (ошибки сервера) для недействительных URL-адресов, возможно, у вас есть проблема в настройке - недопустимые URL-адреса должны возвращать 404 или 410.
Джон Мюллер

Ответы:

8

Существует (как минимум) две распространенные причины, по которым странные и искаженные URL-адреса могут отображаться как ошибки сканирования в Инструментах для веб-мастеров.

Первая возможность состоит в том, что кто-то скопировал ваши страницы (или некоторые другие страницы, которые ссылаются на ваши) и исказил ссылки в процессе. Это происходит чаще, чем вы думаете; см., например, шестой вопрос в этой записи блога Google для веб-мастеров .

Другая возможность состоит в том, что сам робот Googlebot пытается следовать тому, что он считает ссылками JavaScript, и создает беспорядок . Обычно эти два случая можно отличить друг от друга, посетив ссылающуюся страницу (которая должна существовать и быть доступной, если Google удалось сканировать ее с самого начала) и найти имя целевой страницы в ее источнике.

В любом случае, вы можете сделать две вещи: либо просто игнорировать ссылки, либо придумать правила переписывания, чтобы попытаться сопоставить неработающие URL-адреса с рабочими. Если вы видите очевидную закономерность в URL-адресах и знакомы с регулярными выражениями, я бы порекомендовал второй подход - он очистит ваш список ошибок сканирования и, возможно, даже даст вам небольшой и довольно глупый, но реальный, PageRank импульс ,

Третий вариант, если вы обнаружите, что кто-то копирует ваш контент без разрешения, это попытаться исключить его из списка . Вы даже можете отправить жалобу (и / или официальный запрос на удаление) их хостинг-провайдеру, если вы считаете это оправданным. Конечно, при условии , что они являются , по- видимому ссылки на ваш сайт, вы можете не обязательно найти , что стоит усилий.

Илмари Каронен
источник
0

Google индексирует сайт не сразу сразу на всех страницах.

Google индексирует страницы в первую очередь высшего уровня. Затем через несколько дней Google пытается глубже проиндексировать - страницы второго уровня (страницы, на которых Google нашел ссылки на страницах первого уровня) и так далее. Таким образом Google пытается проиндексировать каждую страницу на сайте. Таким образом, Google создает иерархическое дерево ссылок, и Google знает, какие страницы связаны с каждой страницей.

Затем через некоторое время Google пришел на каждую проиндексированную страницу и проверил, изменился ли контент на странице. Интервал индексации для каждой страницы и каждого сайта зависит от многих факторов.

Поэтому, если вы удалите какую-либо страницу и обновили все ссылки на эту страницу на всех других страницах - Google не узнает об этом сразу и пытается проиндексировать удаленную страницу, потому что она планирует проиндексировать эту страницу в своем расписании.

webvitaly
источник