Инструменты Google для веб-мастеров сообщают о 12k + 500 ошибок. EEEK!
Ни один из URL-адресов не является действительным - все они содержат www.youtube.com. Во-первых, почему Google сканирует эти URL-адреса, если они не существуют? Я предоставил карту сайта, и они, конечно, не включены в карту сайта.
У меня нет robots.txt, блокирующего что-либо. Я проверил наличие недействительных перенаправлений - нет, и проверил наличие незакрытых тегов или чего-то, что случайно добавило бы www.youtube.com в URL - нет.
В каждом «связанном с» ссылочном URL-адресе также указан неверный URL-адрес, содержащий www.youtube.com. Инструменты Google сообщают об отсутствии вредоносного ПО, и я не могу проверить журналы сервера, потому что хост не предоставит мне доступ.
Действительно застрял! Любые идеи приветствуются!
источник
Ответы:
Существует (как минимум) две распространенные причины, по которым странные и искаженные URL-адреса могут отображаться как ошибки сканирования в Инструментах для веб-мастеров.
Первая возможность состоит в том, что кто-то скопировал ваши страницы (или некоторые другие страницы, которые ссылаются на ваши) и исказил ссылки в процессе. Это происходит чаще, чем вы думаете; см., например, шестой вопрос в этой записи блога Google для веб-мастеров .
Другая возможность состоит в том, что сам робот Googlebot пытается следовать тому, что он считает ссылками JavaScript, и создает беспорядок . Обычно эти два случая можно отличить друг от друга, посетив ссылающуюся страницу (которая должна существовать и быть доступной, если Google удалось сканировать ее с самого начала) и найти имя целевой страницы в ее источнике.
В любом случае, вы можете сделать две вещи: либо просто игнорировать ссылки, либо придумать правила переписывания, чтобы попытаться сопоставить неработающие URL-адреса с рабочими. Если вы видите очевидную закономерность в URL-адресах и знакомы с регулярными выражениями, я бы порекомендовал второй подход - он очистит ваш список ошибок сканирования и, возможно, даже даст вам небольшой и довольно глупый, но реальный, PageRank импульс ,
Третий вариант, если вы обнаружите, что кто-то копирует ваш контент без разрешения, это попытаться исключить его из списка . Вы даже можете отправить жалобу (и / или официальный запрос на удаление) их хостинг-провайдеру, если вы считаете это оправданным. Конечно, при условии , что они являются , по- видимому ссылки на ваш сайт, вы можете не обязательно найти , что стоит усилий.
источник
Google индексирует сайт не сразу сразу на всех страницах.
Google индексирует страницы в первую очередь высшего уровня. Затем через несколько дней Google пытается глубже проиндексировать - страницы второго уровня (страницы, на которых Google нашел ссылки на страницах первого уровня) и так далее. Таким образом Google пытается проиндексировать каждую страницу на сайте. Таким образом, Google создает иерархическое дерево ссылок, и Google знает, какие страницы связаны с каждой страницей.
Затем через некоторое время Google пришел на каждую проиндексированную страницу и проверил, изменился ли контент на странице. Интервал индексации для каждой страницы и каждого сайта зависит от многих факторов.
Поэтому, если вы удалите какую-либо страницу и обновили все ссылки на эту страницу на всех других страницах - Google не узнает об этом сразу и пытается проиндексировать удаленную страницу, потому что она планирует проиндексировать эту страницу в своем расписании.
источник