Почему Google прекратил индексирование страниц из нашего sitemap.xml?

18

Мы видим некоторые страницы, которые существуют в нашей, sitemap.xmlно необъяснимо отсутствуют в общедоступном поисковом индексе Google.

Вы не можете скачать /superuser//sitemap.xml - мы защищаем этот файл, потому что в прошлом были проблемы с ним - но googlebot может. С помощью Инструментов Google для веб-мастеров мы убедились, что сегодня sitemap.xmlфайл был удален и имеет рейтинг «ОК», ошибок нет (зеленая галочка).

альтернативный текст

sitemap.xmlСодержит список последних 50000 вопросов на нашем сайте , которые были заданы. Например, этот вопрос ...

/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links

... существует в sitemap.xmlвиде ...

<url>
<loc>/superuser/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>

Поиск по «Как увидеть конец длинной цепочки символических ссылок» дает только один результат для questionhub.com, который очищает наши данные (совсем другая проблема).

Вы можете увеличить число подсчета вопросов и выполнить точный поиск заголовка вопроса, и вы увидите, что этот шаблон сохраняется.

Эти URL-адреса находятся в файле sitemap.xml, но они не отображаются в индексе Google - и тем не менее они отображаются на сайтах, которые очищают данные о наших объявлениях. С чего бы это?

Майкл Прайор
источник
5
Вы всегда можете спросить на центральном форуме Google для веб-мастеров. google.com/support/forum/p/Webmasters?hl=ru
Алекс Блэк,
Что-то определенно не так. ЭТОТ вопрос уже проиндексирован в Google, но связанный вопрос о суперпользователе STILL не отображается в индексе.
Майкл Прайор
Джефф может подумать только о том, чтобы спросить Мэтта Каттса. Я видел, как они разговаривали друг с другом несколько раз в Твиттере. Он обычно довольно готов помочь.
Virtuosi Media
3
В настоящее время мы наблюдаем некоторые проблемы с индексацией нового контента на некоторых сайтах. Там есть поток в нашем справочном форуме в google.com/support/forum/p/Webmasters/... об этом. URL, который вы упомянули, похоже, затронут. Я полагаю, что это будет решено в ближайшее время, но пока нет доступных сроков. Спасибо за ваше терпение.
Джон Мюллер
1
Похоже, это решено сейчас :-). Я попробовал несколько новых вопросов с сайта, и все они были проиндексированы. Woot!
Джон Мюллер

Ответы:

10

Похоже, что на этой неделе у Google возникли проблемы с техническим сканированием, которые удивительно похожи на то, что мы испытывали:

http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing-problems-53701

Кажется, никто не застрахован от проблемы индексации Google, которая ставит в тупик многих владельцев сайтов. Блоги и сайты, большие и маленькие, индексируются не так быстро, как обычно - если они вообще индексируются.

...

Джон из Google ответил на ветку на форумах для веб-мастеров, сказав:

Просто чтобы прояснить, проблемы из этой ветки, которые я подробно рассмотрел, не связаны с изменениями в нашей политике или изменениями в наших алгоритмах; они связаны с технической проблемой на нашей стороне, которая будет визуально разрешена в кратчайшие сроки (хотя может потребоваться до нескольких дней, чтобы быть видимой для всех сайтов)

Джефф Этвуд
источник
7

Google не делает никаких предложений и не гарантирует, что страницы в карте сайта будут проиндексированы.

По моему опыту, страница должна быть связана (со страницы какого-либо авторитета), чтобы появиться. Связана ли эта страница / вопрос прямо / косвенно со страницы с определенными правами?

Например, если домашняя страница superuser.com (предположительно, с множеством ссылок) имеет прямую ссылку на этот вопрос или косвенную ссылку на него через ряд других страниц, то можно ожидать, что он будет проиндексирован.

От Google:

Google не гарантирует, что мы будем сканировать или индексировать все ваши URL. Однако мы используем данные в вашем файле Sitemap, чтобы узнать о структуре вашего сайта, что позволит нам улучшить наш график сканирования и улучшить работу по сканированию вашего сайта в будущем. В большинстве случаев веб-мастера получат выгоду от отправки файла Sitemap, и ни в коем случае вы не будете оштрафованы за это.

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156184

Алекс Блэк
источник
4
Суперпользователь должен иметь достаточно ссылок и PR, чтобы проиндексировать эти страницы с картой сайта или без нее. И второстепенные страницы постоянно отображаются в списке. Фактически они составляют большую часть индекса. Я подозреваю, что что-то еще является виновником.
Джон Конде
Согласитесь, на сайте много пиара и ссылок. Но есть ли вероятность, что на данной странице нет ссылок? Если superuser.com (случайно) не ссылается на страницу, что это говорит Google? это говорит, что страница не важна.
Алекс Блэк
2
Эта страница была определенно связана с главной страницей и по-прежнему связана с рядом других страниц. Сайты SE очень тяжелые.
Кевин Монтроуз
1
однажды вчера одним из моих обращений к тестовому вопросу стала домашняя страница superuser.com - с целевым URL, видимым на ней, даже в кеше Google! И все же сам вопрос не был проиндексирован. Очень странный.
Джефф Этвуд
2
абсолютно - нажмите на вкладку HOT на главной странице или на вкладке ЕЖЕНЕДЕЛЬНО или ЕЖЕМЕСЯЧНО. Прямо там ..
Джефф Этвуд
3

Я думаю, что Google может быть трудно индексировать ваши веб-страницы, 50.000 много. Так что мое предложение будет разбить вашу карту сайта на куски, как это

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Если вы потерпите неудачу, вам повезет, если эти 50 000 URL будут проиндексированы.

Sitemaps.org объяснение проблемы

Вы можете предоставить несколько файлов Sitemap, но каждый предоставленный вами файл Sitemap должен содержать не более 50 000 URL-адресов и не должен превышать 10 МБ (10 485 760 байт). При желании вы можете сжать файлы Sitemap с помощью gzip, чтобы уменьшить требования к пропускной способности; однако файл Sitemap после распаковки не должен превышать 10 МБ. Если вы хотите перечислить более 50 000 URL-адресов, необходимо создать несколько файлов Sitemap.

Если вы предоставляете несколько файлов Sitemap, вам следует перечислить каждый файл Sitemap в индексном файле Sitemap. Индексные файлы Sitemap могут содержать не более 50 000 файлов Sitemap, их размер не должен превышать 10 МБ (10 485 760 байт), и их можно сжать. Вы можете иметь более одного файла индекса Sitemap. Формат XML файла индекса Sitemap очень похож на формат XML файла Sitemap.

http://sitemaps.org/protocol.php

Sevki
источник
2
Файлы Sitemap с 50000 страниц очень распространены. Фактически кто-то недавно опубликовал скриншот из своей учетной записи для веб-мастеров, показывающий, что Google проиндексировал почти все 50 000 этих страниц. И я подозреваю, что суперпользователь более популярен (например, имеет лучшую популярность ссылок), чем этот другой сайт.
Джон Конде
1
«У вас есть более 50 000 URL-адресов для перечисления. Это максимум, что может включать один файл Sitemap». sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html
Джефф Этвуд
1
Если у вас есть карта сайта на каждый день, которая никогда не меняется после его окончания, поэтому карту сайта не нужно повторно оценивать, они могут сканировать ссылки, которые они уже проиндексировали для изменений, поэтому Google не нужно проходить через 50 000 URL-адресов в день, чтобы увидеть, какие старые, а какие новые.
Севки
@sevki - самый старый 50,001-й вопрос по ДАТЕ АКТИВНОСТИ (новые ответы, изменения и т. д., затрагивающие эту дату) не будет отображаться в карте сайта. Имейте в виду, что у суперпользователя всего 55k вопросов.
Джефф Этвуд
@Jeff, но у SO.com есть 1 014 782, а 964 782 нет в карте сайта, поэтому Google или Bing не знают, когда они были изменены в последний раз ... разве это не увеличивает количество просмотров? В любом случае, я не хочу раздражать, просто пытаясь помочь, я отправил вам письмо с некоторыми подробностями.
Севки
2

Похоже, что Google заявляет, что 46 514 представленных ссылок находятся в индексе. Может ли это быть проблемой с (я ненавижу это говорить), но рейтинг страницы? Соскребающие сайты лучше справляются с перекрестными ссылками и т. Д., И их рейтинг выше. Просто мысль.

Этот поисковый сайт: superuser.com Как видно, конец длинной цепочки символических ссылок также корректно выбирает ваш sitemap.xml, хотя и не возвращает ожидаемых результатов.

Дастин Сенос
источник
Этот очищающий сайт присваивает атрибут superuser.com как первоначального автора (хотя они могут быть более откровенными в этом отношении), поэтому Google должен знать, что он является первоначальным автором контента, и отдавать им приоритет над очищающими сайтами.
Джон Конде
@ Джон правильно, мы требуем атрибуции с последующей подписью
Джефф Этвуд
эта карта сайта в кешированном виде «как она появилась 17 октября 2010 г. 05:40:35 GMT», 4 дня назад на момент написания этой статьи, поэтому ее не так много. Я проверил несколько URL-адресов в этом кэшированном файле sitemap.xml, и они также существуют как страницы с вопросами в Google.
Джефф Этвуд
@ Джон, можешь ли ты привести пример того, как они дают атрибуцию? Спасибо
Грег Б.
@Greg, просто поищи логотип суперпользователя
Джон Конде
2

С этим типом вещей есть много потенциальных ответов.

Я бы начал с вопроса о том, сколько страниц на самом деле у вас есть. (Вы отправили 50 000 URL-адресов на быстрый сайт: superuser.com показывают 125 000 проиндексированных. Как вы думаете, у вас есть только 50 000 URL-адресов и вы отправляете их все, а Google находит 2-3 копии каждой страницы? Или, может быть, у вас 1 млн. URL-адресов и только 12,5? % индексируются) получение общей картины помогает определить, где искать проблемы.

Если в первом шаге нет ничего плохого, я бы перешел к контенту, похоже, что у QH гораздо больше контента на их странице и есть ссылки на многие другие «ресурсы», несмотря на то, что весь их контент очищен, возможно, Google считает, что их страница более полезна, так как они предоставляют больше ресурсов / информации для пользователя. Если они считаются авторитетными, а весь ваш контент совпадает с их содержанием, возможно, Google не будет индексировать ваш, даже если вы оригинал.

Если вы уверены, что это не проблема, создайте несколько высококачественных ссылок на него, опубликуйте этот вопрос в некоторых популярных блогах сотрудников или попросите друзей рассказать об этом в блоге, возможно, если у вас есть SEO-друзья, которые ведут популярные блоги, они написали бы тематическое исследование об этом и т. д.

Если вы получаете много сильных ссылок, и они по-прежнему не индексируются, ищите причины, по которым они могут быть оштрафованы (в большинстве случаев это не проблема, но проверка никогда не повредит).

Если ничего из этого не работает, то 9 раз из 10 это простая техническая проблема, которую упустили из виду (исключение роботов или что-то подобное).

Если у вас все еще нет ответа после того, как вы пройдете через это, спросите Google и надеемся, что они ответят вам.

Joshak
источник
0

Вчера был задан вопрос - дайте гуглботу шанс, вы не единственный сайт в интернете, на который он должен ползти, вы знаете :)

Если вопросы обычно индексируются в течение дня или около того, и проходит неделя, а тот все еще не индексируется, то я могу быть обеспокоен. Но, конечно, не через 1 день.

Эрик Петроэль
источник
1
Они обычно появляются в течение часа. Так что я согласен, я должен дать ему время, но относительно его обычной частоты ... У меня есть.
Майкл Прайор
@michael, убедитесь, что вы сравниваете яблоки с яблоками - Google, похоже, индексирует stackoverflow.com НАМНОГО выше, чем наши другие сайты.
Джефф Этвуд