Как Google 418 воспринимает HTTP 418 как «настоящую» ошибку?

8

Мне было интересно, знаете ли вы, как Google и другие поисковые системы обрабатывают веб-сайт с помощью кода состояния HTTP 418 I'm a teapot.

Согласно этой статье в Википедии , его можно использовать как код ошибки клиента (4xx). Я хотел бы использовать этот код ошибки для веб-сайта, посвященного пасхальным яйцам, который, тем не менее, должен найти поисковик.

Согласно этому 4-летнему сообщению в блоге , статус 418 будет игнорироваться Google. У вас есть более свежая информация по этой теме? Как другие поисковые системы реагируют на статус 418 (в основном потому, что это код 4xx).

ССК-hrep3
источник

Ответы:

9

Если вы используете инструмент «Получить как Google» в консоли поиска Google на странице, которая возвращает статус «418 I'm a Teapot», то он просто сообщает «Ошибка», и индексация для этой страницы не может быть запрошена.

На приведенном ниже снимке экрана обведенные кружком "ошибки" являются результатом запроса страницы, которая возвращает статус 418. На этом этапе дополнительная информация недоступна.

Снимок экрана: инструмент Fetch как Google, показывающий ошибки для 418 страниц

Согласно моему журналу доступа, Googlebot и Search Console посетили эту страницу, но она еще не появилась в индексе.

Просто чтобы уточнить, это новая страница, ранее не проиндексированная. Он связан со проиндексированной страницы, которая также была повторно отправлена ​​(вместе со «связанными страницами») для индексации - как показано на скриншоте выше. Я также отправил XML-карту сайта, которая содержит эту страницу (хотя количество «проиндексированных» еще не сообщается - СМОТРИТЕ ОБНОВЛЕНИЕ НИЖЕ ). Честно говоря, у меня нет особой надежды - я был бы удивлен, если бы это было проиндексировано. Не только потому, что это код 4xx, но и потому, что это не код успеха 2xx.

Обычно вы можете выполнить тест «Получить как Google», а затем запросить индексацию страницы. Это обычно очень быстро («мгновенно») для одной страницы - но эта опция недоступна на странице выше.

Согласно этому 4-летнему сообщению в блоге, статус 418 будет игнорироваться Google.

Под "игнорируемым" они подразумевают, что он рассматривается как статус 200 OK. (Что на самом деле не то же самое, что быть «проигнорированным» в моей книге, если это не было буквально проигнорировано, и Google не сделал «ничего»?) «Проблема» в этом посте в том, что они тестируют уже проиндексированную страницу. Возвращение статуса 4xx не обязательно приведет к удалению страницы из индекса в любом случае, по крайней мере, в течение значительного времени (в зависимости от скорости сканирования), хотя, как сообщается, они ожидают «несколько недель». Они также не упоминают об ошибках сканирования в Инструментах Google для веб-мастеров (поскольку они были изменены на Google Search Console).

это не "настоящая" ошибка

Или это? Возможно, это было реализовано как «шутка» в начале, однако, возможно, оно указывает на «состояние ошибки». Я думаю, что было бы более противоречивым, если бы код 4xx не рассматривался как «состояние ошибки». И это все еще "текущий". Оригинальный RFC 2324 от 1998 года, который определял этот код состояния, был даже обновлен в 2014 году RFC 7168 .

Большинство инструментов увидят статус 418 как ошибку. Или только увидеть 200 как успех. «Средство просмотра журнала Apache» и «Screaming Frog SEO Spider» наверняка видят код 418 как ошибку.

По сообщениям, некоторые веб-серверы реализуют код состояния 418:

Stack Exchange даже использует этот код состояния HTTP при обнаружении нарушений CSRF:

ОБНОВЛЕНИЕ 2017-03-31 (2+ недели спустя): страница, которая возвращает код состояния HTTP 418, не проиндексирована Google. Отчет XML Sitemap в GSC теперь показывает, что индексируется только один из двух URL, представленных в карте сайта (один URL возвращает 200 и индексируется, другой возвращает 418 и не индексируется).

Кстати, GSC потребовалось почти 2 недели, чтобы сообщить о состоянии индексации URL-адресов в карте сайта, но это не относится к тому, когда страницы были действительно проиндексированы. Например, одна страница была уже проиндексирована на момент отправки карты сайта, однако, если посмотреть только на отчет о карте сайта, кажется, что страница была проиндексирована только через 13 дней после отправки карты сайта.

URL-адрес, который возвращает 418, теперь отображается как «Ошибка сканирования» в разделе «Сканирование> Ошибки сканирования», а 418 указывается как код ответа. Согласно отчету, это было «обнаружено» 2017-03-16 (на следующий день после отправки запроса на индекс выше), однако до того, как об этом сообщили в GSC, прошло некоторое время.

MrWhite
источник
1
Кто мог бы улучшить это? Никто. Ура !!
closetnoc
3
Помимо статуса 200, Google знает, как обращаться с кодами перенаправления (301, 302, 303, 307, 308). Кроме этих конкретных кодов, я бы предположил, что Google рассматривает почти все остальное как «ошибку».
Стивен Остермиллер
1
Обновление: страница, которая возвращает 418, не проиндексирована, и Google теперь явно сообщает об этом как об ошибке сканирования. Я обновил свой ответ.
MrWhite