Как Google удалось сканировать мои 403 страницы?

У меня было несколько личных файлов в папке в школьной папке. Вы можете увидеть, что файлы существуют, перейдя по адресу myschool.edu/myusername/myfolder, но попытка получить доступ к самим файлам через myschool.edu/myusername/myfolder/myfile.html возвращает ошибку 403.

И все же Google каким-то образом удалось захватить содержимое этих личных файлов и сохранить их в своем кеше! Как это возможно? [С тех пор я удалил эти файлы, поэтому мне просто любопытно, как Google удалось это сделать.]

web-crawlers security googlebot grautur
источник

Это принадлежит веб-

мастерам

Ответы:

Наиболее вероятная причина - страницы не возвращают заголовок 403.

Вы можете проверить это с помощью панели инструментов веб-разработчика в Firefox или Chrome. Инструмент находится в разделе «Информация» -> «Просмотр заголовков ответа».

Кроме того, способ создания моих страниц ошибок:

Я создаю фиктивную страницу с ошибкой. Скажем, 403.php .
Я создаю фактическую страницу ошибки. Например ошибка 403.php .
На странице фиктивной ошибки я поместил следующий код: <?php header("Location: /error403.php",TRUE,301); ?>
В моем .htaccess я положил следующее:

Options -Indexes

ErrorDocument 403 /403.php

Это добавляет все перенаправления надлежащим образом и позволяет мне быть уверенным, что я получаю сок со своих страниц ошибок.

Это действительно может быть расширено очень круто, если на вашем сайте есть поисковая система, которая использует запросы GET.

Вергил Пеньков
источник