У меня было несколько личных файлов в папке в школьной папке. Вы можете увидеть, что файлы существуют, перейдя по адресу myschool.edu/myusername/myfolder, но попытка получить доступ к самим файлам через myschool.edu/myusername/myfolder/myfile.html возвращает ошибку 403.
И все же Google каким-то образом удалось захватить содержимое этих личных файлов и сохранить их в своем кеше! Как это возможно? [С тех пор я удалил эти файлы, поэтому мне просто любопытно, как Google удалось это сделать.]
web-crawlers
security
googlebot
grautur
источник
источник
Ответы:
Наиболее вероятная причина - страницы не возвращают заголовок 403.
Вы можете проверить это с помощью панели инструментов веб-разработчика в Firefox или Chrome. Инструмент находится в разделе «Информация» -> «Просмотр заголовков ответа».
Кроме того, способ создания моих страниц ошибок:
<?php header("Location: /error403.php",TRUE,301); ?>
В моем .htaccess я положил следующее:
Options -Indexes
ErrorDocument 403 /403.php
Это добавляет все перенаправления надлежащим образом и позволяет мне быть уверенным, что я получаю сок со своих страниц ошибок.
Это действительно может быть расширено очень круто, если на вашем сайте есть поисковая система, которая использует запросы GET.
источник