Как Google удалось сканировать мои 403 страницы?

10

У меня было несколько личных файлов в папке в школьной папке. Вы можете увидеть, что файлы существуют, перейдя по адресу myschool.edu/myusername/myfolder, но попытка получить доступ к самим файлам через myschool.edu/myusername/myfolder/myfile.html возвращает ошибку 403.

И все же Google каким-то образом удалось захватить содержимое этих личных файлов и сохранить их в своем кеше! Как это возможно? [С тех пор я удалил эти файлы, поэтому мне просто любопытно, как Google удалось это сделать.]

grautur
источник
2
Это принадлежит веб-
мастерам

Ответы:

5

Наиболее вероятная причина - страницы не возвращают заголовок 403.

Вы можете проверить это с помощью панели инструментов веб-разработчика в Firefox или Chrome. Инструмент находится в разделе «Информация» -> «Просмотр заголовков ответа».

Кроме того, способ создания моих страниц ошибок:

  1. Я создаю фиктивную страницу с ошибкой. Скажем, 403.php .
  2. Я создаю фактическую страницу ошибки. Например ошибка 403.php .
  3. На странице фиктивной ошибки я поместил следующий код: <?php header("Location: /error403.php",TRUE,301); ?>
  4. В моем .htaccess я положил следующее:

    Options -Indexes

    ErrorDocument 403 /403.php

Это добавляет все перенаправления надлежащим образом и позволяет мне быть уверенным, что я получаю сок со своих страниц ошибок.

Это действительно может быть расширено очень круто, если на вашем сайте есть поисковая система, которая использует запросы GET.

Вергил Пеньков
источник