Как робот Google находит URL-адреса, которые видны только аутентифицированным пользователям?

12

Вот один из моих клиентов, выполнивший некоторые действия после входа в свою учетную запись. Уникальный токен - это просто зашифрованный идентификатор пользователя + метка времени.

94.254.xxx.xxx - - [02 / Jul / 2011: 22: 25: 46 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 200 410 "-" "Mozilla / 5.0 (совместимо; MSIE 9.0; Windows NT 6.1; Trident / 5.0) "

Теперь робот Google каким-то образом узнал об этой уникальной ссылке и попытался получить доступ к тому же URL-адресу через неделю.

66.249.71.179 - - [10 / Jul / 2011: 09: 56: 01 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 302 - "-" "Mozilla / 5.0 (совместимо; Googlebot / 2.1; + http: //www.google.com/bot.html) "

(код состояния 302, потому что срок действия токена истек)


Позвольте мне подчеркнуть, что это уникальный URL, который был виден ровно один раз, всего за 2 секунды до того, как пользователь щелкнул его и продолжил посещать эту страницу. Он не был отправлен по электронной почте или опубликован в открытом доступе.

Что здесь происходит, как это возможно, что Google нашел этот уникальный URL?

Мартин
источник

Ответы:

6

Трудно сказать наверняка, но вот вероятные сценарии:

  • У пользователя установлена ​​панель инструментов или расширение браузера, которая сообщает URL-адреса, которые они посещают, в Google.

  • Кто-то связался с этим URL, и Google нашел его, просканировав страницу с этой ссылкой.

Джон Конде
источник
Если вы говорите о панели инструментов Google, то отправляет обратные URL-адреса в Google только в том случае, если вы включили функцию «PageRank», но мы никогда не использовали эти данные для обнаружения новых URL-адресов. Если о какой-то другой панели инструментов, выпущенной нами, дайте мне знать, пожалуйста.
метод
5

Я только что понял, что пользователь должен был найти исходящую ссылку на этой аутентифицированной странице, а затем просочился частный URL, как Refererпри переходе на другой сайт. Это единственно возможное объяснение, и оно должно было быть очевидно с самого начала.

После утечки частный URL-адрес мог быть открыт для Google несколькими способами, например, целевой сайт мог опубликовать свои журналы доступа публично. Примечание. Ни одна из исходящих ссылок не использовала Google Analytics, поэтому это не означает, что робот Google использует URL-адреса переходов из Google Analytics.

Повторный урок: никогда не помещайте конфиденциальные данные в URL-адреса, если вы не используете https, и в этом случае браузер остался бы Refererпустым.

Мартин
источник
1
Вы правы: размещение конфиденциальных данных в URL может быть опасным. Всякий раз, когда вы можете, вы должны передавать уникальные идентификаторы пользователя между страницами, используя запросы POST (которые не отправляют переменные как часть URL, например запросы GET), или с переменными cookie / session.
Ник