Имеет ли компания право сканировать мой веб-сайт?

30

Я обнаружил, что McAfee SiteAdvisor сообщил о моем веб-сайте как «возможно, проблемы с безопасностью» .

Меня мало волнует, что McAfee думает о моем веб-сайте (я могу защитить его сам, и если нет, то McAfee определенно не та компания, за которую я бы обратился за помощью, большое спасибо). Что меня беспокоит, так это то, что они, по-видимому, сканировали мой сайт без моего разрешения.

Для пояснения: на моем веб-сайте пока почти нет содержимого, есть только заполнитель и несколько файлов для моего личного использования. Там нет ToS.

Мои вопросы: имеет ли McAffee право загружать контент с моего веб-сайта / сканировать его? Могу ли я запретить им это делать? У меня такое чувство, что должен быть какой-то принцип «Мой замок, мои правила», однако я практически ничего не знаю обо всех юридических вещах.

Обновление: я, вероятно, должен был упомянуть, что мой серверный поставщик регулярно отправляет мне электронные письма о результатах SiteAdvisor - именно так я узнал об их «рейтинге», и поэтому я раздражен.

kralyk
источник
78
Вы бы сказали, что люди имеют право просматривать ваш сайт? Если да, то зачем дискриминировать человеческих слуг-роботов? Если нет, то почему это сайт в первую очередь?
jwodder
47
Как вы узнали, что SiteAdvisor пометил ваш сайт? Вы не просматривали их сайт? Если так, что дало вам право?
Джо Снайдерман
17
Кстати, я бы не стал так легко отклонять отчет SiteAdvisor, в общем, когда я видел подобные отчеты, они были законными. Наиболее распространенным случаем является использование более старой / непатентованной версии популярной CMS (WordPress, Joomla, Drupal, ...), используемой некоторым автоматическим сценарием для размещения вредоносного контента («батутные» страницы, используемые для спама / фишинга, размещения вирусов, связанных в мошеннические письма, эксплойты браузера, вы называете это); Вы можете размещать плохие вещи, даже не зная. Кроме того, поскольку многие пользователи полагаются на такие инструменты, вы, как правило, хотите иметь чистую запись, поскольку такие предупреждения могут отпугнуть пользователей.
Маттео Италия
35
Если вы хотите что-то заблокировать, заблокируйте это. Вы открыли веб-сайт и настроили сервер для ответа на запросы GET. Вы пригласили всех - буквально всех. Это не «подразумеваемое» право, это то, как работают веб-серверы. Запрет, как отмечалось, robots.txt, или ограничения IP, или контент, доступный только зарегистрированным пользователям.
mfinni
20
@RolazaroAzeveires: Автоматизированные процессы хороши не потому, что это допускает посещение людьми, а потому, что, за исключением атак, они мило спрашивают: «Могу ли я получить эти файлы?» и вы настроили свой веб-сервер так, чтобы он отвечал: «Конечно! Вот, пожалуйста. Вам нужно что-нибудь еще?» Это не ползет без вашего разрешения, это ползет с вашего разрешения.
отмечает Томас

Ответы:

49

Для этого есть юридический прецедент. Поле против Google Inc., 412 F. Supp. 2d 1106, (US Dist. Ct. Nevada 2006). Google выиграл суммарное суждение, основанное на нескольких факторах, в частности, что автор не использовал файл robots.txt в метатегах на своем веб-сайте, что помешало бы Google сканировать и кэшировать страницы, которые владелец сайта не хотел индексировать.

Правящий pdf

Нет закона США, конкретно касающегося файлов robots.txt; однако в другом судебном деле был создан прецедент, который может в конечном итоге привести к тому, что файлы robots.txt будут рассматриваться как обход преднамеренных электронных мер, принимаемых для защиты контента. В АДВОКАТАХ ЗДРАВООХРАНЕНИЯ, INC. HARDING, EARLEY, FOLLMER & FRAILEY, et. al, Healthcare Advocates утверждали, что Harding и соавторы по сути взломали возможности Wayback Machine, чтобы получить доступ к кэшированным файлам страниц, которые имели более новые версии с файлами robots.txt. В то время как адвокаты здравоохранения проиграли это дело, окружной суд отметил, что проблема была не в том, что Хардинг и др. «Взяли замок», а в том, что они получили доступ к файлам из-за проблемы загрузки сервера с Wayback Machine, которая предоставила доступ к кэшированные файлы, когда это не должно

Решение суда pdf

ИМХО - только вопрос времени, пока кто-то не примет это решение и не перевернет его на бок: суд указал, что robots.txt - это блокировка, которая предотвращает сканирование и обход его , выбирая замок.

К сожалению, многие из этих судебных процессов не так просты, как «Я пытался сообщить вашему сканеру, что это запрещено, и ваш сканер проигнорировал эти настройки / команды». Во всех этих случаях существует множество других проблем, которые в конечном итоге влияют на результат больше, чем основной вопрос о том, должен ли файл robots.txt считаться методом электронной защиты в соответствии с законодательством США о DCMA.

При этом, это закон США, и кто-то из Китая может делать то, что он хочет, не из-за юридической проблемы, а потому, что Китай не будет обеспечивать защиту товарных знаков и авторских прав США, так что удачи вам в этом.

Не короткий ответ, но короткого, простого ответа на ваш вопрос не существует!

jcanker
источник
1
Это отличный ответ, спасибо. Что мне не нравится в robots.txt, так это то, что он не является действующим стандартом (стандарт не требуется). Эти компании могут просто игнорировать это. Мне не нравится, когда они говорят мне: «Вы должны создать файл robots.txt, и, возможно, мы не будем сканировать ваш сайт, но, возможно, мы сделаем то, что нам нравится». Было бы замечательно, если бы существовал стандарт для указания ToS сайта в метаданных сайта.
кралык
5
@jcanker Эти два случая касаются заявлений о нарушении авторских прав. В поведении сканеров, которые кешируют контент, подобно тем, которые используются Google и archive.org, вполне логично, что вопросы авторского права вступают в игру. Но McAfee SiteAdvisor на самом деле не копирует и не хранит (а тем более не делает общедоступным) контент с веб-сайтов, к которым он обращается, не так ли? Хотя я не юрист, я думаю, что это различие дает нам основание очень сильно сомневаться в том, что любой случай каким-либо образом применим к поведению системы, такой как SiteAdvisor, независимо от того, уважает ли он файл robots.txt.
Элия ​​Каган
12
@kralyk - re «Эти компании могут просто проигнорировать это». Ну да. Так работает интернет. И даже если бы это было как-то более фундаментально, для сканера было бы тривиально, абсолютно тривиально, притвориться, что это ваш человек заходит на ваши веб-страницы. Вы просите технически невозможного . Действительно, если вы продумываете то, что вы спрашиваете, то, что вы ищете, не логично, это не имеет смысла. За исключением юридических различий. Ваши единственно возможные меры защиты: (1) скрытие важного содержимого за аутентификацией при входе пользователя в систему и (2) правовая защита, как описано в этом ответе.
ToolmakerSteve
@ ToolmakerSteve Я знаю, что технически невозможно полностью запретить роботов. Хотя это другая ситуация - я не ищу технического решения, я спрашиваю, законно ли оно, также обратите внимание, что McAffee сообщил мне, что они сканируют мой сайт, мне не нужно его обнаруживать.
кралык
Существует также юридический прецедент в другом направлении: ebay v bidder's edge
Джон
91

Да, они имеют право сделать это - вы создали общедоступный веб-сайт, что заставляет вас думать, что они этого не делают?

Вы тоже, конечно, имеете право их остановить. Вы можете попросить их не сканировать ваш сайт с robots.txt или активно запретить им доступ к нему с помощью что-то вроде fail2ban .

Кроме того, не беспокойтесь об этом и продолжайте свою жизнь. Это не повредит ничему и определенно на благой стороне интернет-исследования.

Дэн
источник
4
> «Да, они имеют право сделать это - вы создали общедоступный веб-сайт, что заставляет вас думать, что они этого не делают?» Ну, если что-то технически возможно, это не обязательно означает, что это законно. Например, ToS YouTube запрещают скачивание видео, поэтому, несмотря на то, что это технически очень просто, это все еще не разрешено. Я не стал бы беспокоиться о SiteAdvisor, если бы не мой провайдер отправлял мне электронные письма о моем сайте, «возможно, есть проблемы» ...
kralyk
16
@kralyk - если вы не хотите, чтобы публика (включая McAfee) смотрела на нее, не размещайте ее в Интернете. Это так просто. ВЫ УПРАВЛЯЕТЕ ВАШИМ САЙТОМ. Никто не заставляет вас показывать это там, и если вы не хотите, чтобы люди смотрели на это, то не размещайте это там. Если вы собираетесь это выпустить, не удивляйтесь тому, что люди (включая людей, которые хотят продать вам вещи) смотрят на это. Перестаньте пытаться превратить ваши желания в чужую проблему.
Майкл Кохне
9
@kralyk: серьезно? Вы действительно думаете, что проблема здесь в двойном стандарте? Никто в McAfee не знает и не заботится о вашем сайте. Не должны они. Было бы абсурдно ожидать, что кто-нибудь, пользующийся Интернетом, будет читать ToS каждого. Вот почему robot.txt был изобретен.
ToolmakerSteve
3
@kralyk Доступ к рассматриваемым ресурсам должен быть закрытым, чтобы ToS был хоть сколько-нибудь значимым. Робот, просматривающий ваши незащищенные страницы, полностью отличается от того, кто регистрирует учетную запись, подтверждает ToS и затем передает учетные данные роботу.
Андрей Б
4
@kralyk - Какие у вас на сайте какие-то TOS , которые, по вашему мнению, нарушает McAfee (не уважая)?
Кевин Феган
11

Является ли это поведение этичным или нет, не совсем ясно.

Сканирование общедоступного сайта само по себе не является неэтичным (если только вы явно не запретили его с помощью файла robots.txt или других технологических мер, и они их обходят).

То, что они делают, это грубый эквивалент холодного звонка вам, в то же время объявляя миру, что вы, возможно, не в безопасности. Если это наносит ущерб вашей репутации и неоправданно, это неэтично; если он делает это, и единственное решение для вас - это платить им, это рэкет. Но я не думаю, что это происходит.

В другой раз это становится неэтичным, когда кто-то сканирует ваш сайт, чтобы присвоить ваш контент или данные, а затем представляет его как свой собственный. Но это тоже не то, что происходит.

Итак, я полагаю, что их поведение в этом случае является этическим, и вы также можете, скорее всего, игнорировать его.

Их поведение, связанное со спамом, неэтично, если вы не имеете с ними отношения и не запрашивали электронные письма, но я подозреваю, что у них есть рабочая отписка.

Сокол Момот
источник
1
Я не уверен, что назвал бы Disallowдирективу в файле robots.txt «запрещающей технологической мерой». robots.txt действует как запрос на вежливость, и хотя хорошо себя ведущие боты будут его выполнять, никаких обязательств и реальной безопасности не будет. На самом деле, боты с плохим поведением вполне могут принять запись в robots.txt как приглашение просканировать этот конкретный путь ...
CVn
2
@ MichaelKjörling, только половина согласна. Нет реальной безопасности, но есть обязательство. Это знак запрета, и ваша обязанность не пускать, поскольку у вас нет разрешения на вход.
Бен
Это знак "держаться подальше", без блокировки. Попробуйте это у себя дома и посмотрите, сколько сочувствия вы получите после того, как воры позвонят! (На самом деле, это знак «держаться подальше», в котором четко перечислены незапертые двери и окна, из которых вы хотите, чтобы люди не
появлялись
2

Технический подход к блокированию доступа определенных людей или компаний к вашему веб-сайту:

Вы можете заблокировать доступ к страницам вашего сайта для определенных IP-адресов или диапазонов адресов. Это в файле .htaccess (если ваш сайт работает на веб-сервере Apache).

http://www.htaccess-guide.com/deny-visitors-by-ip-address/

Сделайте так, чтобы ваш веб-сервер регистрировал IP-адреса, с которых он был доступен, и ищите эти IP-адреса, чтобы найти те, которые связаны с McAfee. Вероятно, легко сказать сейчас, если у вас нет постоянных посетителей.

Конечно, они могут изменить IP-адреса в будущем. Тем не менее, если вы посмотрите найденные IP-адреса, чтобы узнать, кому они принадлежат, вы сможете узнать о целом блоке адресов, принадлежащих McAfee, и заблокировать их все.


Для правовой основы для этого:

«Владельцы сайтов могут юридически заблокировать некоторых пользователей, правила суда»

http://www.computerworld.com/s/article/9241730/Website_owners_can_legally_block_some_users_court_rules

(Если ваш веб-сайт является персональным, никто не будет оспаривать ваше право блокировать некоторых пользователей. Но если это веб-сайт для бизнеса, с обеих сторон этого обсуждения есть юридические и моральные аргументы. Чем меньше ваш бизнес, тем легче это должно быть юридически защищено - и тем меньше кто-либо еще будет достаточно жаловаться в любом случае.)


Вы также можете быть заинтересованы в "Запретить посетителей по рефереру".

«Если вы когда-либо просматривали свои журналы и заметили неожиданное увеличение трафика, но фактических запросов к файлам не увеличивается, вероятно, кто-то зажимает контент (например, файлы CSS) или кто-то пытается взломать ваш веб-сайт (это может просто означать попытку найти не публичный контент). "

http://www.htaccess-guide.com/deny-visitors-by-referrer/

ToolmakerSteve
источник