Страница wget
man утверждает это в разделе для --random-wait
параметра:
Some web sites may perform log analysis to identify retrieval
programs such as Wget by looking for statistically significant
similarities in the time between requests. [...]
A 2001 article in a publication devoted to development on a popular
consumer platform provided code to perform this analysis on the
fly. Its author suggested blocking at the class C address level to
ensure automated retrieval programs were blocked despite changing
DHCP-supplied addresses.
Я хочу получить копию этой статьи для чтения, и перепробовал много поисков в Интернете, чтобы определить статью. Тем не менее, все, что я могу найти с помощью этих поисков, это справочная страница, wget
размещенная на разных сайтах; и некоторые другие исследовательские работы, не имеющие никакого отношения к этой теме.
Кто-нибудь знает, на какую статью ссылаются и где я могу получить копию?
wget
man
documentation
user2064000
источник
источник
Ответы:
Хотя это и не прямой ответ, но
git blame
иgit log
показывают, что этот раздел был введен в коммите 2c41d783 коммиттером по имениhniksic
, который оказался Хрвое Никшичем. Его адрес электронной почты можно найти вChangeLog
файле wget (я не буду публиковать его здесь по понятным причинам). Я бы предложил спросить его напрямую, так как он может быть лучшим, чтобы дать более адекватный ответ. Во время этого вы можете спросить его, будет ли он соответствующим образом обновлять справочную страницу. ;)источник
Я думаю, что это может быть эта статья:
Создание значимых данных из веб-журналов с использованием базы SAS
Есть параграф, обсуждающий блокировку диапазонов класса C:
И еще одно упоминание
wget
в строковой блокировке агента пользователя:Это был пятый результат в Googling за «анализ журнала wget» за 2001 год .
источник