Что такое «статья 2001 года» для блокировки «программ автоматического поиска», на которые ссылается man-страница wget?

11

Страница wgetman утверждает это в разделе для --random-waitпараметра:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

Я хочу получить копию этой статьи для чтения, и перепробовал много поисков в Интернете, чтобы определить статью. Тем не менее, все, что я могу найти с помощью этих поисков, это справочная страница, wgetразмещенная на разных сайтах; и некоторые другие исследовательские работы, не имеющие никакого отношения к этой теме.

Кто-нибудь знает, на какую статью ссылаются и где я могу получить копию?

user2064000
источник

Ответы:

15

Хотя это и не прямой ответ, но git blameи git logпоказывают, что этот раздел был введен в коммите 2c41d783 коммиттером по имени hniksic, который оказался Хрвое Никшичем. Его адрес электронной почты можно найти в ChangeLogфайле wget (я не буду публиковать его здесь по понятным причинам). Я бы предложил спросить его напрямую, так как он может быть лучшим, чтобы дать более адекватный ответ. Во время этого вы можете спросить его, будет ли он соответствующим образом обновлять справочную страницу. ;)

Андреас Визе
источник
4

Я думаю, что это может быть эта статья:

Создание значимых данных из веб-журналов с использованием базы SAS

Есть параграф, обсуждающий блокировку диапазонов класса C:

Как только IP-адрес разделен на его компоненты, фильтрация диапазонов IP-адресов становится простой. Фильтр класса B выполняется против первых двух октетов, например, 168.126.xx.xx. Это переменная Onetwo в приведенном выше примере кода. Диапазоны класса C чаще используются, поскольку они предназначены для целых серверов и используют три из четырех октетов, например 168.126.56.xx. В приведенном выше примере кода это поле Три, учитывая, что Usrhost является значением адреса TCP / IP веб-журнала.

И еще одно упоминание wgetв строковой блокировке агента пользователя:

Наш предпочтительный метод идентификации строки пользовательского агента использует функцию сопоставления с индексным шаблоном. Например:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

Это был пятый результат в Googling за «анализ журнала wget» за 2001 год .

Мур
источник