Я пытаюсь разобрать веб-страницу с помощью Java с URLConnection. Я пытаюсь настроить пользовательский агент следующим образом:
java.net.URLConnection c = url.openConnection();
c.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2");
Но результирующий пользовательский агент - это тот, который я указываю, с добавлением "Java / 1.5.0_19" в конец. Есть ли способ по-настоящему настроить пользовательский агент без этого дополнения?
java
user-agent
DiglettКартофель
источник
источник
Ответы:
С другой стороны, установка для
http.agent
системного свойства значения""
может помочь (у меня нет кода перед собой).Вам могут сойти с рук:
System.setProperty("http.agent", "");
но для этого может потребоваться гонка между вами и инициализацией обработчика протокола URL, если он кэширует значение при запуске (на самом деле, я не думаю, что это так).
Свойство также можно установить через файлы JNLP (доступные апплетам из 6u10) и в командной строке:
Или для команд оболочки:
источник
Просто для пояснения:
setRequestProperty("User-Agent", "Mozilla ...")
теперь работает нормально и не добавляетсяjava/xx
в конце! По крайней мере, с Java 1.6.30 и новее.Я прослушал на своей машине netcat (прослушиватель порта):
$ nc -l -p 8080
Он просто прослушивает порт, поэтому вы видите все, что запрашивается, например необработанные HTTP-заголовки.
И без setRequestProperty получили следующие http-заголовки:
GET /foobar HTTP/1.1 User-Agent: Java/1.6.0_30 Host: localhost:8080 Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection: keep-alive
И С setRequestProperty:
GET /foobar HTTP/1.1 User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2 Host: localhost:8080 Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2 Connection: keep-alive
Как видите, пользовательский агент настроен правильно.
Полный пример:
import java.io.IOException; import java.net.URL; import java.net.URLConnection; public class TestUrlOpener { public static void main(String[] args) throws IOException { URL url = new URL("http://localhost:8080/foobar"); URLConnection hc = url.openConnection(); hc.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2"); System.out.println(hc.getContentType()); } }
источник
его работа для меня установить User-Agent в addRequestProperty.
URL url = new URL(<URL>); HttpURLConnection httpConn = (HttpURLConnection) url.openConnection(); httpConn.addRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0");
источник
HttpURLConnection
. Вы были бы правы, если бы использовалиURLConnection
. В любом случае, если вы попытаетесь скомпилировать эту строку,HttpURLConnection c = new URL("http://www.google.com").openConnection();
например,javac
вы получитеerror: incompatible types
эту строку. Я использую Java 1.8.0 r172, поэтому последняя версия Java 8HttpURLConnection c = new URL("http://www.google.com").openConnection();
безусловно, требуется приведение к HttpURLConnection - в Java 8, а также в предыдущих версиях Java.HTTP-серверы склонны отвергать старые браузеры и системы.
Страница Tech Blog (wh): Наиболее распространенные пользовательские агенты отражает свойство user-agent вашего текущего браузера в разделе «Ваш пользовательский агент:» , который можно применить для установки свойства запроса «User-Agent» для a
java.net.URLConnection
или системное свойство "http.agent".источник