Вопросы с тегом «web-crawler»

23
Конвертировать веб-страницы в один файл для электронной книги

Я хочу скачать HTML (например: http://www.brpreiss.com/books/opus6/ ) и присоединить его к одному HTML или другому формату, который я могу использовать для чтения электронных книг. Сайты с бесплатными книгами не имеют стандартной подкачки страниц, они не являются блогами или форумами, поэтому не...

14
Как сканировать, используя wget для загрузки ТОЛЬКО файлов HTML (игнорировать изображения, css, js)

По сути, я хочу сканировать весь сайт с помощью Wget, но он мне нужен, чтобы НИКОГДА не загружать другие ресурсы (например, изображения, CSS, JS и т. Д.). Я хочу только файлы HTML. Поиски в Google совершенно бесполезны. Вот команда, которую я попробовал: wget --limit-rate=200k --no-clobber...

13
Использование Wget для рекурсивного сканирования сайта и загрузки изображений

Как вы указываете wget рекурсивно сканировать веб-сайт и загружать только определенные типы изображений? Я попытался использовать это для сканирования сайта и загрузки только изображений в формате JPEG: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories...

12
Насколько «законно» соскоб сайта с использованием cURL? [закрыто]

В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и,...

6
Что я использую, чтобы загрузить все PDF-файлы с веб-сайта?

Мне нужно скачать все PDF-файлы, представленные на сайте. Проблема в том, что они не указаны ни на одной странице, поэтому мне нужно что-то (программа? Фреймворк?), Чтобы сканировать сайт и скачивать файлы, или, по крайней мере, получить список файлов. Я попробовал WinHTTrack, но не смог заставить...

3
Сканирующий сайт / паук, чтобы получить карту сайта [закрыто]

Мне нужно получить целую карту сайта в формате, подобном: http://example.org/ http://example.org/product/ http://example.org/service/ http://example.org/about/ http://example.org/product/viewproduct/ Мне нужно, чтобы он был основан на ссылках (без файла или dir brute-force), например: разобрать...

3
Поиск страниц на веб-странице, содержащей определенную ссылку

Google делает хорошую работу по поиску соответствующей информации. Скажем, я Google: мнение FDA по ISO-9001 Затем он находит ссылку на PDF-файл на сайте fda.gov http://www.fda.gov/downloads/MedicalDevices/DeviceRegulationandGuidance/PostmarketRequirements/QualitySystemsRegulations/UCM134625.pdf. Но...

2
Как сканировать свой собственный сайт, чтобы сохранить в кеш

Я использую Squid , программу для кеширования, для кеширования моего сайта. Однако для этого необходимо, чтобы к каждой странице обращались как минимум один раз, прежде чем Squid сможет ее кешировать. У меня вопрос: есть ли программа, которая будет быстро сканировать мой веб-сайт, получать доступ...

2
Является ли веб-сайт, который нигде не связан, полностью скрыт?

Я хочу создать веб-страницу, доступную для просмотра только мне и другому человеку. Я не хочу использовать какую-либо аутентификацию на нем (имя пользователя / пароль, сертификаты и т. Д.). У меня вопрос: если я обслуживаю веб-сайт со своего собственного веб-сервера и не помещаю содержимое в...

1
Spider / сканировать веб-сайт и получить каждый URL и заголовок страницы в файле CSV

Я перехожу со старого сайта корзины покупок ASP на сайт Drupal / Ubercart. Частью этого шага является обеспечение того, что старые ссылки будут перенаправлены на новые. Для этого все, что мне нужно, это какой-то способ получить список всех ссылок со старого сайта. Предпочтительно, чтобы результаты...