Вопросы с тегом «web-crawler»

Поисковый робот (также известный как веб-паук) - это компьютерная программа, которая просматривает всемирную паутину методическим, автоматическим или упорядоченным образом. Другие термины для поисковых роботов - это муравьи, автоматические индексаторы, боты, веб-пауки, веб-роботы или - особенно в сообществе FOAF - веб-скаттеры.

227
Как запросить у Google повторное сканирование моего сайта? [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Кто-нибудь знает способ запросить Google...

217
Отправка «User-agent» с использованием библиотеки запросов в Python

Я хочу отправить значение "User-agent"при запросе веб-страницы с помощью запросов Python. Я не уверен, если это нормально, чтобы отправить это как часть заголовка, как в коде ниже: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers =...

169
сохранить rsync от удаления незаконченных исходных файлов

У меня две машины, скорость и масса. speed имеет быстрое подключение к Интернету и использует сканер, который загружает много файлов на диск. У массы много дискового пространства. Я хочу переместить файлы со скорости на массу после того, как они закончили скачивать. В идеале я бы просто запустил: $...

112
Определение слоев и размеров слоев для каждого образа Docker

В исследовательских целях я пытаюсь просканировать общедоступный реестр Docker ( https://registry.hub.docker.com/ ) и выяснить: 1) сколько слоев в среднем образе и 2) размеры этих слоев, чтобы получить идея распределения. Однако я изучил API и публичные библиотеки, а также подробную информацию о...

112
TypeError: нельзя использовать строковый шаблон для байтового объекта в re.findall ()

Я пытаюсь узнать, как автоматически получать URL-адреса со страницы. В следующем коде я пытаюсь получить название веб-страницы: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as...

107
Обнаружение "стелс-сканеров"

Какие есть варианты обнаружения веб-сканеров, которые не хотят быть обнаруженными? (Я знаю, что методы обнаружения листинга позволят умному программисту-невидимке сделать лучшего паука, но я не думаю, что мы когда-либо сможем блокировать умные стелс-сканеры, только те, которые делают ошибки.) Я не...

100
Как найти все ссылки / страницы на сайте

Можно ли найти все страницы и ссылки на ЛЮБОМ сайте? Я хочу ввести URL-адрес и создать дерево каталогов всех ссылок с этого сайта? Я посмотрел на HTTrack, но он загружает весь сайт, и мне просто нужно дерево каталогов....

99
Получить список URL-адресов с сайта [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 5 лет назад . Уточните этот вопрос Я развертываю сайт-замену для клиента, но он не...

85
Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy

У меня есть проект scrapy, который содержит несколько пауков. Есть ли способ определить, какие конвейеры использовать для какого паука? Не все определенные мной конвейеры применимы для каждого паука. благодаря...

81
Скрыть адрес электронной почты от ботов - сохранить mailto:

tl; dr Скрыть адрес электронной почты от ботов без использования скриптов и сохранить mailto:функциональность. Метод также должен поддерживать программы чтения с экрана. Резюме Обфускация электронной почты без использования скриптов или контактных форм Адрес электронной почты должен быть полностью...