Вопросы с тегом «web-crawler»

Поисковый робот (также известный как веб-паук) - это компьютерная программа, которая просматривает всемирную паутину методическим, автоматическим или упорядоченным образом. Другие термины для поисковых роботов - это муравьи, автоматические индексаторы, боты, веб-пауки, веб-роботы или - особенно в сообществе FOAF - веб-скаттеры.

227

Как запросить у Google повторное сканирование моего сайта? [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Кто-нибудь знает способ запросить Google...

seo web-crawler

217

Отправка «User-agent» с использованием библиотеки запросов в Python

Я хочу отправить значение "User-agent"при запросе веб-страницы с помощью запросов Python. Я не уверен, если это нормально, чтобы отправить это как часть заголовка, как в коде ниже: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers =...

python web-crawler python-requests

169

сохранить rsync от удаления незаконченных исходных файлов

У меня две машины, скорость и масса. speed имеет быстрое подключение к Интернету и использует сканер, который загружает много файлов на диск. У массы много дискового пространства. Я хочу переместить файлы со скорости на массу после того, как они закончили скачивать. В идеале я бы просто запустил: $...

storage web-crawler rsync

134

Разница между BeautifulSoup и Scrapy Crawler?

Я хочу сделать сайт, который показывает сравнение между Amazon и E-Bay. Что из этого будет работать лучше и почему? Я немного знаком с BeautifulSoup, но не так много с Scrapy Crawler...

python beautifulsoup scrapy web-crawler

118

как обнаружить ботов поисковой системы с помощью php?

Как с помощью php обнаружить ботов поисковых

php web-crawler bots

112

Определение слоев и размеров слоев для каждого образа Docker

В исследовательских целях я пытаюсь просканировать общедоступный реестр Docker ( https://registry.hub.docker.com/ ) и выяснить: 1) сколько слоев в среднем образе и 2) размеры этих слоев, чтобы получить идея распределения. Однако я изучил API и публичные библиотеки, а также подробную информацию о...

image docker web-crawler

112

TypeError: нельзя использовать строковый шаблон для байтового объекта в re.findall ()

Я пытаюсь узнать, как автоматически получать URL-адреса со страницы. В следующем коде я пытаюсь получить название веб-страницы: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as...

python python-3.x web-crawler

107

Обнаружение "стелс-сканеров"

Какие есть варианты обнаружения веб-сканеров, которые не хотят быть обнаруженными? (Я знаю, что методы обнаружения листинга позволят умному программисту-невидимке сделать лучшего паука, но я не думаю, что мы когда-либо сможем блокировать умные стелс-сканеры, только те, которые делают ошибки.) Я не...

web-crawler

100

Как найти все ссылки / страницы на сайте

Можно ли найти все страницы и ссылки на ЛЮБОМ сайте? Я хочу ввести URL-адрес и создать дерево каталогов всех ссылок с этого сайта? Я посмотрел на HTTrack, но он загружает весь сайт, и мне просто нужно дерево каталогов....

directory web-crawler

100

Как передать определенный пользователем аргумент в scrapy spider

Я пытаюсь передать определенный пользователем аргумент пауку scrapy. Может ли кто-нибудь подсказать, как это сделать? Я -aгде-то читал о параметре, но понятия не имею, как его использовать....

python scrapy web-crawler

Получить список URL-адресов с сайта [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 5 лет назад . Уточните этот вопрос Я развертываю сайт-замену для клиента, но он не...

web-crawler

Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy

У меня есть проект scrapy, который содержит несколько пауков. Есть ли способ определить, какие конвейеры использовать для какого паука? Не все определенные мной конвейеры применимы для каждого паука. благодаря...

python scrapy web-crawler

Скрыть адрес электронной почты от ботов - сохранить mailto:

tl; dr Скрыть адрес электронной почты от ботов без использования скриптов и сохранить mailto:функциональность. Метод также должен поддерживать программы чтения с экрана. Резюме Обфускация электронной почты без использования скриптов или контактных форм Адрес электронной почты должен быть полностью...

html css web-crawler mailto