Я хотел бы получать ежедневное время восхода / захода солнца с веб-сайта. Можно ли очистить веб-контент с помощью Python? какие модули используются? Есть ли доступный учебник?
python
screen-scraping
eozzy
источник
источник
Ответы:
Используйте urllib2 в сочетании с блестящей библиотекой BeautifulSoup :
источник
soup = BeautifulSoup(requests.get('http://example.com').text)
backticks
вокруг кода, и он превратил его в ссылку. Спасибо!Я бы порекомендовал Scrapy.
Цитата из удаленного ответа:
источник
Я собрал воедино скрипты из моей работы по поиску в сети в эту библиотеку .
Пример скрипта для вашего случая:
Вывод:
источник
Я бы настоятельно рекомендовал проверить Pyquery . Он использует jquery-подобный (он же css-like) синтаксис, который делает вещи действительно простыми для тех, кто приходит из этого фона.
Для вашего случая это будет что-то вроде:
Вывод:
источник
Вы можете использовать urllib2 для выполнения HTTP-запросов, и тогда у вас будет веб-контент.
Вы можете получить это так:
Beautiful Soup - это анализатор Python HTML, который, как предполагается, хорош для очистки экрана.
В частности, вот их учебник по разбору HTML-документа.
Удачи!
источник
Я использую комбинацию Scrapemark (поиск URL-адресов - py2) и httlib2 (загрузка изображений - py2 + 3). Файл scrapemark.py содержит 500 строк кода, но использует регулярные выражения, поэтому он может быть не таким быстрым, не тестировал.
Пример для очистки вашего сайта:
Использование:
Результат:
источник
Сделайте свою жизнь проще, используя
CSS Selectors
Я знаю, что опоздал на вечеринку, но у меня есть хорошее предложение для вас.
Использование
BeautifulSoup
уже предложено. Я бы предпочел использоватьCSS Selectors
для очистки данных внутри HTMLисточник
Если мы думаем о получении имени элементов из какой-либо конкретной категории, мы можем сделать это, указав имя класса этой категории с помощью селектора css:
Это частичные результаты поиска:
источник
Вот простой веб-сканер, я использовал BeautifulSoup, и мы будем искать все ссылки (якоря) с именем класса _3NFO0d. Я использовал Flipkar.com, это интернет-магазин розничной торговли.
источник
У Python есть хорошие возможности для очистки сети. Лучший из них - это скрап . Это может быть немного сложно для начинающих, так что здесь немного помочь.
1. Установите Python выше 3,5 (будут работать более низкие до 2.7).
2. Создайте среду в Конде (я сделал это).
3. Установите скрап на месте и бегите оттуда.
4.
Scrapy shell
предоставит вам интерактивный интерфейс для проверки вашего кода.5.
Scrapy startproject projectname
создаст рамки.6.
Scrapy genspider spidername
создаст паука. Вы можете создать столько пауков, сколько захотите. При этом убедитесь, что вы находитесь в каталоге проекта.Легче использовать запросы и красивый суп . Прежде чем начать, дайте один час времени на изучение документации, это решит большинство ваших сомнений. BS4 предлагает широкий выбор парсеров, которые вы можете выбрать. Используйте
user-agent
иsleep
сделать очистку легче. BS4 возвращает bs.tag, так что используйтеvariable[0]
. Если работает js, вы не сможете очистить, используя запросы и bs4 напрямую. Вы можете получить ссылку API, а затем проанализировать JSON, чтобы получить необходимую информацию или попробоватьselenium
.источник