Вопросы с тегом «web-scraping»

Веб-скрапинг - это процесс извлечения определенной информации с веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу с парсингом» (например, с Excel VBA), следует * тщательно изучить *, так как доступны многочисленные образцы функционального кода. К методам парсинга веб-страниц относятся сторонние приложения, разработка специального программного обеспечения или даже сбор данных вручную стандартным способом.

406

Варианты соскоба HTML? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 6 лет назад . Улучшить этот вопрос Я подумываю попробовать...

386

Как найти элементы по классу

У меня проблемы с анализом HTML-элементов с атрибутом "class" с помощью Beautifulsoup. Код выглядит так soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Я получаю сообщение об ошибке в той же строке «после» сценария...

python html web-scraping beautifulsoup

368

Безголовый браузер и выскабливание - решения [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Я пытаюсь разместить список возможных...

selenium web-scraping scrapy phantomjs casperjs

261

Как я могу получить возраст кэша Google любого URL или веб-страницы? [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 2 года назад . Улучшить этот вопрос В моем проекте мне нужно добавить возраст...

html url hyperlink web-scraping

194

Какой HTML парсер самый лучший? [закрыто]

В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и,...

java html parsing html-parsing web-scraping

185

Как выбрать значение раскрывающегося меню с Selenium с помощью Python?

Мне нужно выбрать элемент из выпадающего меню. Например: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) Сначала я...

python selenium selenium-webdriver web-scraping webdriver

178

Соскребая веб-страницу JavaScript с Python

Я пытаюсь разработать простой веб-скребок. Я хочу извлечь текст без кода HTML. На самом деле я достиг этой цели, но я видел, что на некоторых страницах, где загружен JavaScript, я не добился хороших результатов. Например, если какой-то код JavaScript добавляет текст, я не вижу его, потому что когда...

python web-scraping python-2.x urlopen

153

Скремблирование таблиц html в R-фреймы данных с использованием пакета XML

Как я могу очистить таблицы HTML, используя пакет XML? Взять, к примеру, эту страницу википедии о бразильской футбольной команде . Я хотел бы прочитать его в R и получить таблицу «список всех матчей, которые Бразилия сыграла против признанных команд ФИФА» в виде data.frame. Как я могу это...

html r xml parsing web-scraping

152

Как сохранить изображение локально, используя Python, URL-адрес которого я уже знаю?

Я знаю URL изображения в Интернете. например, http://www.digimouth.com/news/media/2011/09/google-logo.jpg , который содержит логотип Google. Теперь, как я могу загрузить это изображение, используя Python, не открывая URL в браузере и не сохраняя файл...

python web-scraping

144

получать ссылки с веб-страницы с помощью python и BeautifulSoup [закрыто]

Закрыто . Этот вопрос требует подробностей или ясности . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Добавьте подробности и проясните проблему, отредактировав этот пост . Закрыт 2 месяца назад . Уточните этот вопрос Как я могу получить ссылки веб-страницы и скопировать...

python web-scraping hyperlink beautifulsoup

129

Как использовать запросы Python для имитации посещения браузера?

Я хочу получить контент с указанного ниже веб-сайта. Если я использую браузер, такой как Firefox или Chrome, я могу получить настоящую страницу веб-сайта, которую хочу, но если я использую пакет (или wgetкоманду) запросов Python для ее получения, он возвращает совершенно другую HTML-страницу. Я...

python html web-scraping python-requests wget

128

Кукловод: передать переменную в .evaluate ()

Я пытаюсь передать переменную в page.evaluate()функцию в Puppeteer , но когда я использую следующий очень упрощенный пример, переменная evalVarне определена. Я новичок в Puppeteer и не могу найти никаких примеров для развития, поэтому мне нужна помощь в передаче этой переменной в...

javascript web-scraping evaluate puppeteer

107

Как лучше всего очистить данные с веб-сайта? [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы на него можно было ответить с помощью фактов и цитат, отредактировав этот пост . Закрыт 6 лет назад . Уточните этот вопрос Мне нужно извлечь содержимое с...

api web-scraping screen-scraping

селен с scrapy для динамической страницы

Я пытаюсь очистить информацию о продукте с веб-страницы с помощью scrapy. Моя веб-страница, которую нужно очистить, выглядит так: начинается со страницы product_list с 10 продуктами нажатие на кнопку «Далее» загружает следующие 10 продуктов (URL-адрес между двумя страницами не меняется) Я...

python selenium selenium-webdriver web-scraping scrapy

Как я могу скрести быстрее

Работа здесь , чтобы очистить АНИ сайт , который начинается с https://xxx.xxx.xxx/xxx/1.jsonк https://xxx.xxx.xxx/xxx/1417749.jsonи записать его точно MongoDB. Для этого у меня есть следующий код: client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com = db["threadcol"]...

python mongodb web-scraping pymongo

Нажмите элемент в списке автозаполнения с VBA и HTML

Я создал автоматизацию, которая позволит мне вводить данные на веб-сайте (хотя я не могу поделиться им, поскольку он является внутренним). Мой код ниже работает только до тех пор, пока он не введет текст "получил от". Однако, это поле «получено от» имеет список автозаполнения, и мне нужно выбрать...

html excel vba web-scraping autocomplete

Невозможно позволить моему сценарию автоматически генерировать несколько значений для использования в полезной нагрузке.

Я создал скрипт для получения html-элементов с целевой страницы путем последующей отправки двух запросов https. Мой сценарий может сделать вещь без нареканий. Однако мне пришлось скопировать четыре значения из инструментов chrome dev, чтобы заполнить четыре ключа внутри payload, чтобы отправить...

python python-3.x web-scraping

Не могу разобрать имя пользователя, чтобы убедиться, что я вошел на сайт

Я написал скрипт на python для входа на веб-сайт и анализа имени пользователя, чтобы убедиться, что я действительно смог войти в систему. Использование способа, описанного ниже, похоже, помогает мне в этом. Тем не менее, я использовал жестко закодированные куки, взятые из инструментов chrome dev в...

python python-3.x web-scraping