Вопросы с тегом «web-scraping»

Веб-скрапинг - это процесс извлечения определенной информации с веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу с парсингом» (например, с Excel VBA), следует * тщательно изучить *, так как доступны многочисленные образцы функционального кода. К методам парсинга веб-страниц относятся сторонние приложения, разработка специального программного обеспечения или даже сбор данных вручную стандартным способом.

406
Варианты соскоба HTML? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 6 лет назад . Улучшить этот вопрос Я подумываю попробовать...

386
Как найти элементы по классу

У меня проблемы с анализом HTML-элементов с атрибутом "class" с помощью Beautifulsoup. Код выглядит так soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Я получаю сообщение об ошибке в той же строке «после» сценария...

368
Безголовый браузер и выскабливание - решения [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Я пытаюсь разместить список возможных...

261
Как я могу получить возраст кэша Google любого URL или веб-страницы? [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 2 года назад . Улучшить этот вопрос В моем проекте мне нужно добавить возраст...

194
Какой HTML парсер самый лучший? [закрыто]

В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и,...

178
Соскребая веб-страницу JavaScript с Python

Я пытаюсь разработать простой веб-скребок. Я хочу извлечь текст без кода HTML. На самом деле я достиг этой цели, но я видел, что на некоторых страницах, где загружен JavaScript, я не добился хороших результатов. Например, если какой-то код JavaScript добавляет текст, я не вижу его, потому что когда...

153
Скремблирование таблиц html в R-фреймы данных с использованием пакета XML

Как я могу очистить таблицы HTML, используя пакет XML? Взять, к примеру, эту страницу википедии о бразильской футбольной команде . Я хотел бы прочитать его в R и получить таблицу «список всех матчей, которые Бразилия сыграла против признанных команд ФИФА» в виде data.frame. Как я могу это...

152
Как сохранить изображение локально, используя Python, URL-адрес которого я уже знаю?

Я знаю URL изображения в Интернете. например, http://www.digimouth.com/news/media/2011/09/google-logo.jpg , который содержит логотип Google. Теперь, как я могу загрузить это изображение, используя Python, не открывая URL в браузере и не сохраняя файл...

144
получать ссылки с веб-страницы с помощью python и BeautifulSoup [закрыто]

Закрыто . Этот вопрос требует подробностей или ясности . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Добавьте подробности и проясните проблему, отредактировав этот пост . Закрыт 2 месяца назад . Уточните этот вопрос Как я могу получить ссылки веб-страницы и скопировать...

129
Как использовать запросы Python для имитации посещения браузера?

Я хочу получить контент с указанного ниже веб-сайта. Если я использую браузер, такой как Firefox или Chrome, я могу получить настоящую страницу веб-сайта, которую хочу, но если я использую пакет (или wgetкоманду) запросов Python для ее получения, он возвращает совершенно другую HTML-страницу. Я...

128
Кукловод: передать переменную в .evaluate ()

Я пытаюсь передать переменную в page.evaluate()функцию в Puppeteer , но когда я использую следующий очень упрощенный пример, переменная evalVarне определена. Я новичок в Puppeteer и не могу найти никаких примеров для развития, поэтому мне нужна помощь в передаче этой переменной в...

107
Как лучше всего очистить данные с веб-сайта? [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы на него можно было ответить с помощью фактов и цитат, отредактировав этот пост . Закрыт 6 лет назад . Уточните этот вопрос Мне нужно извлечь содержимое с...

85
селен с scrapy для динамической страницы

Я пытаюсь очистить информацию о продукте с веб-страницы с помощью scrapy. Моя веб-страница, которую нужно очистить, выглядит так: начинается со страницы product_list с 10 продуктами нажатие на кнопку «Далее» загружает следующие 10 продуктов (URL-адрес между двумя страницами не меняется) Я...

16
Как я могу скрести быстрее

Работа здесь , чтобы очистить АНИ сайт , который начинается с https://xxx.xxx.xxx/xxx/1.jsonк https://xxx.xxx.xxx/xxx/1417749.jsonи записать его точно MongoDB. Для этого у меня есть следующий код: client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com = db["threadcol"]...

13
Нажмите элемент в списке автозаполнения с VBA и HTML

Я создал автоматизацию, которая позволит мне вводить данные на веб-сайте (хотя я не могу поделиться им, поскольку он является внутренним). Мой код ниже работает только до тех пор, пока он не введет текст "получил от". Однако, это поле «получено от» имеет список автозаполнения, и мне нужно выбрать...

10
Невозможно позволить моему сценарию автоматически генерировать несколько значений для использования в полезной нагрузке.

Я создал скрипт для получения html-элементов с целевой страницы путем последующей отправки двух запросов https. Мой сценарий может сделать вещь без нареканий. Однако мне пришлось скопировать четыре значения из инструментов chrome dev, чтобы заполнить четыре ключа внутри payload, чтобы отправить...

9
Не могу разобрать имя пользователя, чтобы убедиться, что я вошел на сайт

Я написал скрипт на python для входа на веб-сайт и анализа имени пользователя, чтобы убедиться, что я действительно смог войти в систему. Использование способа, описанного ниже, похоже, помогает мне в этом. Тем не менее, я использовал жестко закодированные куки, взятые из инструментов chrome dev в...