Как я могу получить исходный код HTML в переменной с помощью модуля Selenium с Python?
Я хотел сделать что-то вроде этого:
from selenium import webdriver
browser = webdriver.Firefox()
browser.get("http://example.com")
if "whatever" in html_source:
# Do something
else:
# Do something else
Как я могу это сделать? Я не знаю, как получить доступ к исходному HTML.
python
selenium
selenium-webdriver
user1008791
источник
источник
Ответы:
Вам необходимо получить доступ к
page_source
собственности:источник
find_element_by_xpath("//*").get_attribute("outerHTML")
(С Selenium2Library вы можете использовать
get_source()
источник
driver.page_source поможет вам получить исходный код страницы. Вы можете проверить, присутствует ли текст в источнике страницы или нет.
Если вы хотите сохранить источник страницы в переменной, добавьте строку ниже после driver.get :
и измените условие if на:
источник
Используя исходный код страницы, вы получите весь HTML-код.
Итак, сначала определите блок кода или тег, в котором вам нужно получить данные или щелкнуть элемент ..
Вы можете найти элементы по имени, XPath, идентификатору, ссылке и пути CSS.
источник
Чтобы ответить на ваш вопрос о получении URL-адреса для urllib, просто выполните этот код JavaScript:
источник
Вы можете просто использовать
WebDriver
объект и получить доступ к исходному коду страницы через его@property
полеpage_source
...Попробуйте этот фрагмент кода :-)
источник
Теперь вы можете применить функцию BeautifulSoup для извлечения данных ...
источник
Я бы рекомендовал получить исходный код с помощью urllib и, если вы собираетесь анализировать, использовать что-то вроде Beautiful Soup .
источник