Вопросы с тегом «html-content-extraction»

406

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 6 лет назад . Улучшить этот вопрос Я подумываю попробовать...

243

Извлечение текста из файла HTML с использованием Python

Я хотел бы извлечь текст из файла HTML, используя Python. По сути, я хочу получить такой же вывод, как если бы я скопировал текст из браузера и вставил его в блокнот. Я хотел бы что-то более надежное, чем использование регулярных выражений, которые могут не работать на плохо сформированном HTML. Я...

python html text html-content-extraction

131

Извлечь часть совпадения с регулярным выражением

Я хочу, чтобы регулярное выражение извлекало заголовок из HTML-страницы. В настоящее время у меня есть это: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Есть ли регулярное выражение...

python html regex html-content-extraction

125

BeautifulSoup Захватить видимый текст веб-страницы

По сути, я хочу использовать BeautifulSoup для получения строго видимого текста на веб-странице. Например, эта веб-страница - мой тестовый пример. И в основном я хочу просто получить основной текст (статью) и, возможно, даже несколько названий вкладок здесь и там. Я пробовал предложение в этом...

python text beautifulsoup html-content-extraction