Вопросы с тегом «extraction»

406
Варианты соскоба HTML? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 6 лет назад . Улучшить этот вопрос Я подумываю попробовать...

385
Модуль Python для преобразования PDF в текст [закрыт]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Есть ли модуль Python для преобразования...

382
Как извлечь подстроку с помощью регулярных выражений

У меня есть строка с двумя одинарными кавычками, 'символ. Между одинарными кавычками находятся данные, которые я хочу. Как я могу написать регулярное выражение, чтобы извлечь "данные, которые я хочу" из следующего текста? mydata = "some string with 'the data i want'...

243
Извлечение текста из файла HTML с использованием Python

Я хотел бы извлечь текст из файла HTML, используя Python. По сути, я хочу получить такой же вывод, как если бы я скопировал текст из браузера и вставил его в блокнот. Я хотел бы что-то более надежное, чем использование регулярных выражений, которые могут не работать на плохо сформированном HTML. Я...

152
Как извлечь текст из PDF? [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос так, чтобы он был по теме переполнения стека. Закрыто 5 лет назад . Улучшить этот вопрос Кто-нибудь может порекомендовать библиотеку /...

131
Извлечь часть совпадения с регулярным выражением

Я хочу, чтобы регулярное выражение извлекало заголовок из HTML-страницы. В настоящее время у меня есть это: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Есть ли регулярное выражение...

129
Как Apple находит дату, время и адреса в электронных письмах?

В почтовом клиенте iOS, когда электронное письмо содержит дату, время или место, текст становится гиперссылкой, и можно создать встречу или посмотреть карту, просто нажав на ссылку. Это работает не только для писем на английском, но и на других языках. Мне нравится эта функция, и я хотел бы понять,...

125
BeautifulSoup Захватить видимый текст веб-страницы

По сути, я хочу использовать BeautifulSoup для получения строго видимого текста на веб-странице. Например, эта веб-страница - мой тестовый пример. И в основном я хочу просто получить основной текст (статью) и, возможно, даже несколько названий вкладок здесь и там. Я пробовал предложение в этом...

102
Какой алгоритм использует Readability для извлечения текста из URL-адресов?

Некоторое время я пытался найти способ разумного извлечения «релевантного» текста из URL-адреса путем удаления текста, связанного с рекламой, и всего прочего беспорядка. После нескольких месяцев исследований я отказался от этого как проблемы это не может быть точно определено. (Я пробовал разные...

87
Извлечение текста из файла PDF с помощью PDFMiner в Python?

Я ищу документацию или примеры того, как извлечь текст из файла PDF с помощью PDFMiner с Python. Похоже, PDFMiner обновил свой API, и все соответствующие примеры, которые я нашел, содержат устаревший код (классы и методы изменились). Обнаруженные мной библиотеки, упрощающие извлечение текста из...

82
Анализ PDF с использованием Python - извлечение форматированного и простого текста [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 5 лет назад . Уточните этот вопрос Я ищу библиотеку PDF, которая позволит мне...

12
Извлечение данных Python из зашифрованного PDF

Я недавний выпускник по чистой математике, который только взял несколько базовых курсов по программированию. Я прохожу стажировку и у меня есть проект по анализу внутренних данных. Я должен проанализировать внутренние PDF-файлы последних лет. PDF-файлы "защищены". Другими словами, они зашифрованы....