Вопросы с тегом «html-parsing»

Синтаксический анализ HTML - это процесс сериализации HTML-документа и создания представления, с которым вы можете работать программно, например, чтобы извлечь из него данные. Спецификация HTML определяет стандартный алгоритм синтаксического анализа HTML, который реализован во всех основных браузерах.

406
Варианты соскоба HTML? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 6 лет назад . Улучшить этот вопрос Я подумываю попробовать...

259
Разобрать строку HTML с помощью JS

Я искал решение, но ничего не имело значения, поэтому вот моя проблема: Я хочу проанализировать строку, которая содержит текст HTML. Я хочу сделать это в JavaScript. Я попробовал эту библиотеку, но кажется, что она анализирует HTML моей текущей страницы, а не строки. Потому что, когда я пробую...

208
Использование регулярных выражений для разбора HTML: почему бы и нет?

Кажется, что у каждого вопроса в stackoverflow, когда спрашивающий использует регулярное выражение для получения некоторой информации из HTML, неизбежно будет «ответ», который говорит, что не следует использовать регулярное выражение для анализа HTML. Почему нет? Я знаю, что существуют «настоящие»...

194
Какой HTML парсер самый лучший? [закрыто]

В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и,...

185
Разбор HTML с использованием Python

Я ищу модуль HTML Parser для Python, который может помочь мне получить теги в виде списков / словарей / объектов Python. Если у меня есть документ формы: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='class'>Something...

96
Как работает анализ HTML, если он не использует регулярное выражение?

Я каждый день вижу вопросы, в которых спрашивают, как разобрать или извлечь что-то из некоторой HTML-строки, и первым ответом / комментарием всегда будет «Не используйте RegEx для синтаксического анализа HTML, чтобы не почувствовать гнев!» (последняя часть иногда опускается). Меня это сбивает с...

92
Как разобрать HTML-страницу с помощью Node.js

Мне нужно проанализировать (на стороне сервера) большое количество HTML-страниц. Мы все согласны с тем, что регулярное выражение здесь не подходит. Мне кажется, что javascript - это собственный способ синтаксического анализа HTML-страницы, но это предположение основывается на коде на стороне...

84
Как нормализовать HTML в JavaScript или jQuery?

Теги могут иметь несколько атрибутов. Порядок, в котором атрибуты появляются в коде, не имеет значения. Например: <a href="#" title="#"> <a title="#" href="#"> Как я могу «нормализовать» HTML в Javascript, чтобы порядок атрибутов всегда был одинаковым? Мне все равно, какой порядок...