Мне нужно проанализировать (на стороне сервера) большое количество HTML-страниц.
Мы все согласны с тем, что регулярное выражение здесь не подходит.
Мне кажется, что javascript - это собственный способ синтаксического анализа HTML-страницы, но это предположение основывается на коде на стороне сервера, имеющем все возможности DOM, которые javascript имеет внутри браузера.
Есть ли в Node.js такая возможность?
Есть ли лучший подход к этой проблеме - анализ HTML на стороне сервера?
источник
Используйте Cheerio . Он не такой строгий, как jsdom, и оптимизирован для парсинга. В качестве бонуса использует уже знакомые вам селекторы jQuery.
источник
jsdom
слишком медленный для этого: /Используйте htmlparser2 , это быстрее и проще . Проконсультируйтесь с этим примером использования:
https://www.npmjs.org/package/htmlparser2#usage
И живая демонстрация здесь:
http://demos.forbeslindesay.co.uk/htmlparser2/
источник
Htmlparser2 от FB55 кажется хорошей альтернативой.
источник
jsdom слишком строг, чтобы делать какие-либо вещи по настоящему соскабливанию экрана, но beautifulsoup не подавится плохой разметкой.
node-soupselect - это порт beautifulsoup Python в nodejs, и он прекрасно работает
источник