Как я могу очистить таблицы HTML, используя пакет XML?
Взять, к примеру, эту страницу википедии о бразильской футбольной команде . Я хотел бы прочитать его в R и получить таблицу «список всех матчей, которые Бразилия сыграла против признанных команд ФИФА» в виде data.frame. Как я могу это сделать?
Ответы:
... или более короткая попытка:
выбранный стол самый длинный на странице
источник
Отредактировано, чтобы добавить:
Образец вывода
источник
Еще один вариант использования Xpath.
Производит этот результат
источник
rvest
Наряду сxml2
другой популярный пакет для разбора HTML веб - страниц.Синтаксис проще в использовании, чем
xml
пакет, и для большинства веб-страниц пакет предоставляет все необходимые параметры.источник