Spider / сканировать веб-сайт и получить каждый URL и заголовок страницы в файле CSV

Я перехожу со старого сайта корзины покупок ASP на сайт Drupal / Ubercart. Частью этого шага является обеспечение того, что старые ссылки будут перенаправлены на новые. Для этого все, что мне нужно, это какой-то способ получить список всех ссылок со старого сайта.

Предпочтительно, чтобы результаты имели заголовок страницы, и в идеале я мог бы дать ему какой-то способ вернуть другие данные со страницы (например, селектор CSS).

Я бы предпочел, чтобы это было в OS X, но я тоже могу использовать приложения для Windows.

Я попробовал целостность , но ее вывод почти невозможно расшифровать, плюс он, кажется, не работает хорошо.

csv drupal web-crawler Тайлер Кленденин
источник

R, может справиться с этим. Но я не уверен, как это сделать для всего сайта. Вот пример синтаксического анализа одной страницы: stackoverflow.com/questions/3746256/…

Брэндон Бертельсен

Ответы:

Если вы не против написания скриптов на Perl ...

Этот модуль реализует настраиваемый механизм веб-обхода для робота или другого веб-агента. Получив начальную веб-страницу (URL), робот получит содержимое этой страницы и извлечет все ссылки на странице, добавив их в список URL-адресов для посещения.

RedGrittyBrick
источник

Я ужасен с Perl, и я не могу понять, как установить модуль из CPAN = p

Тайлер Кленденин