Можно ли найти все страницы и ссылки на ЛЮБОМ сайте? Я хочу ввести URL-адрес и создать дерево каталогов всех ссылок с этого сайта?
Я посмотрел на HTTrack, но он загружает весь сайт, и мне просто нужно дерево каталогов.
directory
web-crawler
Джонатан Лайон
источник
источник
Ответы:
Проверьте linkchecker - он просканирует сайт (при соблюдении
robots.txt
) и сгенерирует отчет. Оттуда вы можете создать сценарий решения для создания дерева каталогов.источник
robots.txt
файла нет , это просто означает, что вы можете сканировать сколько душе угодно.Если в вашем браузере есть консоль разработчика (JavaScript), вы можете ввести этот код в:
Укороченный:
источник
$$
оператор? Или это просто произвольное имя функции, так же какn=ABC(''a');
я не понимаю, какurls
получить все элементы с тегами 'a'. Вы можете объяснить? Я предполагаю, что это не jQuery. О какой функции библиотеки прототипов идет речь?$$()
это сокращение отdocument.querySelectorAll()
. Больше информации по этой ссылке: developer.mozilla.org/en-US/docs/Web/API/Document/…Другой альтернативой может быть
С твоим
$$(
еще корочеисточник
Если это вопрос программирования, я бы посоветовал вам написать собственное регулярное выражение для анализа всего извлеченного содержимого. Целевые теги - это IMG и A для стандартного HTML. Для JAVA,
это вместе с классами Pattern и Matcher должно определять начало тегов. Добавьте тег LINK, если вам также нужен CSS.
Однако это не так просто, как вы могли подумать. Многие веб-страницы имеют неправильный формат. Программно извлекать все ссылки, которые человек может «распознать», действительно сложно, если вам нужно принять во внимание все нерегулярные выражения.
Удачи!
источник
попробуйте этот код ....
источник