Это немного не по теме, но я надеюсь, что вы, ребята, поможете мне. Я нашел сайт, полный статей, которые мне нужны, но они смешаны с большим количеством бесполезных файлов (в основном, jpgs).
Я хотел бы знать, есть ли способ найти ( не загружать ) все PDF-файлы на сервере, чтобы составить список ссылок. По сути, я просто хотел бы отфильтровать все, что не является PDF, чтобы получить лучшее представление о том, что загружать, а что нет.
Ответы:
обзор
Хорошо, вот и все. Это программное решение в виде скрипта:
Монтаж
Вам нужно будет иметь
wget
иlynx
установить:использование
Сценарий получит список всех
.pdf
файлов на веб-сайте и выведет его на выход командной строки и в текстовый файл в рабочем каталоге. Если вы закомментируете «необязательную»wget
команду, скрипт продолжит загрузку всех файлов в новый каталог.пример
источник
"$(pwd)/pdflinks.txt"
вместоpdflinks.txt
?простой фрагмент javascript может решить эту проблему: (ПРИМЕЧАНИЕ: я предполагаю, что все pdf файлы заканчиваются на .pdf в ссылке.)
откройте консоль JavaScript браузера, скопируйте следующий код и вставьте его в консоль js, готово!
источник
lu
Функции должно быть:lu.endsWith (".pdf") == 1
, то , что у меня только PDF ссылки, не все ссылки с «* .pdf *» в них, это то , что я получил с кодом , как отвечал. FWIW.