Мне нужно скачать все электронные книги Гутенберга в текстовом формате (не html) и только на английском языке.
У кого-нибудь есть предложения, как скачать их все с сервера Гутенберга?
Мне нужно, чтобы они провели лингвистическое исследование.
источник
--level=0
. Но я думаю, вам лучше разрешить прерывание и перезапуск: try--level 9999 --no-clobber
, который пропустит файлы, которые у вас уже есть (при условии, что вы все еще находитесь в той же папке на диске).--input-file
В руководстве .-c
вариант, но все же. Я далoffset=xxx
URL для зеркального отображения, но он все еще загружается с первой страницы.Вы можете загрузить всю коллекцию английских книг и других языков Гутенберга в одном файле ZIM, который сильно сжат и может затем открываться с помощью Kiwix как на настольном компьютере, так и на Android. Книги на английском языке 40 ГБ.
источник
Хотя выбранный ответ правильный, он потенциально может вызвать две проблемы:
wget
команда не сможет выполнить рекурсивные проверки при загрузке файлов с внешнего зеркала.Приведенное ниже решение устраняет эти проблемы:
Возможно, вы захотите изменить строки referer и user-agent, чтобы обеспечить немного случайности.
источник
У ftp://mirrors.pglaf.org/mirrors/gutenberg-iso есть несколько хороших вариантов.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso - это файл объемом 8 ГБ, которого должно быть достаточно для ваших нужд.
Здесь больше информации:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , он предоставляет все варианты загрузки архива, включая FTP и BitTorrent.
источник
Другой вариант - отличный инструмент на http://pgiso.pglaf.org/ .
источник
Почему бы не использовать все свои чрезмерно сложные и показанные выше навыки и знания в области программирования, чтобы создать простую кнопку, которая связывает все эти действия с надписью «Загрузить все текущие книги» - с вкладкой опций языка, когда вы нажимаете на нее.
Я уверен, что большинство пользователей, которые приходят на сайт, являются коллекционерами электронных книг, и ручная загрузка определенных книг по интересующим их темам вполне подходит для 1 или 2 книг. Но сделать большую коллекцию вручную - непросто. Тем не менее, если они нуждаются в этом для исследований или просто хотели бы иметь огромную цифровую библиотеку книг на своем собственном ПК. Большинство людей отключаются и уходят с сайта, когда понимают, что для этого им нужен мастер компьютера. Так что кнопка «Скачать все текущие книги» принесет пользу сайту и проекту, а также пользователям еще больше посетителей сайта. Так что все счастливы.
источник