Кто-нибудь знает, возможно ли импортировать большой набор данных в Amazon S3 с URL?
По сути, я хочу избежать загрузки огромного файла и последующей его загрузки на S3 через веб-портал. Я просто хочу указать URL-адрес загрузки для S3 и подождать, пока они загрузят его в свою файловую систему. Это кажется легким делом, но я просто не могу найти документацию по нему.
Ответы:
Так как вы, очевидно, обладают AWS AN счета, я бы рекомендовал следующее:
wget http://example.com/my_large_file.csv
.s3cmd
для загрузки файла на S3. Например:s3cmd cp my_large_file.csv s3://my.bucket/my_large_file.csv
Поскольку соединения между внутренней сетью различных AWS услуг используются AWS игровой, загружая из экземпляра EC2 к S3 довольно быстро. Гораздо быстрее, чем загрузить его со своего компьютера. Этот способ позволяет избежать загрузки файла на компьютер и сэкономить потенциально значительное время, загружая его через веб-интерфейс.
источник
Запустите экземпляр EC2 с достаточным объемом памяти
SSH к экземпляру
Получите команду curl, соответствующую загрузке с вашего локального компьютера. Вы можете использовать параметры разработчика в Google Chrome -> вкладка сети -> копировать -> копировать как curl (этот шаг необходим для некоторых веб-сайтов, требующих аутентификации, таких как kaggle)
В терминале экземпляра выполните
curl
команду (добавьте-o output_file
к команде). Это загрузит и сохранит файлСконфигурируйте учетные данные aws для подключения экземпляра к s3 (одним из способов является использование команды
aws config
, предоставление идентификатора и секретного ключа доступа AWS),Используйте эту команду для загрузки файла в s3:
источник
Обратитесь к документации Aws: http://aws.amazon.com/code. Есть библиотеки, доступные для большинства языков программирования. Таким образом, вы можете создать контейнер и настроить его в своем коде для извлечения данных из URL и записи в этот контейнер в s3.
Например, в Python:
Ссылка: https://boto.readthedocs.org/en/latest/s3_tut.html
источник
Вы можете смонтировать ваш s3 bucket на экземпляр ec2, а затем перейти к / path / to / s3_mounting_on_a_folder, там вы можете просто использовать команду:
чтобы смонтировать s3 в ec2, используйте s3fs.
источник