Поскольку существует множество инструментов, доступных для задач по науке о данных, и неудобно устанавливать все и создавать идеальную систему.
Существует ли образ Linux / Mac OS с установленными и доступными для немедленного использования людьми Python, R и другими открытыми инструментами для анализа данных? Идеально подойдет Ubuntu или легковесная ОС с последней версией Python, R (включая IDE) и другие инструменты визуализации данных с открытым исходным кодом. Я не нашел ни одного в моем быстром поиске в Google.
Пожалуйста, дайте мне знать, если таковые имеются или кто-то из вас создал один для себя? Я предполагаю, что некоторые университеты могут иметь свои собственные образы виртуальных машин. Пожалуйста, поделитесь такими ссылками.
Ответы:
Есть еще один популярный в последнее время выбор: докер ( https://www.docker.com ). Docker - это контейнер, позволяющий очень легко и быстро создавать и поддерживать рабочую среду.
Надеюсь, это поможет вам.
источник
Если вы ищете виртуальную машину с предустановленным набором инструментов, попробуйте Data Science Toolbox .
источник
docker-machine regenerate-certs
надеюсь, это поможет :)В то время как образы Docker стали более модными, я лично считаю, что технология Docker не очень удобна даже для опытных пользователей. Если вы в порядке с использованием нелокальных образов виртуальных машин и можете использовать Amazon Web Services (AWS) EC2 , рассмотрите R-ориентированные образы для проектов по науке о данных, предварительно созданных Луи Аслеттом. Изображения содержат самые последние, если не самые последние версии Ubuntu LTS , R и RStudio Server . Вы можете получить к ним доступ здесь .
Помимо основных компонентов, которые я перечислил выше, изображения содержат также много полезных инструментов для обработки данных. Например, изображения поддерживают LaTeX, ODBC, OpenGL, Git, оптимизированные числовые библиотеки и многое другое.
источник
Вы пробовали Cloudera QuickStart VM ?:
Мне было очень легко запустить его, и он включает в себя программное обеспечение с открытым исходным кодом, такое как Mahout и Spark .
источник
Сегодня я использовал этот репозиторий с https://github.com/sequenceiq/docker-spark и собрал его с помощью Docker. это искра построения образа докера, основанная на изображении hadoop того же владельца. если вы используете spark, у него есть Python API под названием pyspark http://spark.apache.org/docs/latest/api/python/
источник