Образ VM для проектов по науке о данных

24

Поскольку существует множество инструментов, доступных для задач по науке о данных, и неудобно устанавливать все и создавать идеальную систему.

Существует ли образ Linux / Mac OS с установленными и доступными для немедленного использования людьми Python, R и другими открытыми инструментами для анализа данных? Идеально подойдет Ubuntu или легковесная ОС с последней версией Python, R (включая IDE) и другие инструменты визуализации данных с открытым исходным кодом. Я не нашел ни одного в моем быстром поиске в Google.

Пожалуйста, дайте мне знать, если таковые имеются или кто-то из вас создал один для себя? Я предполагаю, что некоторые университеты могут иметь свои собственные образы виртуальных машин. Пожалуйста, поделитесь такими ссылками.

JeanVuda
источник
Хотя этот вопрос можно рассматривать как пограничный оффтоп, я как-то считаю его хорошим для сайта ИМХО.
Шон Оуэн
3
В дополнение к удивительным комментариям, есть (несколько более старая) запись в блоге, в которой сравниваются несколько разных решений: jeroenjanssens.com/2013/12/07/…
LauriK

Ответы:

13

Есть еще один популярный в последнее время выбор: докер ( https://www.docker.com ). Docker - это контейнер, позволяющий очень легко и быстро создавать и поддерживать рабочую среду.

Надеюсь, это поможет вам.

fansia
источник
12

Если вы ищете виртуальную машину с предустановленным набором инструментов, попробуйте Data Science Toolbox .

Шон Оуэн
источник
Интересный проект (+1). Спасибо, что поделились! Возможно, было бы проще использовать его, чем выяснить, почему Docker не хотел работать на моем ноутбуке с Win 7 (см. Выше). Тем не менее, это может быть хорошей идеей для изучения Docker, учитывая последние тенденции.
Александр Блех
Хорошая информация. По сравнению с инструментами VM, требуется некоторое время, чтобы понять, как работает Docker. Если вы уже знакомы с vm, рекомендуется использовать этот набор инструментов. Спасибо, что поделились.
Фансия
Спасибо, что поделились. Это определенно интересно. Но я не понимаю, как кто-то может использовать его без графического интерфейса. Мне понадобится R-studio и PyCharm для Python. (Записная книжка iPython есть). Мне нужно немного поиграть, чтобы понять это полностью.
JeanVuda
1
@AleksandrBlekh Мне удалось наконец заставить докер работать на моем компьютере с Windows 7, восстановив сертификаты, docker-machine regenerate-certsнадеюсь, это поможет :)
RK
@RK: Спасибо, что дали мне знать. Я попробую, когда у меня будет шанс (хотя это может занять некоторое время, так как есть некоторые более приоритетные вопросы, требующие решения).
Александр Блех
8

В то время как образы Docker стали более модными, я лично считаю, что технология Docker не очень удобна даже для опытных пользователей. Если вы в порядке с использованием нелокальных образов виртуальных машин и можете использовать Amazon Web Services (AWS) EC2 , рассмотрите R-ориентированные образы для проектов по науке о данных, предварительно созданных Луи Аслеттом. Изображения содержат самые последние, если не самые последние версии Ubuntu LTS , R и RStudio Server . Вы можете получить к ним доступ здесь .

Помимо основных компонентов, которые я перечислил выше, изображения содержат также много полезных инструментов для обработки данных. Например, изображения поддерживают LaTeX, ODBC, OpenGL, Git, оптимизированные числовые библиотеки и многое другое.

Александр Блех
источник
Большое спасибо за упоминание этой опции. Я обязательно попробую. Тем не менее, я хочу изображение, которое имеет точно такой же AMI, но может работать с VirtualBox на моем ноутбуке.
JeanVuda
Недавно я посмотрел учебник по Docker, проверил его и понял, что его легко понять. Какую часть вы нашли не дружественным к пользователю?
Роберт Смит
@JeanVids: Всегда пожалуйста. Я понимаю ваше желание иметь локальную виртуальную машину - вот почему я попробовал Docker на своем компьютере. Я дам вам знать, если найду образ виртуальной машины VirtualBox, сфокусированный на науке о данных (надеюсь, на основе R).
Александр Блех
1
@RobertSmith: я понимаю. Возможно, проблема заключалась в том, что я пытался установить его на своем компьютере с Windows. Во всяком случае, я попробую через некоторое время. Спасибо за ваши комментарии.
Александр Блех
1
@ АлександрБлех Да, это может быть главной проблемой. К сожалению, при установке такого рода вещей в Windows возникает много проблем.
Роберт Смит
5

Сегодня я использовал этот репозиторий с https://github.com/sequenceiq/docker-spark и собрал его с помощью Docker. это искра построения образа докера, основанная на изображении hadoop того же владельца. если вы используете spark, у него есть Python API под названием pyspark http://spark.apache.org/docs/latest/api/python/

Эврен Кутар
источник