В моих попытках бороться с хаосом электронных таблиц я часто проповедую более надежные инструменты, такие как программное обеспечение для реальной статистики (R, Stata и т. П.). Недавно меня оспорил этот взгляд, который заявил, что просто не научится программировать. Я хотел бы предоставить им инструменты анализа данных, которые не требуют программирования (но в идеале, которые будут распространяться на программирование, если они решат опустить ногу в воду позже). Какие пакеты существуют для исследования данных, которые я могу рекомендовать с открытым лицом?
data-visualization
software
Ари Б. Фридман
источник
источник
Ответы:
Я программирую на Python для 95% своей работы, а остальное на R или MATLAB или IDL / PV-WAVE (и вскоре SAS). Но я нахожусь в среде, где время на результат часто является огромной движущей силой выбранного анализа, и поэтому я часто использую инструменты «укажи и щелкни». По моему опыту, не существует единого, надежного, гибкого инструмента с графическим интерфейсом для аналитики, так же как нет ни одного языка. Я обычно собираю коллекцию следующих бесплатных и коммерческих программ
Я не использовал JMP, Stata, Statistica и т. Д., Но хотел бы.
Использование этих инструментов включает в себя изучение различных графических интерфейсов и нескольких абстракций моделирования, что является проблемой в то время, но позже я получу более быстрые специальные результаты. Я нахожусь в той же лодке, что и ОП, потому что, хотя большинство людей, с которыми я работаю, действительно умны, им все равно, чтобы изучать язык, а также несколько графических интерфейсов и терминологию для конкретных приложений. Итак, я смирился с тем, что признаю, что Excel обеспечивает 90% анализа в мире бизнеса. Соответственно, я рассчитываю использовать такие вещи, как pyinex, чтобы позволить мне предоставлять более качественную аналитику для того же уровня представления Excel, который ожидает подавляющее большинство моих коллег.
ОБНОВЛЕНИЕ: Продолжая тему «Делать моделирование с программированием, но делать в Excel-уровне представления», я только что наткнулся на сайт этого парня, предлагающий графику в стиле Tufte для встраивания в ячейки Excel. Просто потрясающе и бесплатно!
источник
Что касается исследовательского (возможно, интерактивного) анализа данных, я бы посоветовал взглянуть на:
Все три принимают данные в
arff
илиcsv
формате.На мой взгляд, Stata не требует большого опыта программирования. Фактически, это даже часть его привлекательности: большая часть базового анализа может быть выполнена пользовательскими действиями «укажи и щелкни» с диалоговыми окнами для настройки конкретных параметров, например, для прогнозирования в линейной модели. То же самое относится, хотя и в меньшей степени, к R, когда вы используете внешние графические интерфейсы, такие как Rcmdr , Deducer и т. Д., Как говорит @ gsk3.
источник
Некоторые люди считают программирование простым вводом оператора командной строки. Тогда, возможно, вы немного растеряны, подбадривая их. Однако, если они уже используют электронные таблицы, они уже должны вводить формулы. Это похоже на операторы командной строки. Если они действительно подразумевают, что не хотят заниматься программированием в смысле логического и автоматического анализа, вы можете сказать им, что они все еще могут выполнять анализ в R или Stata без какого-либо программирования вообще.
Если они могут сделать свою статистику в электронной таблице ... все, что они хотят сделать ... тогда весь статистический анализ, который они хотят выполнить, может быть выполнен без "программирования" в R или Stata. Они могли бы упорядочить и упорядочить данные в электронной таблице, а затем просто экспортировать их в виде текста. Затем анализ проводится без какого-либо программирования вообще.
Вот так я иногда и знакомлюсь с R. Для анализа данных, который вы могли бы сделать в электронной таблице, не требуется программирования.
Если вы зацепите их таким образом, просто медленно наматывайте рыбу ... :) Через пару лет сделайте им комплимент за то, что они стали хорошим программистом.
Возможно, вы также захотите показать этот документ своим коллегам или, по крайней мере, прочитать его сами, чтобы лучше высказаться.
источник
Я собираюсь поставить здесь шаг для JMP. У меня есть пара причин, по которым я предпочитаю использовать инструмент для исследования данных без программирования:
источник
Я могу рекомендовать Tableau как хороший инструмент для исследования и визуализации данных, просто из-за различных способов просмотра и просмотра данных, просто перетаскивая их мышью. Графики довольно четкие, и вы можете легко вывести их в PDF для презентаций. Если вы хотите, вы можете расширить его с помощью некоторого «программирования». Я регулярно использую этот инструмент вместе с "R" и SAS, и все они хорошо работают вместе.
источник
Как сказал Джон, исследование данных не требует большого программирования на R. Вот список команд исследования данных, которые вы можете дать людям. (Я только что придумал это; вы, конечно, можете расширить его.)
Экспортируйте данные из любого пакета. (Экспортировать числовые данные без кавычек удобно.) Затем прочитайте данные в R.
Сделать стол.
Пусть R угадает, какую графику вам дать. Иногда это работает очень хорошо.
Куча определенных функций построения графиков работает довольно просто для отдельных переменных.
Взятие подмножеств
SQL-подобный синтаксис, если люди привыкли к этому (подробнее здесь )
PCA (у вас было бы более двух переменных, конечно.)
источник
Это скорее плач, чем ответ ...
Лучшее программное обеспечение, которое я видел для этого, является Arc , который построен поверх Xlisp-Stat. Это фантастическое программное обеспечение для исследования данных с большим количеством встроенной интерактивной графики, а также множеством статистических возможностей. По моему мнению, ничто иное не приблизилось к его простоте использования для исследования данных и возможности его дальнейшего расширения с помощью программирования на Лиспе. По моему мнению, интерактивность в R только начинает использоваться такими способами, как Arc, спустя десять долгих лет. И, насколько я знаю, еще никто не использовал эти возможности для создания интерактивного интерфейса, который был бы столь же полезен, как Arc.
К сожалению, он так и не завоевал популярность, поэтому разработчики почти все перешли на работу в R; последний раз он обновлялся в июле 2004 года. Версии для ПК и Linux / Unix по-прежнему работают и, возможно, стоит попробовать, в зависимости от ваших потребностей; для Mac лучший вариант - попробовать версию Linux / Unix под X11, таким образом я работал на нескольких системах. Версия для Mac, упомянутая на сайте, работает только на «Классических» Mac.
Я также кратко упомяну Мондриана , который я пробовал лишь кратко, но, похоже, обладает потрясающей графической интерактивностью для исследования данных, хотя (насколько я помню) нелегкий способ расширить возможности или сделать статистический вывод.
источник
Новая система программного обеспечения, которая выглядит многообещающей для этой цели, - Deducer , построенная на основе R. К сожалению, будучи новой, я подозреваю, что она еще не охватывает широту вопросов, которые люди могут задавать, но она отвечает всем требованиям. -водный критерий приведения людей к истинной упаковке, если они так решат позже.
Я также использовал JMP в прошлом, что было очень интересно. Я беспокоюсь, что некоторые интерфейсы могут быть слишком сложными для этих целей. И это несвободно, что затрудняет потенциальным беженцам из электронных таблиц попробовать себя на прихоти.
Есть также погремушка, которая выглядит несколько многообещающе.
источник
Для изучения того, что содержат данные, и для очистки их, прежний Google Refine, теперь Open Refine , является довольно хорошим графическим интерфейсом. Это гораздо мощнее для подготовки и очистки, чем что-то вроде Excel. Затем переключитесь на что-то вроде R-Commander для ваших анализов.
источник
Любой, кто отвечает на R или любой из его «GUI», не читал вопрос.
Для этого специально разработана программа, которая называется JMP. Да, это дорого, хотя у него есть бесплатная пробная версия и невероятно дешево для студентов или сотрудников колледжа (например, 50 долларов дешево).
Существует также RapidMiner, который представляет собой графический интерфейс на основе рабочего процесса для анализа данных и статистического анализа. Это бесплатно и с открытым исходным кодом.
источник
Ну, этот конкретный инструмент популярен в моей отрасли (хотя он не является отраслевым по дизайну): http://www.umetrics.com/simca
Он позволяет вам выполнять многофакторный анализ скрытого типа переменных (PCA и PLS) и включает в себя все сопутствующие интерпретационные графики / расчеты и инструменты опроса, такие как графики вклада, графики переменной важности, вычисления Q2 и т. Д.
Он часто используется в многомерных (и часто в высокой степени коррелированных / коллинеарных) промышленных наборах данных, где методы типа OLS / MLR не подходят (например, информация из множества датчиков, информация из журнала и т. Д.).
Он работает в среде с полностью графическим интерфейсом, и пользователю не нужно писать ни одной строки кода. К сожалению, это не бесплатно и не может быть расширено с помощью программирования.
источник
По моему мнению, если вы не пишете код теста самостоятельно, вы склонны к ошибкам и недопониманию результатов.
Я думаю, что вы должны порекомендовать им нанять статистика, которая имеет навыки работы с компьютером.
Если это всегда делать одно и то же, тогда вы действительно можете использовать небольшой инструмент (черный ящик), который сделает все. Но я не уверен, что это все еще называется исследованием данных.
источник
Я бы порекомендовал R пакет Джона Фокса под названием R commander:
http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/
Он создает пользовательский интерфейс, подобный SPSS (или тому подобное), который отлично подходит для начинающих и не требует от пользователя ввода какого-либо кода вообще. Все это делается через выпадающие списки (вы даже можете минимизировать консоль R во время работы).
Для меня преимущество этого пакета состоит в том, что вы можете воспользоваться всеми большими вычислительными возможностями R, имея при этом пользовательский интерфейс, полностью работоспособный для начинающих.
источник
Еще один полезный инструмент, хотя и для Windows, это Spotfire - я нашел его весьма полезным для быстрого просмотра различных гистограмм и графиков рассеяния для одного и пары переменных. Инструмент исследования, который помогает вам ранжировать отдельные переменные, а также пары на основе простой статистики - Hierarchical Clustering Explorer от HCIL. Это удобно для поиска наиболее интересных переменных / пар переменных.
источник