Готовясь к выступлению, которое я скоро дам, я недавно начал копаться в двух основных (бесплатных) инструментах для интерактивной визуализации данных: GGobi и mondrian - оба предлагают широкий спектр возможностей (даже если они немного глючат).
Я хочу попросить вас помочь в формулировании (как для себя, так и для моей будущей аудитории). Когда полезно использовать интерактивные сюжеты? Или для исследования данных (для нас самих) и представления данных (для «клиента»)?
Поскольку при объяснении данных клиенту я вижу значение анимации для:
- Использование «идентификации / связывания / чистки» для определения того, какая точка данных на графике является чем.
- Представление анализа чувствительности данных (например: «если мы удалим эту точку, вот что мы получим)
- Показывает влияние различных групп в данных (например: «давайте посмотрим на наши графики для мужчин, а теперь для женщин»)
- Показывает влияние времени (или возраста, или вообще предлагает другое измерение для презентации)
Поскольку при исследовании самих данных я могу видеть значение идентификации / связывания / чистки при исследовании выбросов в наборе данных, над которым мы работаем.
Но кроме этих двух примеров, я не уверен, какое другое практическое использование предлагают эти методы. Специально для нашего собственного исследования данных!
Можно утверждать, что интерактивная часть хороша для изучения (например) различного поведения различных групп / кластеров в данных. Но когда (на практике) я подошел к такой ситуации, я хотел выполнить соответствующие статистические процедуры (и специальные тесты) - и то, что я нашел значимым, я бы тогда нарисовал с помощью цветов, четко разделяющих данные на соответствующие группы. Из того, что я видел, это более безопасный подход, чем «размышлять» о данных (что может легко привести к углублению данных (если область многократного сравнения, необходимого для исправления, даже не ясна).
Я был бы очень рад прочитать ваш опыт / мысли по этому вопросу.
(этот вопрос может быть вики - хотя он не субъективен и хорошо продуманный ответ с радостью выиграет мою оценку «ответ» :))
Ответы:
В дополнение к привязке количественных или качественных данных к пространственным закономерностям, как показано на @whuber, я хотел бы упомянуть использование EDA с чисткой и различными связывающими графиками для анализа продольных и многомерных данных.
Обе они обсуждаются в превосходной книге « Интерактивная и динамическая графика для анализа данных с помощью R и GGobi » Дайан Кук и Деборы Ф. Суэйн (Springer UseR !, 2007), которую вы наверняка знаете. Авторы хорошо обсуждают ЭДА в главе 1, обосновывая необходимость того, чтобы ЭДА «навязывала нам неожиданное», цитируя Джона Тьюки (стр. 13): использование интерактивных и динамических дисплеев не является ни отслеживанием , ни предварительными данными. проверка (например, чисто графические сводки данных), но это просто рассматривается как интерактивное исследование данных, которое может предшествовать или дополнять чисто статистическое моделирование на основе гипотез.
Использование GGobi вместе с его интерфейсом R ( rggobi ) также решает проблему создания статической графики для промежуточного отчета или окончательной публикации, даже с помощью Projection Pursuit (стр. 26-34), благодаря пакетам DescribeDisplay или ggplot2 .
В той же строке Майкл Френдли уже давно выступает за использование визуализации данных в Категориальном анализе данных, что в значительной степени иллюстрируется пакетом vcd , но также и более поздним пакетом vcdExtra (в том числе динамическим, а именно пакетом rgl ), который действует как клей между VcD и ГНС пакетов для расширения лог-линейной модели. Недавно он дал хорошее резюме этой работы во время 6-й конференции CARME , « Достижения в визуализации категориальных данных с использованием пакетов vcd, gnm и vcdExtra в R» .
Следовательно, EDA также может рассматриваться как обеспечивающее визуальное объяснение данных (в том смысле, что оно может учитывать непредвиденные закономерности в наблюдаемых данных), до подхода чисто статистического моделирования или параллельно с ним. Таким образом, EDA не только предоставляет полезные способы для изучения внутренней структуры данных, но также может помочь уточнить и / или обобщить статистические модели, применяемые к ним. Это, по сути, то, что позволяют делать, например, болты . Хотя они не являются многомерными методами анализа сами по себе , они являются инструментами для визуализации результатов многомерного анализа (путем приближенияотношений при рассмотрении всех людей вместе, или все переменные вместе, или оба). Факторные оценки могут использоваться в последующем моделировании вместо исходной метрики, чтобы либо уменьшить размерность, либо обеспечить промежуточные уровни представления.
Примечание
Риск быть старомодным, я все еще использую
xlispstat
( Люк Тирни ) время от времени. Он имеет простые, но эффективные функциональные возможности для интерактивных дисплеев, которые в настоящее время недоступны для базовой графики R. Мне не известны подобные возможности в Clojure + Incanter (+ Processing).источник
Динамическое связывание графики является естественным и эффективным для исследовательского анализа пространственных данных или ESDA . Системы ESDA обычно связывают одну или несколько количественных карт (таких как карты хороплетов ) с табличными представлениями и статистическими графиками базовых данных. Некоторые такие возможности были частью некоторых настольных ГИС-систем на протяжении 15 лет, в частности ArcView 3 (более не выпускаемый коммерческий продукт). Бесплатное программное обеспечение GeoDa предоставляет некоторые из этих возможностей в среде, предназначенной для исследования пространственных данных и статистического анализа. Это неуклюжий, с уникальным интерфейсом и неполированной графикой, но без ошибок.
Такое использование EDA позволяет обойти возражение о том, что статистическое тестирование может быть лучше, чем интерактивное исследование, поскольку во многих (большинстве?) Ситуациях нет четкой статистической модели, нет очевидного (или даже подходящего) статистического теста, а проверка гипотез часто не имеет значения: люди должны видеть, что происходит , где это происходит , и наблюдать статистические отношения между переменными в пространственном контексте. Не весь анализ данных является или даже должен состоять из формальных процедур!
источник
Для меня интерактивная визуализация полезна только для моего собственного исследования или при работе с очень практичным клиентом. Имея дело с финальной презентацией, я предпочитаю выбирать статический график, который лучше всего подходит для моей цели. В противном случае клиенты могут быть полностью отвлечены фактором гиз-свиста.
Самым большим преимуществом, которое я получаю от этого, является уровень скорости, который позволяет мне исследовать гораздо больше, чем я мог бы, если бы я прекратил программировать решение. JMP - один из моих любимых инструментов для этого, поскольку он объединяет многое из того, что я хочу, в единый интерфейс. Я думаю, что большинство людей, которые являются хорошими статистическими программистами, пробуют что-то вроде JMP (или GGobi и т. Д.) В течение слишком короткого периода времени, чтобы действительно добиться успеха. JMP, в частности, создаст впечатление, что вы знаете это, просто просматривая меню. Однако работа с руководством действительно необходима, чтобы раскрыть всю его мощь.
Вы упомянули мою главную озабоченность по поводу этого уровня скорости: вы в конечном итоге совершенно не представляете, что означают ваши p-значения. Всего за несколько минут вы можете визуально изучить сотни отношений. В конце концов, проверка гипотез полностью вводит в заблуждение, но я вижу, что люди делают это постоянно.
Особенность, которую я люблю в GGobi, - это стремление к проецированию, в котором вы указываете, какой тип шаблона вы ищете в многомерном пространстве, а затем сидите и наблюдаете, как он «преследует» эту цель. Отличный материал!
источник