Есть ли пакет R, который я могу использовать, чтобы выяснить, существуют ли отношения между переменными?
Обычно, когда я ищу шаблоны, я смотрю на корреляции, а затем на фасетный график. Затем я вручную применяю некоторые преобразования к переменным в данных. Мне было интересно, смогу ли я ускорить этот процесс с помощью пакета R.
r
data-visualization
correlation
eda
celenius
источник
источник
Ответы:
AFAIK, нет. Если быть более точным, я не знаю ни одного пакета R, который бы выполнял для вас часть того, что называется Исследовательским анализом данных (EDA), посредством одного вызова функции - я имею в виду аспекты повторного выражения и откровения обсуждается в Hoaglin, Mosteller and Tukey, Понимание надежного и разведочного анализа данных . Wiley-Interscience, 1983, в частности.
Тем не менее, в R существуют некоторые изящные альтернативы, особенно в отношении интерактивного исследования данных (смотрите интересное обсуждение: когда полезна интерактивная визуализация данных? ). Я могу думать о
Это только для интерактивного исследования данных, но я бы сказал, что это суть EDA. В любом случае, описанные выше методы могут помочь при изучении двумерных или более высоких отношений между числовыми переменными. Для категориальных данных хорошим вариантом является пакет vcd (таблицы визуализации и сводки). Тогда я бы сказал, что пакеты vegan и ade4 на первом месте для изучения отношений между переменными смешанных типов данных.
Наконец, как насчет интеллектуального анализа данных в R? (Попробуйте это ключевое слово на Rseek )
источник
loon
также waddella.github.io/loon Кредит идет к @hadleywickham за указание на это.Если вы просто хотите быстро взглянуть, как соотносятся переменные в вашем наборе данных, взгляните на функцию pair () или, что еще лучше, функцию pair.panels () в пакете psych. Я написал немного о функции пар здесь .
Используя функцию pair () или psych :: pair.panels (), довольно просто создать матрицы рассеяния.
источник
Проверьте
scagnostics
пакет и оригинал исследовательской работы . Это очень интересно для двумерных отношений. Для многомерных отношений стремление к проекции является очень хорошим первым шагом.В целом, однако, экспертиза предметной области и данных и сузит, и улучшит ваши методы для быстрого изучения отношений.
источник
Функция chart.Correlation в PerformanceAnalytics обеспечивает аналогичную функциональность для упомянутой функции plot.pairs @Stephen Turner, за исключением того, что она сглаживается с помощью функции Лёсса, а не линейной модели и значения для корреляций.
источник
Если вы ищете возможные преобразования для работы с корреляцией, то инструмент, который еще не был упомянут, который может быть полезен,
ace
можно найти вacepack
пакете (и, возможно, в других пакетах). Это делает интерактивный процесс попытки многих различных преобразований (с использованием сглаживателей) найти преобразования, чтобы максимизировать корреляцию между набором переменных x и переменной y. Построение графиков преобразований может затем предложить значимые преобразования.источник
Вы можете использовать функцию DCOR в пакете 'energy', чтобы вычислить меру нелинейной зависимости, называемой корреляцией расстояний, и построить график, как указано выше. Проблема с корреляцией Пирсона заключается в том, что он может обнаруживать только линейные отношения между переменными. Убедитесь, что вы выбрали параметр записи для индекса в функции DCOR, которая сказала.
источник