У меня есть этот огромный набор данных с примерно 2500 переменными и примерно 142 наблюдениями.
Я хочу запустить корреляцию между переменной X и остальными переменными. Но для многих столбцов пропущены записи.
Я попытался сделать это в R, используя аргумент "pairple-complete" ( use=pairwise.complete.obs
), и он вывел кучу корреляций. Но затем кто-то в StackOverflow опубликовал ссылку на эту статью http://bwlewis.github.io/covar/missing.html, и это делает метод «попарного завершения» в R непригодным для использования.
Мой вопрос: как узнать, когда уместно использовать опцию «попарно-полный»?
Мой use = complete.obs
вернулся no complete element pairs
, так что, если вы могли бы объяснить, что это значит тоже, это было бы здорово.
r
correlation
missing-data
correlation-matrix
Стэн Шунпайк
источник
источник
Ответы:
Вопрос с корреляциями на попарно полных наблюдениях
В случае, если вы описываете, основной проблемой является интерпретация. Поскольку вы используете попарно полные наблюдения, вы фактически анализируете несколько разных наборов данных для каждой из корреляций, в зависимости от того, какие наблюдения отсутствуют.
Рассмотрим следующий пример:
Три переменные в наборе данных,
a
,b
иc
, каждый из них имеет некоторые недостающие значения. Если вы вычислите корреляции для пар переменных здесь, вы сможете использовать только те случаи, в которых отсутствуют пропущенные значения для обеих рассматриваемых переменных. В этом случае это означает, что вы будете анализировать только последние 3 случая для корреляции междуa
иb
, только первые три случая для корреляции междуb
иc
т. Д.Тот факт, что вы анализируете совершенно разные случаи, когда вычисляете каждую корреляцию, означает, что результирующий паттерн корреляций может выглядеть бессмысленным. Увидеть:
Это выглядит как логическое противоречие ---
a
иb
сильно положительно коррелируют, аb
иc
также сильно положительно коррелируют, поэтому можно было бы ожидатьa
иc
быть положительно коррелируют , а также, но на самом деле сильная связь в направлении , противоположном. Вы можете понять, почему многим аналитикам это не нравится.Изменить, чтобы включить полезные разъяснения от whuber:
Обратите внимание, что часть аргумента зависит от того, что может означать «сильная» корреляция. Вполне возможно, что
a
иb
так же, какb
и «c
быть строго положительно коррелированными», в то время как существует «сильная ассоциация в противоположном направлении» междуa
иc
, но не так сильно, как в этом примере. Суть дела в том, что оценочная матрица корреляции (или ковариации) может не быть положительно определенной: именно так следует количественно определять «сильную».Проблема с типом пропущенности
Вы можете подумать: «Ну, разве это не нормально, просто предполагать, что подмножество случаев, которые я имею в наличии для каждой корреляции, более или менее соответствует той же схеме, что и я, если бы у меня были полные данные?» И да, это правда - нет ничего принципиально неправильного в вычислении корреляции для подмножества ваших данных (хотя вы теряете точность и мощность, конечно, из-за меньшего размера выборки), если доступные данные являются случайными Образец всех данных, которые были бы там, если бы у вас не было никаких пропусков.
Когда пропущение является чисто случайным, это называется MCAR (пропадает совершенно случайно). В этом случае анализ подмножества данных, в которых отсутствуют пропуски, не будет систематически смещать ваши результаты, и было бы маловероятно (но не невозможно) получить тот тип корреляции, который я продемонстрировал в приведенном выше примере.
Когда ваша пропущенность в некотором роде носит систематический характер (часто сокращенно MAR или NI, обозначая два разных вида систематической пропущенности), тогда у вас возникают гораздо более серьезные проблемы, как с точки зрения возможного внесения смещения в ваши расчеты, так и с точки зрения вашей способности обобщать ваши результаты для интересующей совокупности (поскольку анализируемая выборка не является случайной выборкой из совокупности, даже если бы был полный набор данных).
Есть много больших ресурсов , доступных , чтобы узнать о недостающих данных и как бороться с этим, но моя рекомендация Рубин: классический , и более недавней статье
источник
Огромное беспокойство вызывает то, что систематически отсутствуют данные, которые могут испортить ваш анализ. Ваши данные могут отсутствовать не случайно.
Об этом говорилось в предыдущих ответах, но я подумал, что приведу пример.
Финансовый пример: недостающие доходы могут быть плохими
В этих ситуациях не обязательно все потеряно (есть вещи, которые вы можете сделать), но наивный запуск регрессии (или вычисление корреляций) для не пропущенных данных может привести к серьезным предвзятым, противоречивым оценкам истинных параметров в совокупности.
источник
Парная корреляция уместна, если ваши пропущенные данные отсутствуют в случайном порядке (MCAR). Книга Пола Эллисона « Недостающие данные» - хорошее место для начала.
Вы можете проверить это с помощью теста Little's (1988) MCAR, который входит в
BaylorEdPsych
комплект поставки.источник