Почему нельзя делать корреляцию Пирсона по данным о пропорциях?

10

Онлайн модуль, который я изучаю, утверждает, что никогда не следует использовать корреляцию Пирсона с данными о пропорциях. Почему бы нет?

Или, если это иногда хорошо или всегда хорошо, почему?

user1205901 - Восстановить Монику
источник
3
Что это говорит и в каком контексте? «Никогда» не кажется слишком сильным, если они не говорят о какой-то очень ограниченной ситуации. Может быть, тот, кто написал это, просто неправ, но без контекста, как мы можем догадаться?
Glen_b
2
Онлайн-модуль является частным, и я не могу связать его. Тем не менее, я нашел видео, в котором говорится то же самое: australianbioinformatics.net/the-pipeline/2013/3/19/… . И модуль, который я видел, и это видео показывают, что нет контекстов, в которых коррелирующие пропорции приемлемы.
user1205901 - Восстановить Монику
4
«Никогда» не слишком сильно. Есть причины быть осторожными при интерпретации коэффициентов корреляции, включающих пропорции, особенно те, которые основаны на небольших количествах. Но тот же анализ, подтверждающий эти причины, также показывает, что, когда пропорции основаны на большом количестве и пропорции «достаточно далеки» от или , коэффициенты корреляции не являются проблематичными. Кроме того, всегда можно сообщить коэффициент корреляции для любого набора парных данных (где оба компонента демонстрируют вариации) в виде сводной (описательной) статистики. 101
whuber

Ответы:

6

Это для случая, когда несколько переменных суммируются вместе в 1 в каждом наблюдении. Мой ответ будет на уровне интуиции; это намеренно (а также, я не эксперт по композиционным данным).

Пусть у нас есть iid (следовательно, с нулевой корреляцией) положительно-значимые переменные, которые мы затем суммируем и пересчитываем как пропорции этой суммы. Затем,

  • В случае двух переменных V1 V2 , если говорят, что V1 изменяется свободно, то V2 не имеет места для свободы (поскольку V1 + V2 = постоянная) и является полностью фиксированной; чем больше V1, тем меньше V2, чем меньше V1, тем больше V2. Их соотношение равно и всегда так.1
  • В случае 3 переменных V1 V2 V3 , если говорят, что V1 изменяется свободно, то V2 + V3 фиксируется; это означает, что внутри (V2 + V3) каждая из двух переменных по-прежнему частично свободна: они в среднем раза фиксированы по каждой, полностью фиксированы в целом. Таким образом, если любая из трех переменных будет взята как свободная (как мы взяли V1), любая из оставшихся двух ожидается фиксированной. Так что соотношение между ними составляет . Это ожидаемая корреляция; это может варьироваться от образца к образцу.1 / 2 - 0,51/21/20.5
  • В случае 4 переменных V1 V2 V3 V4 по одним и тем же соображениям мы имеем следующее: если мы возьмем любую из четырех как свободную, то любая из оставшихся будет фиксированной на ; Итак, ожидаемая корреляция между любой парой из четырех - одна свободна, а другая фиксирована на - равна .1 / 3 - 0,3331/31/30.333
  • По мере роста числа (первоначально идентифицированных) переменных ожидаемая парная корреляция возрастает от отрицательной к , и ее вариация от выборки к выборке становится больше.0
ttnphns
источник
Хорошо, но я предполагаю, что интерес представляют пары V1, V2, каждая из которых суммируется с 1 (100%), но нет ограничений на отдельные V, за исключением того, что каждая дробь.
Ник Кокс
each V summing to 1 ( 100%)Извините? Я вас не поняла Я не ставлю никаких ограничений на отдельные V, только будучи дробью. Однако первоначальное ограничение заключалось в том, что мой пример предполагает нулевую корреляцию до превращения V в дроби.
ttnphns
Вы имели в виду, что у каждого V есть значения, суммирующие до 1 («по вертикали»)? Нет, я имел в виду «по горизонтали», через переменные. Но, к сожалению, ФП не прояснил смысл их вопроса. Итак, я взял это, как я взял это.
ttnphns
Да; то есть, я думаю, что обычно подразумевается здесь, но вопрос не особенно ясен.
Ник Кокс
1
@ttnphns Я видел утверждение, что никогда не следует делать корреляцию Пирсона двух переменных, измеряемых как пропорции. Я попытался прояснить ситуацию, отредактировав ОП, чтобы выделить слово «никогда». Видео делает то же самое заявление в своем заголовке («Не коррелируйте пропорции!»), Хотя они обсуждают это только в контексте композиционных данных. Я намеренно оставил контекст неопределенным, потому что мой источник заявил, что корреляции Пирсона не должны использоваться с данными о пропорциях в любом контексте. Однако, похоже, ответ на мой вопрос: «Соотношение пропорций - это хорошо, за исключением некоторых случаев».
user1205901 - Восстановить Монику
10

Ссылка на видео вашего комментария устанавливает контекст для композиций, которые также могут называться микстами. В этих случаях сумма доли каждого компонента складывается до 1. Например, воздух составляет 78% азота, 21% кислорода и 1% других (общее количество составляет 100%). Учитывая, что количество одного компонента полностью определяется другими, любые два компонента будут иметь идеальные мультилинейные отношения. Для примера с воздухом имеем:

x1+x2+x3=1

итак:

x1=1x2x3

x2=1x1x3

x3=1x1x2

Так что, если вы знаете какие-либо два компонента, третий сразу известен.

Как правило, ограничение на смеси

i=1qxi=1

xi

Вы можете вычислить корреляцию между двумя компонентами, но она не является информативной , поскольку они всегда коррелируют. Вы можете прочитать больше о композиционном анализе в разделе Анализ данных, измеренных как пропорциональный состав .

Вы можете использовать корреляцию, когда данные о пропорциях поступают из разных доменов. Скажите, что ваш ответ - это доля битых пикселей на ЖК-экране. Вы можете попытаться соотнести это, скажем, с долей гелия, используемой на этапе химической обработки экрана.

blackeneth
источник
Я вижу - я ошибочно думал, что композиции были только примером. Поэтому справедливо ли говорить, что соотнесение пропорций, как правило, не вызывает проблем, если только у вас нет ситуации, в которой композиции «заставляют» существовать корреляцию?
user1205901 - Восстановить Монику
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshipнепонятно. Вы можете расширить это?
ttnphns
Я тоже не понимаю этот ответ. В вашем примере с тремя переменными каждая «определяется» двумя другими, но корреляция Пирсона анализирует только одну переменную по отношению к одной другой. Так, например, если смотреть на азот в сравнении с кислородом, у вас может быть набор данных (азот, кислород) [(0,78, 0,21), (0,20, 0,41), (0,44, 0,44)], и вы можете сделать действительный коэффициент корреляции расчет на этих данных (и это, конечно, не является линейным). Коэффициент корреляции Пирсона не знает и не заботится о «другом» там ...
Джейсон C
3
В качестве мета-комментария я бы не ожидал, что недоступный материал будет указан как авторитет для какой-либо статистической точки зрения, а не то, что вы предлагаете это сделать. Итак, на одном уровне все просто: есть литература по анализу композиционных данных, где можно найти; Я не эксперт, поэтому я не могу сказать, что является наиболее авторитетным по корреляции, но мой инстинкт заключается в том, что предупреждение преувеличено. Описательное использование корреляции может быть полезным. Просто выводы усложняются ограничением итогов.
Ник Кокс
Я думаю, что «доля битых пикселей» была бы хороша, если бы мы собирали измерения с ЖК-экранов с одинаковым количеством пикселей, а давление газа в процессе оставалось постоянным. Но как только вы начнете позволять изменяться знаменателям этих пропорций, кто может сказать, каков эффект гелия?
Дэвид Ловелл
5

Это глубокий вопрос, и у него есть некоторые тонкости, которые необходимо сформулировать. Я буду стараться изо всех сил, но даже несмотря на то, что я опубликовал эту тему (« Пропорциональность: допустимая альтернатива корреляции для относительных данных» ), я всегда готов удивляться новым взглядам на анализ данных, содержащих только относительную информацию.

Как отмечают участники этой цепочки, корреляция печально известна (в некоторых кругах) тем, что она бессмысленна при применении к композиционным данным, которая возникает, когда набор компонентов ограничивается суммой до константы (как мы видим с пропорциями, процентами, частей на миллион и т. д.).

Карл Пирсон ввел термин « ложная корреляция» с учетом этого. (Примечание: популярный Тайлер Виген в паразитной Корреляции сайт не столько о ложной корреляции , как « корреляция подразумевает причинную обусловленность » ошибочность.)

Раздел 1.7 Aitchison's (2003) «Краткое руководство по композиционному анализу данных» предоставляет классическую иллюстрацию того, почему корреляция является неуместной мерой ассоциации для композиционных данных (для удобства, цитируется в этой дополнительной информации) .

Композиционные данные возникают не только тогда, когда набор неотрицательных компонентов делается для суммирования с константой; данные называются композиционными, если они несут только относительную информацию.

Я думаю, что главная проблема с корреляцией данных, которые несут только относительную информацию, заключается в интерпретации результата. Это проблема, которую мы можем проиллюстрировать с помощью одной переменной; скажем, «пончики, произведенные на доллар ВВП» в разных странах мира. Если ценность одной нации выше, чем другой, это потому, что

  • их производство пончиков выше?
  • их ВВП ниже?

...кто может сказать?

Конечно, как отмечают люди в этой теме, можно рассчитать корреляции этих видов переменных как описательную переменную. Но что означают такие корреляции?

Дэвид Ловелл
источник
3

У меня такой же вопрос. Я нашел эту ссылку на biorxiv полезной:

Ловелл Д., В. Павловский-Глан, Дж. Эгозкуе, С. Маргерат, Й. Белер (2014),
«Пропорциональность: действительная альтернатива корреляции для относительных данных»

Во вспомогательной информации этого документа (Ловелл, Дэвид и др.; Doi: dx.doi.org/10.1101/008417) авторы упоминают, что корреляции между относительными обилиями в некоторых случаях не дают никакой информации. Они приводят пример относительного содержания двух экспрессий мРНК. На рисунке S2 относительные содержания двух разных мРНК совершенно отрицательно коррелированы, хотя корреляция этих двух мРНК в абсолютных значениях не имеет отрицательного отношения (зеленые точки и фиолетовые точки).

Может быть, это может помочь вам.

Сью
источник
2
Спасибо за ваше предложение. Я не дал понять, В подтверждение информации этого документа (Ловелл, Дэвид и др.; Doi: dx.doi.org/10.1101/008417 ) авторы отмечают, что корреляции между относительными обилиями в некоторых случаях не дают никакой информации. Они приводят пример относительного содержания двух экспрессий мРНК. На рисунке S2, относительные содержания двух разных мРНК совершенно отрицательно коррелированы, хотя корреляция этих двух мРНК в абсолютных значениях не является отрицательной (зеленые точки и фиолетовые точки).
подать в суд
@shu, может быть, вы могли бы сказать, почему эта статья помогла вам с подобной проблемой, и подытожить ее? Вставка ссылки не является ответом, поэтому, пожалуйста, уточните немного больше. Причина этого также в том, что ссылки умирают, и если вы хотите, чтобы ваш ответ был полезным для кого-то в будущем, вы должны сделать его самосогласованным. Конечно, предоставление ссылок в дополнение к вашему ответу - хорошая привычка.
Тим