Почему коэффициент вариации недопустим при использовании данных с положительными и отрицательными значениями?

10

Я не могу найти окончательный ответ на мой вопрос.

Мои данные состоят из нескольких графиков с измеренными средними значениями от 0,27 до 0,57. В моем случае все значения данных положительные, но само измерение основано на соотношении значений отражательной способности, которое может варьироваться от -1 до +1. Графики представляют значения NDVI , удаленного индикатора растительности "продуктивность".

Мое намерение состояло в том, чтобы сравнить изменчивость значений на каждом графике, но, поскольку каждый график имеет различное среднее значение, я выбрал CV, чтобы измерить относительную дисперсию значений NDVI на график.

Из того, что я понимаю, взятие CV этих графиков не является кошерным, потому что каждый график может иметь как положительные, так и отрицательные значения. Почему в таких случаях нецелесообразно использовать резюме? Какими могут быть жизнеспособные альтернативы (например, аналогичный критерий относительной дисперсии, преобразования данных и т. Д.)?

Prophet60091
источник
1
Какова цель сравнения изменчивости? Почему бы вам просто не сравнить показатели фактической изменчивости, такие как SD, MAD, диапазон или что-то еще, вместо относительной меры, такой как CV (что здесь не имеет смысла)?
whuber
Я использую CV для учета различий в средствах между участками. Разве это не имеет смысла, потому что значения находятся в диапазоне от -1 до +1 на всех графиках? то есть «фактическая изменчивость» была бы более показательна для различий между участками?
Prophet60091
2
CV - относительная мера вариации по определению. Это дает бессмысленные результаты для любого отрицательного среднего (вы не можете интерпретировать отрицательное количество дисперсии или спреда). Для положительных средних это означает, что заданное количество спреда выглядит намного больше, когда среднее мало. Когда это требуется, то, что вы делаете, фактически эквивалентно сравнению ваших данных в логарифмическом масштабе - и это не имеет смысла, когда какие-либо данные могут быть нулевыми или отрицательными. Возможно, ваши данные могут нуждаться в каком-либо повторном выражении, чтобы обеспечить хорошее сравнение изменчивости; это зависит от того, как они генерируются.
whuber
+1 за объяснение. Хотя все мои графики являются положительными, на каждом графике могут быть отрицательные значения. Исходя из вышеизложенного и ответа Питера ниже, будет казаться, что использование CV не является гарантией. Я посмотрю на возможное изменение масштаба значений и / или использование показателей реальной изменчивости.
Prophet60091
1
Если вы можете разумно изменить масштаб своих данных, добавив константу, это также означает, что CV не является хорошей идеей. Это потому, что добавление константы изменит CV, но не изменит вариацию.
Питер Флом

Ответы:

11

Подумайте о том, что такое резюме: отношение стандартного отклонения к значению. Но если переменная может иметь положительные и отрицательные значения, среднее значение может быть очень близко к 0; таким образом, CV больше не делает то, что должен делать: то есть дает представление о том, насколько велик sd по сравнению со средним значением.

РЕДАКТИРОВАТЬ: В комментарии я сказал, что если вы могли бы разумно добавить константу в переменную, CV не годится. Вот пример:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

х2 - это просто х + 10. Я думаю, что интуитивно понятно, что они одинаково переменны; но резюме отличается.

Реальный пример этого может быть, если x - это температура в градусах C, а x2 - это температура в градусах K (хотя можно утверждать, что K - это правильный масштаб, поскольку он имеет определенный 0).

Питер Флом
источник
Спасибо! Таким образом, проблема больше в том, чтобы иметь среднее значение около нуля, а не обязательно иметь положительные и отрицательные значения в ваших данных. Если так, то как близко к среднему нулю считается «очень близко»? В моем случае я бы сказал, что мои средства далеки от нуля. Есть ли определенный способ определить это?
Prophet60091
Нет, проблема в том, что CV больше не делает то, что должно делать, даже если есть только 1 отрицательное значение. Если у вас отрицательные значения, не используйте CV. Кроме того, если ваши значения в произвольном масштабе, не используйте CV.
Питер Флом
Для полноты, не могли бы вы дать немного больше объяснений, почему использование произвольной шкалы делает недействительным использование CV? Спасибо!
Prophet60091
Честно говоря, я думаю, что @whuber не защищал сравнение преобразованных и нетрансформированных данных, но ваша точка зрения по-прежнему принята: масштабирование повлияет на резюме, когда можно подумать, что результаты должны остаться прежними. +1 за игрушечный код R!
Prophet60091
Я не спорю с комментариями @whuber в этой теме.
Питер Флом
0

Я думаю о них как о разных моделях вариаций. Существуют статистические модели, в которых CV постоянно. Где эти работы, можно сообщить резюме. Существуют модели, в которых стандартное отклонение является степенной функцией среднего значения. Существуют модели, в которых стандартное отклонение является постоянным. Как правило, модель с постоянным CV является лучшим начальным предположением, чем модель с постоянным SD, для переменных масштаба. Вы можете предположить, почему это так, возможно, основываясь на распространенности мультипликативных, а не аддитивных взаимодействий.

Постоянно-CV моделирование часто связано с логарифмическим преобразованием. (Важным исключением является неотрицательный ответ, который иногда равен нулю.) Есть несколько способов взглянуть на это. Во-первых, если CV является постоянным, то log являются обычным стабилизирующим дисперсию преобразованием. В качестве альтернативы, если ваша модель ошибок логнормальна с константой SD в логарифмическом масштабе, то CV представляет собой простое преобразование этой SD. CV примерно равно логарифмическому SD, когда оба малы.

Два способа применения методов статистики 101, таких как стандартное отклонение, относятся к данным так, как вы их получили, или (особенно, если это шкала отношений) к их журналам. Вы делаете лучшее первое предположение, что можете, зная, что природа может быть более сложной и что дальнейшее изучение может быть в порядке. Примите во внимание то, что люди ранее сочли продуктивным с вашими данными.

Вот случай, когда это важно. Химические концентрации иногда суммируются с помощью CV или моделируются в логарифмическом масштабе. Однако pH является логарифмической концентрацией.

горячий газ
источник
3
Спасибо за ваш вклад и добро пожаловать на наш сайт! Не могли бы вы прояснить, как ваш ответ отвечает на вопрос о целесообразности использования резюме вообще для характеристики данных, которые могут иметь отрицательные значения? Казалось бы, эта ситуация не отражена ни в одном из ваших замечаний.
whuber