Использование ANOVA на проценты?

13

У меня есть таблица с четырьмя группами (4 группы ИМТ) в качестве независимой переменной (фактора). У меня есть зависимая переменная «процент курящих матерей во время беременности».

Допустимо ли для этого использовать ANOVA или мне нужно использовать хи-квадрат или какой-то другой тест?

нарисовалась
источник

Ответы:

21

Существует разница между наличием двоичной переменной в качестве зависимой переменной и пропорцией в качестве зависимой переменной.

  • Двоичная зависимая переменная :

    • Это звучит как то, что у вас есть. (т.е. каждая мама либо курила, либо не курила)
    • В этом случае я бы не использовал ANOVA. Логистическая регрессия с некоторой формой кодирования (возможно, фиктивное кодирование) для категориальной переменной-предиктора является очевидным выбором, если вы концептуализируете двоичную переменную как зависимую переменную (в противном случае вы можете сделать хи-квадрат).
  • Соотношение как зависимая переменная :

    • Это не похоже на то, что у вас есть. (т.е. у вас нет данных о доле общего времени бодрствования, которое мать курила во время беременности, в выборке курящих беременных женщин).
    • В этом случае подходы ANOVA и стандартная линейная модель в целом могут быть или не быть разумными для ваших целей. Смотрите ответ @Ben Bolker для обсуждения проблем.
Джером англим
источник
Для двоичной зависимой переменной, в случае, если у меня есть только сводные данные для двоичных пропорций (т. Е. # В группах A, B и C и # успехов в группах A, B и C), а не реальные необработанные данные, как мы можем использовать логистическую регрессию? Я только знаком с использованием его с необработанными данными.
Брайан
15

Это зависит от того, насколько близки ответы в разных группах к 0 или 100%. Если будет много экстремальных значений (то есть много значений, накопленных на 0 или 100%), это будет трудно. (Если вы не знаете «знаменателей», то есть числа субъектов, по которым рассчитываются проценты, то вы все равно не сможете использовать подходы к таблице сопряженности.) Если значения в группах более разумны, то вы можете преобразовать переменная ответа (например, классический арксинус-квадратный корень или, возможно, логит-преобразование). Существуют различные графические (предпочтительные) и нулевые гипотезы (менее предпочтительные) подходы для определения того, соответствуют ли ваши преобразованные данные предположениям ANOVA (однородность дисперсии и нормальности, первая важнее, чем последняя). Графические тесты: боксовые диаграммы (однородность дисперсии) и графики QQ (нормальность) [последнее должно быть сделано внутри групп или по остаткам]. Тесты с нулевой гипотезой: например, тест Бартлетта или Флигнера (дисперсия однородности), Шапиро-Уилк, Жарк-Бера и т. Д.

Бен Болкер
источник
11

Вам нужно иметь необработанные данные, чтобы переменная ответа была 0/1 (не курить, курить). Тогда вы можете использовать бинарную логистическую регрессию. Неправильно группировать ИМТ по интервалам. Контрольные точки неверны, вероятно, не существуют, и вы официально не проверяете, связан ли ИМТ с курением. В настоящее время вы проверяете, связан ли ИМТ с большой частью отброшенной информации с курением. Вы обнаружите, что особенно внешние интервалы ИМТ довольно неоднородны.

Фрэнк Харрелл
источник
2
@Frank - почему это не правильно для группы ИМТ? это кажется совершенно разумным, если результаты интерпретируются соответствующим образом. Вы могли бы, например, проверить, связаны ли «недостаточный вес», «здоровый вес», «избыточный вес» и «ожирение» с курением, где эти термины определяются диапазонами ИМТ. Я не вижу здесь "неправильного".
вероятностная
Я считаю, что ОП работает с общим набором инструктивных данных и может не иметь необработанного ИМТ. Хотя обычно дискретизация непрерывных регрессоров не идеальна, она не является «неправильной». Может быть даже полезно прибегнуть к этому, когда мы подозреваем, что измерения зашумлены и другого выхода нет. Действительно, реальная гипотеза, которую мы хотели бы проверить, связана ли ожирение с курением; ИМТ является лишь одним из способов измерения ожирения (и имеет свои проблемы, насколько я понимаю).
JMS
4
Даже при зашумленных измерениях анализ переменных как непрерывных лучше. Категоризация ИМТ создает больше проблем, чем могут решить различные варианты анализа. На самом деле оценки при классификации больше не имеют научного толкования. Научная величина - это та, которая имеет значение вне текущего эксперимента. Вы обнаружите, что групповые оценки (например, логарифмические шансы, что Y = 1 для высоких и низких интервалов X) являются функциями всего набора наблюдаемых ИМТ. Например, если вы добавите к образцу более высокие или очень низкие ИМТ, «эффекты» станут сильнее.
Фрэнк Харрелл
Для тех, кто установил R и RStudio, интерактивная демонстрация может быть найдена в biostat.mc.vanderbilt.edu/BioMod - см. Зеленую НОВУЮ маркировку. Вы должны загрузить скрипт в RStudio, а также установить пакет Hmisc.
Фрэнк Харрелл
«Даже когда измерения зашумлены, анализ переменных как непрерывных является превосходящим». Это просто неверно (то есть, общность - обычно это правда). Представьте, что у вас есть непрерывный ковариат, где погрешность его измерения увеличивается, например, с его величиной. Конечно, лучшее, что можно сделать, это смоделировать ошибку или получить более точные измерения и т. Д. Но сказать, что она неверна, просто слишком сильное утверждение, чтобы сделать.
JMS
3

Если вы решите сделать обычный ANOVA на пропорциональных данных, важно проверить допущение однородных отклонений ошибок. Если (как это обычно бывает с процентными данными) отклонения ошибок не являются постоянными, то более реалистичной альтернативой является попытка бета-регрессии, которая может объяснить эту гетероскедастичность в модели. Вот документ, обсуждающий различные альтернативные способы работы с переменной ответа, которая является процентом или пропорцией: http://www.ime.usp.br/~sferrari/beta.pdf

Если вы используете R, пакет betareg может быть полезен.

Уилл Таунс
источник