У меня есть таблица с четырьмя группами (4 группы ИМТ) в качестве независимой переменной (фактора). У меня есть зависимая переменная «процент курящих матерей во время беременности».
Допустимо ли для этого использовать ANOVA или мне нужно использовать хи-квадрат или какой-то другой тест?
Это зависит от того, насколько близки ответы в разных группах к 0 или 100%. Если будет много экстремальных значений (то есть много значений, накопленных на 0 или 100%), это будет трудно. (Если вы не знаете «знаменателей», то есть числа субъектов, по которым рассчитываются проценты, то вы все равно не сможете использовать подходы к таблице сопряженности.) Если значения в группах более разумны, то вы можете преобразовать переменная ответа (например, классический арксинус-квадратный корень или, возможно, логит-преобразование). Существуют различные графические (предпочтительные) и нулевые гипотезы (менее предпочтительные) подходы для определения того, соответствуют ли ваши преобразованные данные предположениям ANOVA (однородность дисперсии и нормальности, первая важнее, чем последняя). Графические тесты: боксовые диаграммы (однородность дисперсии) и графики QQ (нормальность) [последнее должно быть сделано внутри групп или по остаткам]. Тесты с нулевой гипотезой: например, тест Бартлетта или Флигнера (дисперсия однородности), Шапиро-Уилк, Жарк-Бера и т. Д.
источник
Вам нужно иметь необработанные данные, чтобы переменная ответа была 0/1 (не курить, курить). Тогда вы можете использовать бинарную логистическую регрессию. Неправильно группировать ИМТ по интервалам. Контрольные точки неверны, вероятно, не существуют, и вы официально не проверяете, связан ли ИМТ с курением. В настоящее время вы проверяете, связан ли ИМТ с большой частью отброшенной информации с курением. Вы обнаружите, что особенно внешние интервалы ИМТ довольно неоднородны.
источник
Если вы решите сделать обычный ANOVA на пропорциональных данных, важно проверить допущение однородных отклонений ошибок. Если (как это обычно бывает с процентными данными) отклонения ошибок не являются постоянными, то более реалистичной альтернативой является попытка бета-регрессии, которая может объяснить эту гетероскедастичность в модели. Вот документ, обсуждающий различные альтернативные способы работы с переменной ответа, которая является процентом или пропорцией: http://www.ime.usp.br/~sferrari/beta.pdf
Если вы используете R, пакет betareg может быть полезен.
источник