Как правило, когда встречаются непрерывные, но искаженные показатели результата в продольном дизайне (скажем, с одним эффектом между субъектами), общий подход заключается в преобразовании результата в нормальность. Если ситуация экстремальная, например, с усеченными наблюдениями, можно подумать и использовать модель кривой роста Тобита или что-то подобное.
Но я в недоумении, когда вижу результаты, которые обычно распределяются в определенные моменты времени, а затем сильно искажаются в других; преобразование может заткнуть одну утечку, но вызвать другую. Что вы могли бы предложить в таком случае? Существуют ли «непараметрические» версии моделей со смешанными эффектами, о которых я не знаю?
Примечание: в качестве примера можно привести результаты тестов знаний до / после серии образовательных мероприятий. Результаты начинаются в норме, но затем группируются на верхнем уровне шкалы.
источник
Ответы:
Предполагая, что проблема возникает в ваших остатках (поскольку распределение самой исходной переменной обычно не является проблемой), я бы хотел изучить причину проблемы, а не пытаться «исправить» ее путем преобразования или применения непараметрическая модель.
Если это тот случай, когда кажется, что есть тенденция (например, постепенно становится более или менее нормальным) или четкий разрыв между переходом от нормального к ненормальному, то это предполагает «смену режима» в некотором роде. ваши данные (т. е. механизм генерирования данных меняется со временем) или проблема с отсутствующими переменными.
Если это так, что нет очевидного паттерна (например, периоды времени 1 и 3 выглядят нормально, а периоды времени 2 и 4 - нет), я бы очень внимательно искал проблему целостности данных.
Простой способ проверить, есть ли у вас изменение режима, состоит в том, чтобы оценить модель, используя только «нормальные» периоды времени, а затем пересмотреть, используя другие периоды времени, и посмотреть, какая разница возникает. Более сложный подход заключается в использовании модели скрытого класса, возможно, со временем в качестве сопутствующей переменной.
Что касается вашего вопроса о непараметрических моделях смешанных эффектов, то это зависит от того, что вы подразумеваете под непараметрическими. Если вы имеете в виду модели, которые не предполагают числовую зависимую переменную, то таких моделей много (например, LIMDEP имеет довольно много). Кроме того, имейте в виду, что нарушение предположения о нормальности, вероятно, будет проблематичным только с точки зрения логического вывода, если размер вашей выборки невелик. Один из способов исследовать это - попробовать различные преобразования, которые обсуждались в других комментариях и ответах, и посмотреть, сильно ли это повлияет на ваши выводы.
источник
Существуют преобразования Бокса-Кокса, которые повышают переменную до степенной лямбды, где лямбда включается в оценку параметров модели. Я не знаком со сложившейся трансформацией власти Тьюки, поэтому я не знаю, говорим ли мы об одном и том же. Для того, чтобы оценить лямбду, вам нужно несколько точек в подгонке. Хотите ли вы установить другое распределение в каждой временной точке, где распределение определяется для группы субъектов, проходящих тест в каждой временной точке? Даже если это так, если вы знаете, что некоторые моменты времени должны иметь одинаковое распределение, вы можете объединить их в одну подборку.
Другой подход, который является непараметрическим и не включает преобразований в нормальность, заключается в применении начальной загрузки в каждый момент времени или в каждом объединенном наборе моментов времени.
источник