У меня есть явно бимодальное распределение значений, которое я стараюсь соответствовать. Данные могут хорошо соответствовать либо 2 нормальным функциям (бимодальным), либо 3 нормальным функциям. Кроме того, существует вероятная физическая причина для сопоставления данных с 3.
Чем больше параметров введено, тем более идеальным будет соответствие, поскольку при достаточном количестве констант можно « подогнать слона ».
Вот распределение, соответствующее сумме 3 нормальных (гауссовых) кривых:
Это данные для каждой посадки. Я не уверен, какой тест я должен применить здесь, чтобы определить соответствие. Данные состоят из 91 балла.
1 нормальная функция:
- RSS: 1.06231
- X ^ 2: 3.1674
- F.Test: 0,3092
2 нормальные функции:
- RSS: 0.010939
- X ^ 2: 0,053896
- F.Test: 0,97101
3 нормальные функции:
- RSS: 0.00536
- X ^ 2: 0,02794
- F.Test: 0,99249
Какой правильный статистический тест можно применить, чтобы определить, какой из этих трех подходов является лучшим? Очевидно, что 1 нормальное соответствие функции неадекватно. Так как же я могу различить 2 и 3?
Чтобы добавить, я в основном делаю это с Excel и небольшим Python; Я еще не знаком с R или другими статистическими языками.
R
маршруту). Некоторые критерии выбора модели упоминаются в этом ответе . Наконец, вы можете рассмотреть методы ансамбля , которые я кратко рассмотрел в этом ответе , который также содержит ссылку на информацию, ориентированную на Python. Вы можете найти более подробную информацию о выборе модели и усреднение в этом ответе .Ответы:
Вот два способа решения проблемы выбора дистрибутива:
Для сравнения моделей используйте меру, которая штрафует модель в зависимости от количества параметров. Информационные критерии делают это. Используйте информационный критерий, чтобы выбрать, какую модель сохранить, выберите модель с самым низким информационным критерием (например, AIC). Основное правило для сравнения значимости разницы в AIC - если разность в AIC больше 2 (это не формальный тест на гипотезу, см. Проверка разницы в AIC двух не вложенных моделей ).
AIC = , где - число оцениваемых параметров, а - максимальное правдоподобие, и - функция правдоподобия, а - вероятность наблюдаемых данных зависящая от параметра распределения .2k−2ln(L) k L L=maxθL(θ|x) L(θ|x)=Pr(x|θ) Pr(x|θ) x θ
Если вам нужен тест на формальную гипотезу, вы можете действовать как минимум двумя способами. Возможно, проще подгонять ваши распределения, используя часть вашей выборки, и проверять, существенно ли отличаются распределения остатков, используя критерий Хи-квадрат или Колгоморова-Смирнова для остальных данных. Таким образом, вы не будете использовать те же данные для подгонки и тестирования вашей модели, которые AndrewM упомянул в комментариях.
Вы также можете выполнить тест отношения правдоподобия с поправкой на нулевое распределение. Вариант этого описан в Lo Y. et al. (2013) «Тестирование количества компонентов в нормальной смеси». Биометрика, но у меня нет доступа к статье, поэтому я не могу предоставить вам более подробную информацию о том, как именно это сделать.
В любом случае, если тест незначительный, сохраняйте распределение с меньшим числом параметров, если он значимый, выберите тест с большим числом параметров.
источник