Как выбрать наилучшее соответствие без чрезмерных данных? Моделирование бимодального распределения с N нормальными функциями и т. Д.

11

У меня есть явно бимодальное распределение значений, которое я стараюсь соответствовать. Данные могут хорошо соответствовать либо 2 нормальным функциям (бимодальным), либо 3 нормальным функциям. Кроме того, существует вероятная физическая причина для сопоставления данных с 3.

Чем больше параметров введено, тем более идеальным будет соответствие, поскольку при достаточном количестве констант можно « подогнать слона ».

Вот распределение, соответствующее сумме 3 нормальных (гауссовых) кривых:

Распределение с

Это данные для каждой посадки. Я не уверен, какой тест я должен применить здесь, чтобы определить соответствие. Данные состоят из 91 балла.

1 нормальная функция:

  • RSS: 1.06231
  • X ^ 2: 3.1674
  • F.Test: 0,3092

2 нормальные функции:

  • RSS: 0.010939
  • X ^ 2: 0,053896
  • F.Test: 0,97101

3 нормальные функции:

  • RSS: 0.00536
  • X ^ 2: 0,02794
  • F.Test: 0,99249

Какой правильный статистический тест можно применить, чтобы определить, какой из этих трех подходов является лучшим? Очевидно, что 1 нормальное соответствие функции неадекватно. Так как же я могу различить 2 и 3?

Чтобы добавить, я в основном делаю это с Excel и небольшим Python; Я еще не знаком с R или другими статистическими языками.

MurphysLab
источник
Было предложено использовать уменьшенный хи-квадрат X ^ 2 / (Nn-1), где N - количество точек данных, а n - количество подгоненных параметров. Однако небольшое количество (+/- 3) по отношению к количеству точек данных (91) не кажется интуитивно слишком сложным для добавления еще одного гауссиана.
MurphysLab
Вы можете проверить этот ответ (в случае, если вы решите пойти по Rмаршруту). Некоторые критерии выбора модели упоминаются в этом ответе . Наконец, вы можете рассмотреть методы ансамбля , которые я кратко рассмотрел в этом ответе , который также содержит ссылку на информацию, ориентированную на Python. Вы можете найти более подробную информацию о выборе модели и усреднение в этом ответе .
Александр Блех

Ответы:

5

Вот два способа решения проблемы выбора дистрибутива:

  1. Для сравнения моделей используйте меру, которая штрафует модель в зависимости от количества параметров. Информационные критерии делают это. Используйте информационный критерий, чтобы выбрать, какую модель сохранить, выберите модель с самым низким информационным критерием (например, AIC). Основное правило для сравнения значимости разницы в AIC - если разность в AIC больше 2 (это не формальный тест на гипотезу, см. Проверка разницы в AIC двух не вложенных моделей ).

    AIC = , где - число оцениваемых параметров, а - максимальное правдоподобие, и - функция правдоподобия, а - вероятность наблюдаемых данных зависящая от параметра распределения .2k2ln(L)kLL=maxθL(θ|x)L(θ|x)=Pr(x|θ)Pr(x|θ)xθ

  2. Если вам нужен тест на формальную гипотезу, вы можете действовать как минимум двумя способами. Возможно, проще подгонять ваши распределения, используя часть вашей выборки, и проверять, существенно ли отличаются распределения остатков, используя критерий Хи-квадрат или Колгоморова-Смирнова для остальных данных. Таким образом, вы не будете использовать те же данные для подгонки и тестирования вашей модели, которые AndrewM упомянул в комментариях.

    Вы также можете выполнить тест отношения правдоподобия с поправкой на нулевое распределение. Вариант этого описан в Lo Y. et al. (2013) «Тестирование количества компонентов в нормальной смеси». Биометрика, но у меня нет доступа к статье, поэтому я не могу предоставить вам более подробную информацию о том, как именно это сделать.

    В любом случае, если тест незначительный, сохраняйте распределение с меньшим числом параметров, если он значимый, выберите тест с большим числом параметров.

Крис Новак
источник
@Momo спасибо, изменил это и добавил уравнение для AIC
Крис Новак
Я не уверен на 100%, но стандартная AIC может не работать должным образом в моделях смесей, так как разные конфигурации смесей могут давать одну и ту же модель.
Кагдас Озгенц
Я имел в виду, что вы можете поменять местами 2 гауссиана (установив среднее значение / дисперсию 1-го на 2-й и 2-го на 1-й, а также для смешанных весов) и все еще получить ту же модель. Насколько я знаю, AIC не работает должным образом в таких ситуациях.
Кагдас Озгенц
1
@CagdasOzgenc Я понимаю вашу точку зрения, но кажется, что стандартные AIC и BIC были показаны достаточными для выбора модели в гауссовых моделях смесей, см., Например, документ projecteuclid.org/download/pdf_1/euclid.aos/1176348772
Крис Новак
1
@ChrisNovak да, тест отношения правдоподобия (с поправками на нулевое распределение выборки из типичного с DOF, равным разнице в измерении пространства параметров) является хорошей идеей. Я не знаю, насколько сложны корректировки, но смеси типичны в этих случаях. Корректировки необходимы, потому что вы тестируете точку на границе пространства параметров. χ2χ2
Андрей М