Это кажется таким элементарным, но я всегда застреваю на этом этапе ...
Большинство данных, с которыми я имею дело, являются ненормальными, и большинство анализов основано на структуре GLM. Для моего текущего анализа у меня есть переменная ответа, которая является "скоростью ходьбы" (метры в минуту). Мне легко определить, что я не могу использовать OLS, но тогда у меня есть большая неуверенность в решении, какая семья (Гамма, Вейбулл и т. Д.) Является подходящей!
Я использую Stata и смотрю на диагностику как остатки и гетероскедастичность, остатки против подгоночных значений и т. Д.
Я знаю, что данные подсчета могут принимать форму коэффициента (например, коэффициентов заболеваемости) и использовать гамму (аналог перерассеянных дискретных отрицательных биномиальных моделей), но просто хотел бы, чтобы «курящий пистолет» сказал ДА, ВЫ ИМЕЕТЕ ПРАВО СЕМЬЯ. Является ли рассмотрение стандартизированных остатков в сравнении с установленными значениями единственным и лучшим способом сделать это? Я хотел бы использовать смешанную модель для учета некоторой иерархии в данных, но сначала нужно разобраться, какое семейство лучше всего описывает мою переменную ответа.
Любая помощь приветствуется. Язык Stata особенно ценится!
Ответы:
У меня есть несколько советов:
(1) То, как остатки должны сравниваться с подгонками, не всегда так очевидно, поэтому полезно ознакомиться с диагностикой для конкретных моделей. Например, в моделях логистической регрессии статистика Хосмера-Лемешоу используется для оценки степени соответствия; значения кредитного плеча, как правило, невелики, если предполагаемые шансы очень велики, очень малы или примерно равны; & скоро.
(2) Иногда одно семейство моделей можно рассматривать как особый случай другого, поэтому вы можете использовать проверку гипотезы для параметра, чтобы помочь вам выбрать. Экспоненциальный против Вейбулла, например.
(3) Информационный критерий Акаике полезен при выборе между различными моделями, который включает выбор между различными семействами.
(4) Теоретические / эмпирические знания о том, что вы моделируете, сужают область правдоподобных моделей.
Но нет автоматического способа найти «правильную» семью; реальные данные могут поступать из дистрибутивов настолько сложных, насколько вам нравится, а сложность моделей, которые стоит попытаться подогнать, возрастает с увеличением количества имеющихся у вас данных. Это неотъемлемая часть изречения Box о том, что ни одна из моделей не соответствует действительности, но некоторые из них полезны.
Комментарий Re @ gung: кажется, что обычно используемый тест Хосмера-Лемешоу (а) удивительно чувствителен к выбору бинов, и (б), как правило, менее эффективен, чем некоторые другие тесты против некоторых соответствующих классов альтернативных гипотез. Это не умаляет точку (1): это также хорошо, чтобы быть в курсе.
источник
Вы можете найти его интересно читать виньетку (вводное руководство) для пакета R
fitdistrplus
. Я признаю, что вы предпочитаете работать в Stata, но я думаю, что эта виньетка будет достаточно очевидна, чтобы вы могли получить представление о процессе выведения распределительных семейств из данных. Вероятно, вы сможете реализовать некоторые идеи в Stata через собственный код. В частности, я думаю, что граф Каллена и Фрея, если он / может быть реализован в Stata, может быть полезен для вас.источник