В этой статье (свободно доступной через PubMed central) авторы используют отрицательную биномиальную регрессию для моделирования оценки на 10-элементном инструменте скрининга, набравшем 0-40. Эта процедура предполагает подсчет данных, что здесь явно не так. Мне бы хотелось узнать ваше мнение о том, является ли этот подход приемлемым, потому что я иногда использую один и тот же инструмент или похожие в своей работе. Если нет, я хотел бы знать, есть ли приемлемые альтернативы. Более подробная информация ниже:
Используемая шкала представляет собой тест на выявление расстройств, связанных с употреблением алкоголя (AUDIT), опросник из 10 пунктов, разработанный как инструмент для выявления расстройств, связанных с употреблением алкоголя и употреблением опасных / вредных напитков. Оценка инструмента от 0 до 40, и результаты обычно сильно искажены влево.
Насколько я понимаю, использование данных подсчета предполагает, что все «подсчитанные» значения не зависят друг от друга - пациенты, приходящие в отделение неотложной помощи каждый день, число погибших в определенной группе и т. Д. - все они независимы друг от друга, хотя зависит от основных переменных. Кроме того, я думаю, что при использовании данных подсчета не может быть максимально допустимого количества, хотя я думаю, что это предположение может быть ослаблено, когда теоретический максимум очень высок по сравнению с наблюдаемым максимумом в данных?
При использовании шкалы AUDIT у нас нет точного счета. У нас есть 10 предметов с максимальным общим счетом 40, хотя эти высокие баллы редко можно увидеть на практике. Баллы по предметам естественно соотносятся друг с другом.
Предположения, необходимые для использования данных подсчета, таким образом нарушаются. Но это все еще приемлемый подход? Насколько серьезны нарушения допущений? Существуют ли определенные обстоятельства, при которых этот подход можно считать более приемлемым? Существуют ли какие-либо альтернативы этому подходу, которые не включают уменьшение масштабной переменной до категорий?
Отрицательное биномиальное распределение является предпочтительным для «заразных» дискретных событий. Распределение Пуассона используется , когда дискретные события независимы. Эти распределения также довольно легко усечь, заменив точку точку , в основном.х ≥ 40х = 40 х ≥ 40
Как общий комментарий, разные разновидности регрессии имеют разные априоры для параметров (т.е. регуляризация) и разные модели шума. Стандартная регрессия наименьших квадратов имеет модель гауссовского шума, отрицательная биномиальная регрессия имеет модель отрицательного биномиального шума и так далее. Истинный тест того, подходит ли регрессионная модель, состоит в том, имеет ли остаточный шум ожидаемое распределение.
Таким образом, вы можете применить отрицательную биномиальную регрессию к вашим данным, вычислить невязки, а затем нанести их на график отрицательной биномиальной вероятности и получить представление о том, подходит ли модель. Если шум структурирован каким-либо другим способом, то нам нужно искать модель шума, которая бы более точно соответствовала этой структуре.
Полезно перейти от генеративной модели к структуре шума - если мы знаем, что данные являются мультипликативными, а не аддитивными, например, мы получаем логнормальную, а не нормальную - но если ожидаемая генеративная модель и структура шума не совпадают, идти с данными, а не ожидания.
источник