Переменная масштаба как данные подсчета - правильно или нет?

В этой статье (свободно доступной через PubMed central) авторы используют отрицательную биномиальную регрессию для моделирования оценки на 10-элементном инструменте скрининга, набравшем 0-40. Эта процедура предполагает подсчет данных, что здесь явно не так. Мне бы хотелось узнать ваше мнение о том, является ли этот подход приемлемым, потому что я иногда использую один и тот же инструмент или похожие в своей работе. Если нет, я хотел бы знать, есть ли приемлемые альтернативы. Более подробная информация ниже:

Используемая шкала представляет собой тест на выявление расстройств, связанных с употреблением алкоголя (AUDIT), опросник из 10 пунктов, разработанный как инструмент для выявления расстройств, связанных с употреблением алкоголя и употреблением опасных / вредных напитков. Оценка инструмента от 0 до 40, и результаты обычно сильно искажены влево.

Насколько я понимаю, использование данных подсчета предполагает, что все «подсчитанные» значения не зависят друг от друга - пациенты, приходящие в отделение неотложной помощи каждый день, число погибших в определенной группе и т. Д. - все они независимы друг от друга, хотя зависит от основных переменных. Кроме того, я думаю, что при использовании данных подсчета не может быть максимально допустимого количества, хотя я думаю, что это предположение может быть ослаблено, когда теоретический максимум очень высок по сравнению с наблюдаемым максимумом в данных?

При использовании шкалы AUDIT у нас нет точного счета. У нас есть 10 предметов с максимальным общим счетом 40, хотя эти высокие баллы редко можно увидеть на практике. Баллы по предметам естественно соотносятся друг с другом.

Предположения, необходимые для использования данных подсчета, таким образом нарушаются. Но это все еще приемлемый подход? Насколько серьезны нарушения допущений? Существуют ли определенные обстоятельства, при которых этот подход можно считать более приемлемым? Существуют ли какие-либо альтернативы этому подходу, которые не включают уменьшение масштабной переменной до категорий?

regression negative-binomial count-data JonB
источник

Ответы:

Инструмент AUDIT по сути является шкалой Лайкерта. Набор вопросов (элементы Лайкерта) с ответами, часто по пятибалльной шкале, предназначен для понимания какого-либо основного явления. Сумма ответов на набор вопросов, шкала Лайкерта, затем используется в качестве меры основного явления. Хотя Лайкерта элементы часто находятся на шкале «категорически не согласен» до «полностью согласен,» приложение для измерения склонности к « lcohol U се D isorders» в этом « я dentification T ЭСТ» проста.

Как отмечалось на странице Википедии по шкале Лайкерта , «могут ли отдельные элементы Лайкерта рассматриваться как данные на интервальном уровне или их следует рассматривать как упорядоченные категориальные данные, что является предметом значительных разногласий в литературе, с твердым убеждением в том, что наиболее применимые методы. " Этот спор, вероятно, начался в течение более 80 лет с тех пор, как Лайкерт впервые предложил шкалу: эквивалентен ли каждый шаг шкалы как внутри, так и среди элементов, составляющих шкалу? Эта проблема была рассмотрена на Cross Validated, так как в ответах на этот вопрос , один из самых ранних вопросов, задаваемых на этом сайте.

Если вы согласитесь с тем, что в шкале есть шаги, которые являются однородными (или достаточно близкими к однородным для рассматриваемого приложения, возможно, усредненными путем добавления 10 различных элементов, как в AUDIT), тогда возможны несколько подходов к анализу. Один из них заключается в том, чтобы рассматривать реакцию на шкале как последовательность шагов, выбранных или не выбранных для продвижения вверх по шкале с одинаковой вероятностью продвижения вверх по каждому из шагов.

Это позволяет думать о « n-точечных данных по шкале Лайкерта как о n испытаниях из биномиального процесса », как в вопросе от @MikeLawrence за 2010 год. Хотя ответы на этот вопрос не очень поддержали эту идею, было нетрудно быстро найти сегодня исследование 2014 года, которое успешно использовало и расширило этот подход для различения групп населения с различными биномиальными вероятностями. Хотя биномиальный процесс часто используется для моделирования данных подсчета, он, таким образом, может использоваться для моделирования количества, количества шагов, которые человек совершил по шкале «расстройств, связанных с употреблением алкоголя».

Как @Scortchi отметил в ответе на вопрос, связанный со вторым параграфом, ограничение биномиальной модели состоит в том, что она налагает определенную связь между средним значением и дисперсией ответа. В отрицательном биномиальных снимает это ограничение, с потерей легкой интерпретации , представленной простой биномиальной моделью. В анализе дополнительный параметр, который должен соответствовать, использует только одну дополнительную степень свободы. Напротив, попытка указать разные вероятности для каждого из 40 шагов элемента Лайкерта и их сумму в шкале Лайкерта была бы пугающей.

Как @MatthewGraves отметил в своем ответе на этот вопрос, лучше ли ответить на отрицательную биномиальную модель, изучив остатки. В первоначальном исследовании, которое разработало AUDIT, значение 8 или более по 40-балльной шкале имело вполне разумную специфичность и чувствительность для различения тех, кому был поставлен диагноз «опасное или вредное употребление алкоголя» в 6 разных странах. Так что, возможно, лучше было бы использовать биномиальную модель с двумя популяциями, основанную на группах высокого и низкого риска, аналогично исследованию 2014 года, связанному выше.

Те, кто заинтересован в AUDIT, должны изучить это оригинальное исследование. Например, хотя потребность в утреннем напитке может показаться чем-то совершенно отличным от частоты употребления алкоголя, как предположил @SeanEaster, утреннее питье имеет средневзвешенную корреляцию 0,73 со шкалой мер потребления алкоголя. (Этот результат не удивителен для тех, кто имел друзей с расстройствами, связанными с употреблением алкоголя.) AUDIT, кажется, является хорошим примером компромисса, необходимого для разработки инструмента, который можно надежно использовать в разных культурах.

магистр педагогических наук
источник

Спасибо за хороший ответ. При просмотре моих собственных данных AUDIT по более чем 20000 индивидуумам форма выглядит близко к отрицательному биномиальному распределению, поэтому может быть разумным использовать это предположение о распределении, или, возможно, можно было бы использовать квазипуассоновскую модель? Если мы используем биномиальное распределение, рассматривая точки как k успехов из 40 испытаний Бернулли, разве у нас не будет серьезных проблем с избыточной дисперсией? Это выглядит так в моих данных. Может ли квазибиномиал быть альтернативой?

JonB

Многое зависит от того, почему вы моделируете оценки 0-40 AUDIT и какую эвристическую интерпретацию вы хотите использовать в результатах. Если все, что вам нужно, - это отношение оценок AUDIT к другим переменным, с только ограниченной интерпретацией самих значений параметров распределения, тогда используйте распределение, которое обеспечивает остатки с хорошим поведением; Ваши предложения разумны. Подбор одного бинома к данным проблематичен, но комбинация из 2 биномов (группы высокого и низкого риска) с разными p может быть информативной. Используйте свое суждение, основанное на вашем знании предмета.

EdM

Отрицательное биномиальное распределение является предпочтительным для «заразных» дискретных событий. Распределение Пуассона используется , когда дискретные события независимы. Эти распределения также довольно легко усечь, заменив точку точку , в основном. $x=40$ $x\ge 40$

Как общий комментарий, разные разновидности регрессии имеют разные априоры для параметров (т.е. регуляризация) и разные модели шума. Стандартная регрессия наименьших квадратов имеет модель гауссовского шума, отрицательная биномиальная регрессия имеет модель отрицательного биномиального шума и так далее. Истинный тест того, подходит ли регрессионная модель, состоит в том, имеет ли остаточный шум ожидаемое распределение.

Таким образом, вы можете применить отрицательную биномиальную регрессию к вашим данным, вычислить невязки, а затем нанести их на график отрицательной биномиальной вероятности и получить представление о том, подходит ли модель. Если шум структурирован каким-либо другим способом, то нам нужно искать модель шума, которая бы более точно соответствовала этой структуре.

Полезно перейти от генеративной модели к структуре шума - если мы знаем, что данные являются мультипликативными, а не аддитивными, например, мы получаем логнормальную, а не нормальную - но если ожидаемая генеративная модель и структура шума не совпадают, идти с данными, а не ожидания.

Мэтью Грейвс
источник

Интересно, я не знал, что события могут быть «заразными». Что вы имеете в виду, заменяя x = 40 на x> = 40, на практике? Как сделать график отрицательной биномиальной вероятности в R? Я полагаю, вы не имеете в виду остатки на графике от подгонки значений? Вы имеете в виду как сюжет QQ?

JonB

@JonB Предположим, у вас есть отрицательный бином с r = 1 и вероятностью успеха p = .9. Вероятность выживания в 40 испытаниях точно равна 0,148%; вероятность выживания 40 или более испытаний составляет 1,48%. Таким образом, можно определить правильно сформированную вероятность в области [0,40], используя отрицательный бином для [0,39], а затем установив [40] так, чтобы оно суммировалось с единицей, что, поскольку отрицательное биномиальное распределение хорошо формируется вероятность того, что это 40 или больше.

Мэтью Грейвс

@JonB Точно, я имею в виду сюжет QQ. Я не делал этого раньше в R, но я надеюсь, что эта ссылка поможет.

Мэтью Грейвс

Я провел эксперимент на некоторых данных с оценками AUDIT. При создании графика qq мне нужно создать случайный вектор результатов из отрицательного биномиального распределения. Му / тета дается моей регрессионной моделью, но как я могу узнать, какой «размер» использовать? Я извиняюсь, если это специфический для R. вопрос. В любом случае, у вас есть хорошая справка I, которую я могу прочитать больше о применении отрицательных биномиальных (и других распределений) к этим типам шкал, построенных суммированием нескольких элементов, которые измеряют вид того же процесса?

JonB

Я сделал несколько дополнительных экспериментов сейчас. Я смоделировал набор данных с двумя переменными: x и y. 50% - это х = 0, 50% - это х = 1. Те, кто x = 0, имеют вероятность 0,2 для y = 1, а те, кто x = 1, имеют вероятность 0,4 для y = 1. Затем я провел логистическую регрессию и посмотрел на остатки. Не выглядят биномиально распределенными вообще. На самом деле они (конечно) принимают 4 конкретных значения. Вы уверены, что остаточный шаблон всегда должен соответствовать предположению распределения? Потому что в данном случае это явно неправильно.

JonB