Регрессия за результат (отношение или доля) между 0 и 1

43

Я думаю о построении модели, предсказывающей отношение , где и и . Таким образом, соотношение будет между и .a/ba > 0 b > 0 0 1aba>0b>001

Я мог бы использовать линейную регрессию, хотя она, естественно, не ограничивается 0..1. У меня нет оснований полагать, что отношения являются линейными, но, конечно, они все равно часто используются в качестве простой первой модели.

Я мог бы использовать логистическую регрессию, хотя обычно она используется для прогнозирования вероятности исхода из двух состояний, а не для прогнозирования непрерывного значения из диапазона 0..1.

Больше ничего не зная, будете ли вы использовать линейную регрессию, логистическую регрессию или скрытый вариант c ?

dfrankow
источник
4
Рассматривали ли вы бета-регрессию?
Питер Флом - Восстановить Монику
Большое спасибо всем, кто ответил. Я должен буду учиться и выбирать. Похоже, что бета-версия - неплохое место для старта, особенно если я могу наблюдать хорошую посадку (возможно, на глаз).
dfrankow
Я видел это сделано с помощью GLM (функция Пуассона). Числитель a будет данными подсчета (результат), а знаменатель b будет переменной смещения. Затем вам понадобятся отдельные значения a и b для каждого субъекта / наблюдения. Я просто не уверен, что это самый правильный вариант. Я считаю бета-дистрибутив интересным вариантом, о котором я не слышал. Тем не менее, мне трудно понять, будучи не статистиком.
MegPophealth
Спасибо всем вам за глубокий и полезный анализ, в настоящее время я сталкиваюсь с почти такой же проблемой, но вместо того, чтобы прогнозировать непрерывный диапазон отношений между 0-1, я скорее хочу построить регрессионную модель для прогнозирования диапазона полезности пациентов между -1 и 1. Это довольно сложно, я не смог найти какую-либо функцию связи, подходящую для построения регрессионной модели с непрерывным зависимым диапазоном от -1 до 1. Поэтому парни просто хотят иметь представление о том, что можно сделать. Спасибо,
1
На данный момент есть тривиальный ответ: изменение масштаба ответа на приводит к любой ссылке для диапазона в диапазоне, после чего вы можете изменить масштаб для представления прогнозов, если вы того пожелаете. ( у + 1 ) / 2 [ 0 , 1 ]y(y+1)/2[0,1]
Ник Кокс

Ответы:

34

Вы должны выбрать «скрытую опцию c», где c - бета-регрессия. Это тип регрессионной модели, который подходит, когда переменная ответа распространяется как бета-версия . Вы можете думать об этом как об аналоге обобщенной линейной модели . Это именно то, что вы ищете. Существует пакет в Rназывается betareg , которая занимается этим. Я не знаю, используете ли вы R, но даже если вы не сможете прочитать «виньетки», они все равно дадут вам общую информацию о теме в дополнение к тому, как ее реализовать R(что вам не нужно в тот случай).


Изменить (гораздо позже): Позвольте мне сделать быстрое разъяснение. Я интерпретирую вопрос как отношение двух положительных реальных ценностей. Если это так, (и они распространяются как Gammas), то это бета-версия. Однако, если является подсчетом «успехов» из известного общего количества, «испытаний», то это будет пропорция подсчета , а не непрерывная пропорция, и вы должны использовать биномиальный GLM (например, логистический регрессия). О том, как сделать это в R, см., Например, Как сделать логистическую регрессию в R, когда результат является дробным (отношение двух отсчетов)?б а / бaba/b

Другая возможность заключается в использовании линейной регрессии, если отношения можно преобразовать так, чтобы она соответствовала предположениям стандартной линейной модели, хотя я не был бы оптимистичен по поводу того, что это действительно работает.

Gung - Восстановить Монику
источник
1
Не могли бы вы остановиться на том, почему бета-регрессия предпочтительнее в этом случае? Это рекомендация, которую я вижу здесь довольно часто, но на самом деле я не вижу, чтобы кто-либо углублялся в обоснование - это было бы неплохо иметь!
Мэтт Паркер
4
@MattParker, Beta - это распределение непрерывных пропорций - если это то, что у вас есть в качестве переменной отклика, то Beta - это подходящее распределение для использования. Это действительно так просто. Подходящее значение из логистической регрессии является вероятностью (которая, очевидно, непрерывна), но распределение является биномиальным (некоторое количество испытаний Бернулли с вероятностью успеха ), если ваша переменная ответа не является набором испытаний Бернулли, то LR не является соответствующий. p
gung - Восстановить Монику
3
Я бы с осторожностью сказал, что бета-версия является «подходящим» дистрибутивом для использования. Он довольно гибкий и может быть подходящим, но он не охватывает все случаи. Так что, хотя это хорошее предложение и вполне может быть тем, что они хотят, вы не можете сказать, что это подходящий дистрибутив исключительно на том основании, что это непрерывный ответ между 0 и 1.
Дейсон
1
Треугольное распределение на [0,1] представляет собой непрерывное распределение по пропорциям, которое не является бета. Там может быть много других. Бета - это гибкая семейка, но в этом нет ничего волшебного. Вы хорошо разбираетесь в логистической регрессии, потому что она обычно применяется к двоичным данным.
Майкл Р. Черник
2
Возможно, я должен попытаться казаться менее догматичным. Я имел в виду, что вы изучаете ваш DV и используете дистрибутив, который следует ниже. Правда, есть и другие распределения непрерывных пропорций. Технически, бета - это отношение гаммы к ее сумме + другая гамма. В данной ситуации может быть лучше другое распределение ; например, бета не может принимать значения 0 или 1, только (0, 1). Тем не менее, бета-версия хорошо понятна и очень гибкая, для нее достаточно всего 2 параметра. Я утверждаю, что при работе с DV с непрерывной пропорцией это, как правило, лучшее место для начала.
gung - Восстановить Монику
2

Это парные образцы или две независимые популяции?

XiXiMiXiMi

Ваше перехват этой регрессии будет log (B), а ваш наклон будет log (отношение).

Смотрите больше здесь:

Бейен Дж., Мойнеддин Р. Методы оценки доверительного интервала параметра отношения с применением к коэффициентам местоположения. BMC методология медицинских исследований. 2005; 5 (1): 32.

РЕДАКТИРОВАТЬ: я написал аддон SPSS, чтобы сделать именно это. Я могу поделиться этим, если вам интересно.

DocBuckets
источник
1
Из любопытства, какой метод вы использовали (delta, Fieller или GLM)? Это немного отдает мне отчет, что статья BMC не делала некоторые симуляции охвата различных оценок (хотя придумывать реалистичное моделирование было бы раздражающим). Мне напомнили, потому что я недавно натолкнулся на статью, в которой используется дельта-метод (без реального обоснования), хотя он цитирует статью BMC.
Энди W
1
Назад, когда я написал этот комментарий, я использовал REGRESSIONпосле преобразования данных журнала. С тех пор я написал более сложную версию, которая использует GLM. Я имею дело с измерениями светового излучения, и мое тестирование показало, что гамма-регрессия с логарифмической связью была наименее склонной к неуверенной неопределенности параметров. Для большинства моих реальных данных ответы от использования нормального, отрицательного биномиального и гамма-связи с log-link были действительно очень похожи (по крайней мере, на ту точность, которая мне была нужна)
DocBuckets
0

Xii=1,2,..,kkp1pp=exp(x)[1+exp(x)]x

Майкл Р. Черник
источник
p
2
-1. Я согласен с @amoeba. Я озадачен, почему за это проголосовали. Это не имеет отношения к вопросу, который вообще не предполагает двоичные данные 0 или 1, но сосредоточен на измеренных пропорциях, которые находятся между 0 и 1 включительно.
Ник Кокс