Нарушает ли использование данных подсчета в качестве независимой переменной какое-либо из предположений GLM?

14

Я хотел бы использовать данные подсчета в качестве ковариат при подборе модели логистической регрессии. Мой вопрос:

  • Нарушаю ли я какое-либо предположение о логистической (и, в целом, об обобщенной линейной) модели, используя в качестве независимых переменных неотрицательные целочисленные переменные?

Я нашел много ссылок в литературе относительно использования данных подсчета в качестве результата, но не в качестве ковариат; см., например, очень четкую статью: «Н. Е. Бреслоу (1996 г.) Обобщенные линейные модели: проверка предположений и усиление выводов, Конгрессно-национальное общество Италии, Кортона, июнь 1995 г.», доступное по адресу http://biostat.georgiahealth.edu/~dryu. /course/stat9110spring12/land16_ref.pdf .

Грубо говоря, предположения glm могут быть выражены следующим образом:

  • остатки iid;
  • функция связи должна правильно представлять отношения между зависимыми и независимыми переменными;
  • отсутствие выбросов

Всем ли известно, существует ли какая-либо другая допущение / техническая проблема, которая может предложить использование какого-либо другого типа моделей для работы с ковариатами числа?

Наконец, обратите внимание, что мои данные содержат относительно небольшое количество выборок (<100), и что диапазоны счетных переменных могут варьироваться в пределах 3-4 порядка (т.е. некоторые переменные имеют значение в диапазоне 0-10, в то время как другие переменные могут иметь значения в 0-10000).

Ниже приведен простой пример кода R:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################
Винченцо Лагани
источник
Добро пожаловать на сайт! Одно замечание: если вы хотите подписать свои сообщения, используйте свой профиль (особенно поле обо мне).
11
обычно в моделях GLM предикторные («независимые») переменные просто должны быть известными константами, в них нет никаких предположений о распределении! Так что нет ничего плохого в использовании данных подсчета в качестве предикторов.
kjetil b halvorsen
1
kjetil Это правильно - и хороший ответ на вопрос. Тем не менее, с учетом экстремальных диапазонов IV, описанных здесь, было бы целесообразно оценить влияние данных, проверить правильность подгонки и, в частности, оценить потенциал нелинейных отношений. Это будет сделано в надежде, что отношения на самом деле являются нелинейными и что повторное выражение IV, такое как корень или лог, будет линеаризовать его, тем самым одновременно устраняя некоторые проблемы влияния. Это, вероятно, то, что @ user14583 пытается указать в своем ответе.
whuber
@kjetilbhalvorsen - Я согласен на «нет предположений о распределении», но я не думаю, что вы хотели сказать «известные» или «константы», поскольку ни одно из этих слов не подходит.
rolando2
4
Они являются «константами» в том смысле, что они не случайны: нет распределения. Они «известны» в том смысле, что предполагается, что они измерены без ошибок, поэтому измеренное значение - это то, которое фактически работало в механизме генерации данных. Модель GLM предполагает, что вся случайность находится в механизме реагирования, что часто сомнительно!
kjetil b halvorsen

Ответы:

5

Здесь есть некоторые нюансы, и они могут создавать некоторую путаницу.

Вы утверждаете, что вы понимаете, что предположения логистической регрессии включают « остатки iid ...». Я бы сказал, что это не совсем правильно. Обычно мы говорим об общей линейной модели (т. Е. О регрессии), но в этом случае это означает, что невязки не зависят друг от друга, причем одинаковое распределение (обычно нормальное) имеет одинаковое среднее значение (0) и дисперсию ( т. е. постоянная дисперсия: однородность дисперсии / гомоскедастичности). Отметим, однако, что для распределения Бернулли и биномиального распределения, дисперсия является функцией среднего значения. Таким образом, дисперсия не может быть постоянной, если ковариата совершенно не связана с ответом. Это было бы настолько ограничительным допущением, чтобы сделать логистическую регрессию бесполезной. Я отмечаю, что в аннотации pdf, которую вы цитируете, в нем перечислены допущения, начинающиеся со «статистической независимости наблюдений», которую мы могли бы назвать i-but-not-id(не имея в виду, что это слишком мило).

Далее, как отмечает @kjetilbhalvorsen в приведенном выше комментарии , ковариатные значения (т. Е. Ваши независимые переменные) предполагаются зафиксированными в Обобщенной линейной модели. То есть никаких конкретных распределительных допущений не делается. Таким образом, не имеет значения, являются ли они подсчетами или нет, а также находятся ли они в диапазоне от 0 до 10, от 1 до 10000 или от -3,1415927 до -2,718281828.

Однако, как отмечает @whuber , нужно учитывать одну вещь: если у вас есть небольшое количество данных, которые очень экстремальны в одном из ковариатных измерений, эти точки могут оказать большое влияние на результаты вашего анализа. То есть, вы можете получить определенный результат только из-за этих очков. Один из способов подумать об этом - провести своего рода анализ чувствительности , подгоняя вашу модель как с учетом этих данных, так и без них. Вы можете полагать, что безопаснее или уместнее отбросить эти наблюдения, использовать некоторую форму надежного статистического анализа или преобразовать эти ковариаты, чтобы минимизировать экстремальные рычаги, которые могут иметь эти точки. Я бы не охарактеризовал эти соображения как «допущения», но они, безусловно, являются важными соображениями при разработке подходящей модели.

Gung - Восстановить Монику
источник
1

Одна вещь, которую я бы определенно проверил - это свойства распределения ваших независимых переменных. Очень часто с данными подсчета вы можете видеть некоторую умеренную или сильную перекос вправо. В этом случае вы, вероятно, захотите преобразовать свои данные, поскольку вы потеряете логарифмическое отношение. Но нет, использование логистической (или другой GLM) модели - это нормально.

user14583
источник
3
Как правый перекос теряет «логарифмическое отношение»?
Glen_b
3
Этот комментарий мне кажется неверным. Как и @Glen_b, я не вижу, как это неизбежно потеряло бы логарифмическое отношение. В любом случае, было бы лучше изучить отношения напрямую (например, путем построения графика).
Питер Флом - Восстановить Монику
2
Нелинейное преобразование IV определенно изменит лог-линейное отношение на что-то еще, @Peter. Этот ответ кажется мне в основном правильным.
whuber
1
@whuber Я согласен, что нелинейное преобразование одной переменной изменит отношения между ней и другой переменной. Это кажется довольно ясным. Но из какого рода отношения к какому? Почему бы не изучить отношения напрямую, а не предполагать, как они будут изменены? Кроме того, ответ, кажется, говорит, что человек хочет потерять логарифмические линейные отношения.
Питер Флом - Восстановить Монику
2
Это хороший момент @ Питер. Тем не менее , некоторые люди действительно хотят изменить отношения; это не обязательно ошибочное мнение. Я согласен, что прямая экспертиза является правильной процедурой: она предложит, как повторно выразить IV (ы), вовлеченные (ы), чтобы создать линейные отношения.
whuber