Я хотел бы использовать данные подсчета в качестве ковариат при подборе модели логистической регрессии. Мой вопрос:
- Нарушаю ли я какое-либо предположение о логистической (и, в целом, об обобщенной линейной) модели, используя в качестве независимых переменных неотрицательные целочисленные переменные?
Я нашел много ссылок в литературе относительно использования данных подсчета в качестве результата, но не в качестве ковариат; см., например, очень четкую статью: «Н. Е. Бреслоу (1996 г.) Обобщенные линейные модели: проверка предположений и усиление выводов, Конгрессно-национальное общество Италии, Кортона, июнь 1995 г.», доступное по адресу http://biostat.georgiahealth.edu/~dryu. /course/stat9110spring12/land16_ref.pdf .
Грубо говоря, предположения glm могут быть выражены следующим образом:
- остатки iid;
- функция связи должна правильно представлять отношения между зависимыми и независимыми переменными;
- отсутствие выбросов
Всем ли известно, существует ли какая-либо другая допущение / техническая проблема, которая может предложить использование какого-либо другого типа моделей для работы с ковариатами числа?
Наконец, обратите внимание, что мои данные содержат относительно небольшое количество выборок (<100), и что диапазоны счетных переменных могут варьироваться в пределах 3-4 порядка (т.е. некоторые переменные имеют значение в диапазоне 0-10, в то время как другие переменные могут иметь значения в 0-10000).
Ниже приведен простой пример кода R:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################
источник
Ответы:
Здесь есть некоторые нюансы, и они могут создавать некоторую путаницу.
Вы утверждаете, что вы понимаете, что предположения логистической регрессии включают « остатки iid ...». Я бы сказал, что это не совсем правильно. Обычно мы говорим об общей линейной модели (т. Е. О регрессии), но в этом случае это означает, что невязки не зависят друг от друга, причем одинаковое распределение (обычно нормальное) имеет одинаковое среднее значение (0) и дисперсию ( т. е. постоянная дисперсия: однородность дисперсии / гомоскедастичности). Отметим, однако, что для распределения Бернулли и биномиального распределения, дисперсия является функцией среднего значения. Таким образом, дисперсия не может быть постоянной, если ковариата совершенно не связана с ответом. Это было бы настолько ограничительным допущением, чтобы сделать логистическую регрессию бесполезной. Я отмечаю, что в аннотации pdf, которую вы цитируете, в нем перечислены допущения, начинающиеся со «статистической независимости наблюдений», которую мы могли бы назвать
i-but-not-id
(не имея в виду, что это слишком мило).Далее, как отмечает @kjetilbhalvorsen в приведенном выше комментарии , ковариатные значения (т. Е. Ваши независимые переменные) предполагаются зафиксированными в Обобщенной линейной модели. То есть никаких конкретных распределительных допущений не делается. Таким образом, не имеет значения, являются ли они подсчетами или нет, а также находятся ли они в диапазоне от 0 до 10, от 1 до 10000 или от -3,1415927 до -2,718281828.
Однако, как отмечает @whuber , нужно учитывать одну вещь: если у вас есть небольшое количество данных, которые очень экстремальны в одном из ковариатных измерений, эти точки могут оказать большое влияние на результаты вашего анализа. То есть, вы можете получить определенный результат только из-за этих очков. Один из способов подумать об этом - провести своего рода анализ чувствительности , подгоняя вашу модель как с учетом этих данных, так и без них. Вы можете полагать, что безопаснее или уместнее отбросить эти наблюдения, использовать некоторую форму надежного статистического анализа или преобразовать эти ковариаты, чтобы минимизировать экстремальные рычаги, которые могут иметь эти точки. Я бы не охарактеризовал эти соображения как «допущения», но они, безусловно, являются важными соображениями при разработке подходящей модели.
источник
Одна вещь, которую я бы определенно проверил - это свойства распределения ваших независимых переменных. Очень часто с данными подсчета вы можете видеть некоторую умеренную или сильную перекос вправо. В этом случае вы, вероятно, захотите преобразовать свои данные, поскольку вы потеряете логарифмическое отношение. Но нет, использование логистической (или другой GLM) модели - это нормально.
источник