Вопросы с тегом «linear-model»

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

12
Можно ли оценить GLM в Python / scikit-learn, используя распределения Пуассона, Гаммы или Твиди как семейство для распределения ошибок?

Пытаюсь выучить немного Python и Sklearn, но для своей работы мне нужно запустить регрессии, которые используют распределения ошибок из семейств Пуассона, Гаммы и особенно семейства Твиди. Я ничего не вижу в документации о них, но они есть в нескольких частях дистрибутива R, поэтому мне было...

12
Использование lm для 2-пробы

Некоторое время я использовал линейные модели для проведения тестов пропорции 2 образцов, но понял, что это может быть не совсем правильно. Похоже, что использование обобщенной линейной модели с биномиальной связью семейство + тождественность дает в точности результаты пула для 2-выборочной...

12
Логистическая регрессия со сплайнами регрессии в R

Я разрабатывал модель логистической регрессии на основе ретроспективных данных из национальной базы данных о травмах головы в Великобритании. Ключевым результатом является 30-дневная смертность (обозначается как «выживаемая» мера). Другие меры с опубликованным доказательством существенного влияния...

12
Сверхдисперсность и моделирование в пуассоновских моделях случайных эффектов со смещениями

Я столкнулся с рядом практических вопросов при моделировании данных подсчета из экспериментальных исследований с использованием эксперимента внутри объекта. Я кратко опишу эксперимент, данные и то, что я уже сделал, а затем мои вопросы. Четыре различных фильма были показаны выборке респондентов в...

12
Ридж наказал GLM, используя увеличение строки?

Я читал, что регрессия гребня может быть достигнута простым добавлением строк данных в исходную матрицу данных, где каждая строка создается с использованием 0 для зависимых переменных и квадратного корня из Кkk или нуля для независимых переменных. Затем добавляется одна дополнительная строка для...

11
Должен ли я использовать смещение для моего Poisson GLM?

Я провожу исследование, чтобы посмотреть на различия в плотности и богатстве видов рыб при использовании двух разных методов подводной визуальной переписи. Мои данные изначально были данными подсчета, но затем они обычно меняются на плотность рыбы, но я все же решил использовать Poisson GLM, что, я...

11
Какие остатки и расстояние Кука используются для GLM?

Кто-нибудь знает, какова формула расстояния Кука? В оригинальной формуле расстояния Кука используются нечеткие невязки, но почему R использует стандартное отклонение. Остатки Пирсона при расчете расстояния Кука для GLM. Я знаю, что для GLM не определены стедентифицированные невязки, но как выглядит...

11
Приспособление Пуассона GLM в R - проблемы с показателями по сравнению с количеством

В настоящее время я работаю над проектом, включающим в себя GLM (и, в конечном итоге, GAM), некоторые данные подсчета времени. Обычно я делаю это в SAS, но я пытаюсь перейти на R, и у меня возникают ... проблемы. Когда я подхожу к GLM для подсчета данных, используя следующее: cdi_model <-...

11
OLS vs. Poisson GLM с идентификационной связью

Мой вопрос показывает мое плохое понимание регрессии Пуассона и GLM в целом. Вот некоторые поддельные данные, чтобы проиллюстрировать мой вопрос: ### some fake data x=c(1:14) y=c(0, 1, 2, 3, 1, 4, 9, 18, 23, 31, 20, 25, 37, 45) Некоторые пользовательские функции для возврата psuedo-R2: ###...

11
Анализ обогащения по уровню дупликации генов

Биологический Фон Со временем некоторые виды растений имеют тенденцию дублировать свои полные геномы, получая дополнительную копию каждого гена. Из-за нестабильности этой установки многие из этих генов затем удаляются, и геном перестраивается и стабилизируется, готовый к повторному дублированию....

11
Как бороться с «нецелым» предупреждением от отрицательного биномиального GLM?

Я пытаюсь смоделировать среднюю интенсивность паразитов, воздействующих на хозяина в R, используя отрицательную биномиальную модель. Я продолжаю получать 50 или более предупреждений, которые говорят: In dpois(y, mu, log = TRUE) : non-integer x = 251.529000 Как я могу справиться с этим? Мой код...

11
Байесовская модель логита - интуитивное объяснение?

Я должен признаться, что раньше я не слышал об этом термине ни в одном из моих классов, старшекурсников или выпускников. Что значит для логистической регрессии быть байесовским? Я ищу объяснение с переходом от обычной логистики к байесовской логистике, подобное следующему: Это уравнение в модели...

11
Функция стоимости для проверки моделей регрессии Пуассона

Для собранных данных я использую регрессию Пуассона для построения моделей. Я делаю это с помощью glmфункции в R, где я использую family = "poisson". Для оценки возможных моделей (у меня есть несколько предикторов) я использую AIC. Все идет нормально. Теперь я хочу выполнить перекрестную проверку....

11
Сколько дистрибутивов в GLM?

Я определил несколько мест в учебниках, где GLM описан с 5 распределениями (а именно: гамма, гауссовский, биномиальный, обратный гауссовский и пуассоновский). Это также иллюстрируется в функции семьи в R. Иногда я сталкиваюсь с ссылками на GLM, где включены дополнительные дистрибутивы ( пример )....

11
GLM с непрерывными данными, накопленными в нуле

Я пытаюсь использовать модель для оценки того, насколько катастрофические заболевания, такие как туберкулез, СПИД и т. Д., Влияют на расходы на госпитализацию. У меня есть «стоимость госпитализации» в качестве зависимой переменной и различные индивидуальные маркеры в качестве независимых...

11
Как обсудить диаграмму рассеяния с несколькими появляющимися линиями?

Мы измерили две переменные, и диаграмма рассеяния, кажется, предлагает несколько «линейных» моделей. Есть ли способ попытаться отогнать эти модели? Выявление других независимых переменных оказалось трудным. Обе переменные сильно смещены влево (в сторону небольших чисел), это ожидаемое распределение...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...