Вопросы с тегом «r»

14
Взвешивание более свежих данных в модели Random Forest

Я обучаю классификационную модель случайному лесу, чтобы различать 6 категорий. Мои транзакционные данные имеют около 60 тыс. Наблюдений и 35 переменных. Вот пример того, как это выглядит примерно. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay |...

14
Проверка отношения правдоподобия - lmer R - Не вложенные модели

В настоящее время я рассматриваю некоторые работы и наткнулся на следующее, что мне кажется неправильным. Две смешанные модели установлены (в R), используя lmer. Модели не являются вложенными и сравниваются с помощью тестов отношения правдоподобия. Короче, вот воспроизводимый пример того, что у...

14
Можно ли восстановить нормальное распределение по размеру выборки, а также по минимальным и максимальным значениям? Я могу использовать среднюю точку для прокси среднего

Я знаю, что это может быть немного странно, статистически, но это моя проблема. У меня много данных о диапазоне, то есть минимальный, максимальный и размер выборки переменной. Для некоторых из этих данных у меня также есть среднее, но не много. Я хочу сравнить эти диапазоны друг с другом, чтобы...

14
Какие переменные объясняют, какие компоненты PCA, и наоборот?

Используя эти данные: head(USArrests) nrow(USArrests) Я могу сделать PCA следующим образом: plot(USArrests) otherPCA <- princomp(USArrests) Я могу получить новые компоненты в otherPCA$scores и доля дисперсии объясняется компонентами с summary(otherPCA) Но что, если я хочу знать, какие переменные...

14
R: Что я вижу на графиках частичной зависимости gbm и RandomForest?

На самом деле, я думал, что понял, что можно показать на графике частичной зависимости, но на очень простом гипотетическом примере я немного озадачился. В следующем фрагменте кода я генерирую три независимые переменные ( a , b , c ) и одну зависимую переменную ( y ), где c показывает тесную...

14
Как рассчитать перекрытие между эмпирическими плотностями вероятности?

Я ищу метод для расчета области перекрытия между двумя оценками плотности ядра в R, как мера сходства между двумя выборками. Чтобы уточнить, в следующем примере мне нужно было бы количественно определить площадь области пурпурного перекрытия: library(ggplot2) set.seed(1234) d <-...

14
Дивергенция Дженсена Шеннона - Дивергенция Кульбака-Лейблера?

Я знаю, что дивергенция KL не является симметричной, и ее нельзя строго рассматривать как метрику. Если да, то почему он используется, когда JS Divergence удовлетворяет требуемым свойствам метрики? Существуют ли сценарии, в которых может использоваться дивергенция KL, но не дивергенция JS или...

14
Теория ответа предмета против подтверждающего факторного анализа

Мне было интересно, каковы основные, значимые различия между теорией ответа предмета и анализом фактора подтверждения. Я понимаю, что есть различия в вычислениях (фокусируясь больше на элемент против ковариаций; лог-линейный против линейного). Однако я понятия не имею, что это означает с точки...

14
Прогноз временных рядов Arima (auto.arima) с несколькими экзогенными переменными в R

Я хотел бы провести прогноз на основе ARIMA-модели с несколькими временными рядами с несколькими экзогенными переменными. Поскольку я не настолько опытен в отношении статистики, которую ни RI хотят сохранить, это настолько просто, насколько это возможно (прогноз тренда на 3 месяца достаточно). У...

14
От exp (коэффициентов) к коэффициенту шансов и их интерпретации в логистической регрессии с факторами

Я запустил линейную регрессию приема в колледж против баллов SAT и семейного / этнического происхождения. Данные являются вымышленными. Это продолжение предыдущего вопроса, на который уже дан ответ. Вопрос сосредоточен на сборе и интерпретации отношений шансов, оставляя оценки SAT в стороне для...

14
R: функция glm со спецификацией family = «binomial» и «weight»

Меня очень смущает то, как вес работает в glm с family = "binomial". В моем понимании вероятность появления glm с family = "binomial" определяется следующим образом: где - «доля наблюдаемого успеха», а n - известное количество испытаний.е( у) = ( пп у) рп у( 1 - р )n ( 1 - у)= опыт( п [ ужурналп1 -...

14
Различные результаты от randomForest через каретку и базового пакета randomForest

Я немного растерялся: чем могут отличаться результаты обученной модели с помощью каретки от модели в оригинальной упаковке? Я прочитал , нужна ли предварительная обработка перед прогнозированием с использованием FinalModel из RandomForest с пакетом Caret? но я не использую никакой предварительной...

14
Почему мы говорим «Остаточная стандартная ошибка»?

Стандартной ошибкой является оценочное стандартное отклонение оценки для параметра . & thetas ; & thetasσ^( θ^)σ^(θ^)\hat \sigma(\hat\theta)θ^θ^\hat\thetaθθ\theta Почему расчетное стандартное отклонение от остатков называется «остаточной стандартной ошибкой» (например, при выводе функции R...

14
Вывод прогноза логистической регрессии

Я создал логистическую регрессию, используя следующий код: full.model.f = lm(Ft_45 ~ ., LOG_D) base.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg) step(base.model.f, scope=list(upper=full.model.f, lower=~1), direction="forward", trace=FALSE) Затем я использовал выходные данные для создания...

14
ГАМ против проигрыша против сплайнов

Контекст : Я хочу , чтобы нарисовать линию в диаграмме рассеяния , что не появляется параметрическими, поэтому я использую geom_smooth()в ggplotв R. Он автоматически возвращает geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use...

14
Джеффрис априор для нескольких параметров

В некоторых случаях предварительная оценка Джеффриса для полной многомерной модели обычно считается неадекватной, например, в случае: (где ε ∼ N ( 0 , σ 2 ) , где μ и σ неизвестны), где предпочтительным является следующий априор (для полного предшествующего Джеффриса π ( μ , σ ) ∝ σ - 2 ): p ( μ ,...

14
Ультрасовременный алгоритм обучения ансамбля в задачах распознавания образов?

Структура этого вопроса следующая: сначала я представляю концепцию обучения ансамблям , далее я даю список задач распознавания образов , затем я привожу примеры алгоритмов обучения ансамблям и, наконец, представляю свой вопрос. Те, кому не нужна вся дополнительная информация, могут просто...

14
Интерпретация выходных данных .L & .Q из отрицательного биномиального GLM с категориальными данными

Я только что запустил отрицательный биномиальный GLM, и это вывод: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value...

14
Как случайные эффекты только с одним наблюдением повлияют на обобщенную линейную смешанную модель?

У меня есть набор данных, в котором переменная, которую я хотел бы использовать в качестве случайного эффекта, имеет только одно наблюдение для некоторых уровней. Основываясь на ответах на предыдущие вопросы, я понял, что в принципе это может быть хорошо. Могу ли я установить смешанную модель с...

14
За каким распределением следует обратный нормальный CDF бета-случайной величины?

Предположим, вы определили: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) где Φ−1Φ−1\Phi^{-1} - обратная величина CDF стандартного нормального распределения . Мой вопрос: существует ли простое распределение, за которым следует , или которое может...