Вопросы с тегом «r»

9

Почему линейная регрессия не способна предсказать исход простой детерминированной последовательности?

Мой коллега прислал мне эту проблему, очевидно, делая обходы в Интернете: If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ? Ответ, кажется, 200. 3*6 4*8 5*10 6*12 7*14 8*16 9*18 10*20=200 Когда я делаю линейную регрессию в R: data <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98)) lm1...

r regression lm

9

Странный способ вычисления хи-квадрат в Excel против R

Я смотрю на лист Excel, в котором утверждается, что он вычисляет , но я не знаю, как это сделать, и мне было интересно, если я что-то упустил.χ2χ2\chi^2 Вот данные, которые он анализирует: +------------------+----------+----------+ | Total Population | Observed | Expected |...

r chi-squared excel

9

Установка изменяющегося во времени коэффициента DLM

Я хочу приспособить DLM с изменяющимися во времени коэффициентами, то есть расширением к обычной линейной регрессии, .YT= θ1+ θ2Икс2YTзнак равноθ1+θ2Икс2y_t = \theta_1 + \theta_2x_2 У меня есть предиктор ( ) и переменная отклика ( y t ), ежегодный морской и внутренний вылов рыбы соответственно с...

r regression time-series dlm dynamic-regression

9

R обнаружить увеличение / уменьшение тренда временных рядов

У меня много временных рядов с периодами: день, неделя или месяц. С помощью stl()функции или с помощью loess(x ~ y)я могу видеть, как выглядят тренды определенного временного ряда. Мне нужно определить, увеличивается или уменьшается тренд временного ряда. Как я могу справиться с этим? Я попытался...

r time-series trend

9

Смещение оптимизма - оценки ошибки прогноза

В книге «Элементы статистического обучения» (доступно в формате PDF онлайн) обсуждается предвзятость (7.21, стр. 229). В нем говорится, что смещение оптимизма - это разница между ошибкой обучения и ошибкой в выборке (ошибка наблюдается, если мы выбираем новые значения результатов в каждой из...

error bias validation

9

Байесовский анализ таблиц сопряженности: как описать величину эффекта

Я работаю с примерами из анализа Крушке « Байесовский анализ данных» , в частности, с использованием экспоненциального ANOVA Пуассона в гл. 22, который он представляет в качестве альтернативы частым тестам хи-квадрат независимости для таблиц непредвиденных обстоятельств. Я вижу, как мы получаем...

r bayesian effect-size contingency-tables

9

Когда правильное правило оценки является лучшей оценкой обобщения в условиях классификации?

Типичный подход к решению проблемы классификации состоит в том, чтобы идентифицировать класс моделей-кандидатов, а затем выполнить выбор модели с использованием некоторой процедуры, такой как перекрестная проверка. Обычно выбирается модель с наивысшей точностью или некоторая связанная функция,...

machine-learning model-selection error scoring-rules

9

Как сделать многомерное машинное обучение? (прогнозирование нескольких зависимых переменных)

Я пытаюсь предсказать группы предметов, которые кто-то купит ... то есть у меня есть несколько коллинеарных зависимых переменных. Вместо того, чтобы строить 7 или около того независимых моделей, чтобы предсказать вероятность того, что кто-то купит каждый из 7 предметов, а затем объединить...

r machine-learning multivariate-analysis

9

Оценка параметров с помощью обобщенных линейных моделей

По умолчанию, когда мы используем glmфункцию в R, она использует метод итеративно перевешиваемых наименьших квадратов (IWLS), чтобы найти оценку максимального правдоподобия параметров. Теперь у меня есть два вопроса. Гарантируют ли оценки IWLS глобальный максимум функции правдоподобия? Основываясь...

r estimation generalized-linear-model maximum-likelihood optimization

9

Модель линейной регрессии, которая лучше всего подходит для данных с ошибками

Я ищу алгоритм линейной регрессии, который наиболее подходит для данных, чья независимая переменная (x) имеет постоянную ошибку измерения, а зависимая переменная (y) имеет ошибку, зависящую от сигнала. Изображение выше иллюстрирует мой...

regression linear-model measurement-error measurement

9

Логистическая регрессия на больших данных

У меня есть набор данных около 5000 функций. Для этих данных я сначала использовал тест Chi Square для выбора функции; после этого я получил около 1500 переменных, которые показали связь значимости с переменной отклика. Теперь мне нужно приспособить логистическую регрессию к этому. Я использую...

r logistic generalized-linear-model modeling regression-strategies

9

анова тип III тест для GLMM

Я подгоняю glmerмодель в lme4пакете R. Я ищу таблицу anova с показанным в ней значением p, но я не могу найти пакет, который подходит ей. Возможно ли сделать это в R? Модель, которая мне подходит, имеет форму: model1<-glmer(dmn~period*teethTreated+(1|fullName), family="poisson",...

r anova lme4-nlme mixed-model

9

K-кратная или удерживающая перекрестная проверка для регрессии гребня с использованием R

Я работаю над перекрестной проверкой прогноза моих данных с 200 субъектами и 1000 переменных. Меня интересует регрессия гребня, поскольку число переменных (которые я хочу использовать) больше, чем количество выборок. Поэтому я хочу использовать оценки усадки. Ниже приведены примеры данных: #random...

r cross-validation prediction ridge-regression

9

Оценка скорректированных коэффициентов риска в двоичных данных с использованием регрессии Пуассона

Я заинтересован в оценке скорректированного коэффициента риска, аналогичного тому, как оценивается скорректированный коэффициент шансов с использованием логистической регрессии. Некоторая литература (например, это ) указывает на то, что использование регрессии Пуассона со стандартными ошибками...

r references biostatistics poisson-regression relative-risk

9

Понимание разложения по сингулярным значениям в контексте LSI

Мой вопрос, как правило, касается разложения по сингулярным значениям (SVD) и, в частности, латентного семантического индексирования (LSI). Скажем, у меня есть который содержит частоты 5 слов для 7 документов.Aш о г д× до с у м е н тAword×document A_{word \times document} A =...

r svd natural-language latent-semantic-indexing

9

Как генерировать данные о выживаемости с зависимыми от времени ковариатами, используя R

Я хочу сгенерировать время выживания из модели пропорциональных рисков Кокса, которая содержит зависящий от времени ковариат. Модель h ( t | Xя) = ч0( т ) опыт( γИкся+ α мя( т ) )h(t|Xi)=h0(t)exp⁡(γXi+αmi(t))h(t|X_i) =h_0(t) \exp(\gamma X_i + \alpha m_{i}(t)) где генерируется из бинома (1,0.5) и m...

r survival cox-model time-varying-covariate

9

Кластеризация шумных данных или с выбросами

У меня есть шумные данные двух переменных, как это. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07)...

r machine-learning clustering

9

Что делать, если CFA подходит для масштабирования нескольких элементов плохо?

Я не уверен, как поступить с этим CFA, который я делаю в Lavaan. У меня есть выборка из 172 участников (я знаю, что это немного для CFA) и 28 предметов с 7-балльной шкалой Лайкерта, которая должна загружаться по семи факторам. Я сделал CFA с «mlm» -этиматорами, но подгонка модели была действительно...

r sem fitting confirmatory-factor

9

Выбор приоров на основе погрешности измерения

Как вы рассчитываете соответствующий априор, если у вас есть ошибка измерения прибора? Этот абзац взят из книги Кресси «Статистика пространственно-временных данных»: Часто бывает так, что имеется некоторая предварительная информация, касающаяся дисперсии ошибки измерения, что позволяет указать...

bayesian standard-error error prior measurement-error

9

Почему это множественное вменение низкого качества?

Рассмотрим следующий код R: > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 Как видите, я обработал данные примерно так c = 2*b = 4*a. Таким...

r data-imputation multiple-imputation