Вопросы с тегом «r»

15
Как подобрать модель смеси для кластеризации

У меня есть две переменные - X и Y, и мне нужно сделать кластер максимальным (и оптимальным) = 5. Давайте идеальный график переменных выглядит следующим образом: Я хотел бы сделать 5 кластеров из этого. Что-то вроде этого: Таким образом, я думаю, что это смешанная модель с 5 кластерами. Каждый...

15
Выбор оптимального К для КНН

Я выполнил 5-кратное резюме, чтобы выбрать оптимальный K для KNN. И кажется, что чем больше К, тем меньше ошибка ... Извините, у меня не было легенды, но разные цвета представляют разные испытания. Всего их 5, и кажется, что между ними мало различий. Кажется, что ошибка всегда уменьшается, когда K...

15
Может ли логистическая регрессия glmnet напрямую обрабатывать факторные (категориальные) переменные без использования фиктивных переменных? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 3 года назад . Я строю логистическую регрессию в R, используя метод LASSO с функциями cv.glmnetдля выбора lambdaи...

15
Использует ли случайный лес Бреймана прирост информации или индекс Джини?

Я хотел бы знать, использует ли случайный лес Бреймана (случайный лес в пакете R randomForest) в качестве критерия расщепления (критерий для выбора атрибута) получение информации или индекс Джини? Я пытался выяснить это на http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm и в...

15
У меня есть линия наилучшего соответствия. Мне нужны данные, которые не изменят мою линию наилучшего соответствия

Я делаю презентацию о примерочных линиях. У меня есть простая линейная функция, . Я пытаюсь получить разбросанные точки данных, которые я могу поместить в график рассеяния, чтобы моя линия лучше соответствовала тому же уравнению.y=1x+by=1x+by=1x+b Я хотел бы изучить эту технику в R или Excel - в...

15
Другие несмещенные оценки, чем СИНИЙ (решение OLS) для линейных моделей

Для линейной модели решение OLS обеспечивает наилучшую линейную несмещенную оценку параметров. Конечно, мы можем обменять смещение на более низкую дисперсию, например, на регрессию гребня. Но мой вопрос касается отсутствия предвзятости. Существуют ли какие-либо другие оценщики, которые обычно...

15
Почему lrtest () не соответствует anova (test = «LRT»)

Я искал способы сделать тест отношения правдоподобия в R, чтобы сравнить подгонки модели. Сначала я сам его кодировал, затем нашел и anova()функцию по умолчанию, и также lrtest()в lmtestпакете. Когда я проверял, тем не менее, anova()всегда выдает немного другое значение p, чем у двух других, даже...

15
Понимание QR-разложения

У меня есть рабочий пример (в R), который я пытаюсь понять дальше. Я использую Limma для создания линейной модели, и я пытаюсь понять, что происходит шаг за шагом в вычислениях кратного изменения. Я в основном пытаюсь выяснить, что происходит для расчета коэффициентов. Из того, что я могу выяснить,...

15
Какую меру ошибки обучения сообщать для случайных лесов?

В настоящее время я подгоняю случайные леса для задачи классификации, используя randomForestпакет в R, и не уверен, как сообщить об ошибке обучения для этих моделей. Моя ошибка обучения близка к 0%, когда я вычисляю ее, используя прогнозы, которые я получаю с помощью команды: predict(model,...

15
Может ли модель для неотрицательных данных со сгущением в нули (Tweedie GLM, нулевое раздувание GLM и т. Д.) Предсказать точные нули?

Распределение Твиди может моделировать искаженные данные с точечной массой в нуле, когда параметр (показатель степени в отношении средней дисперсии) находится между 1 и 2.pпp Точно так же модель с нулевой раздувкой (будь то непрерывная или дискретная) может иметь большое количество нулей. У меня...

15
Если «Стандартная ошибка» и «Доверительные интервалы» измеряют точность измерения, то каковы измерения точности?

В книге «Биостатистика для чайников» на странице 40 я читаю: Стандартная ошибка (сокращенно SE) - это один из способов указать, насколько точна ваша оценка или измерение чего-либо. и Доверительные интервалы предоставляют еще один способ указать точность оценки или измерения чего-либо. Но там ничего...

15
Влияет ли проклятие размерности на некоторые модели больше, чем на другие?

Места, которые я читал о проклятии размерности, объясняют его в первую очередь в связи с kNN и линейными моделями в целом. Я регулярно вижу топ-рейтингов в Kaggle, использующих тысячи функций в наборе данных, который вряд ли имеет 100 тыс. Точек данных. Они в основном используют Boosted деревья и...

15
Логистическая регрессия: Scikit Learn против glmnet

Я пытаюсь продублировать результаты из sklearnбиблиотеки логистической регрессии, используя glmnetпакет в R. Из sklearnрегрессионной логистической документации , она пытается свести к минимуму функцию стоимости при l2 казни...

15
Нужно ли включать «все соответствующие предикторы»?

Основное предположение об использовании регрессионных моделей для вывода заключается в том, что «все соответствующие предикторы» были включены в уравнение прогнозирования. Обоснование состоит в том, что отказ от включения важного фактического фактора приводит к смещенным коэффициентам и,...

15
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...

15
Предсказания от модели BSTS (в R) полностью проваливаются

Прочитав этот пост в блоге о байесовских моделях структурных временных рядов, я хотел взглянуть на реализацию этого в контексте проблемы, для которой я ранее использовал ARIMA. У меня есть некоторые данные с некоторыми известными (но шумными) сезонными компонентами - это определенно есть ежегодные,...

15
Выборка из неправильного распределения (с использованием MCMC и других)

Мой основной вопрос: как бы вы пробовали неправильный дистрибутив? Имеет ли смысл пробовать неправильный дистрибутив? Здесь комментарии Сианя как бы касаются вопроса, но я искал некоторые подробности по этому поводу. Более конкретно для MCMC: Говоря о MCMC и читая статьи, авторы подчеркивают, что...

15
Пошаговая регрессия в R - Как это работает?

Я пытаюсь понять основную разницу между ступенчатой ​​и обратной регрессией в R, используя функцию шага. Для ступенчатой ​​регрессии я использовал следующую команду step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both") Я получил следующий вывод для приведенного выше кода. Для выбора обратной...

15
Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

15
Написание математического уравнения для многоуровневой модели смешанных эффектов

Вопрос CV Я пытаюсь дать (а) подробное и краткое математическое представление (я) модели смешанных эффектов. Я использую lme4пакет в R. Каково правильное математическое представление для моей модели? Данные, научный вопрос и код R Мой набор данных состоит из видов в разных регионах. Я проверяю,...