Вопросы с тегом «r»

15

Как подобрать модель смеси для кластеризации

У меня есть две переменные - X и Y, и мне нужно сделать кластер максимальным (и оптимальным) = 5. Давайте идеальный график переменных выглядит следующим образом: Я хотел бы сделать 5 кластеров из этого. Что-то вроде этого: Таким образом, я думаю, что это смешанная модель с 5 кластерами. Каждый...

r clustering gaussian-mixture

15

Выбор оптимального К для КНН

Я выполнил 5-кратное резюме, чтобы выбрать оптимальный K для KNN. И кажется, что чем больше К, тем меньше ошибка ... Извините, у меня не было легенды, но разные цвета представляют разные испытания. Всего их 5, и кажется, что между ними мало различий. Кажется, что ошибка всегда уменьшается, когда K...

model-selection k-nearest-neighbour

15

Может ли логистическая регрессия glmnet напрямую обрабатывать факторные (категориальные) переменные без использования фиктивных переменных? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 3 года назад . Я строю логистическую регрессию в R, используя метод LASSO с функциями cv.glmnetдля выбора lambdaи...

r logistic categorical-data lasso glmnet

15

Использует ли случайный лес Бреймана прирост информации или индекс Джини?

Я хотел бы знать, использует ли случайный лес Бреймана (случайный лес в пакете R randomForest) в качестве критерия расщепления (критерий для выбора атрибута) получение информации или индекс Джини? Я пытался выяснить это на http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm и в...

r random-forest entropy gini

15

У меня есть линия наилучшего соответствия. Мне нужны данные, которые не изменят мою линию наилучшего соответствия

Я делаю презентацию о примерочных линиях. У меня есть простая линейная функция, . Я пытаюсь получить разбросанные точки данных, которые я могу поместить в график рассеяния, чтобы моя линия лучше соответствовала тому же уравнению.y=1x+by=1x+by=1x+b Я хотел бы изучить эту технику в R или Excel - в...

r regression least-squares excel

15

Другие несмещенные оценки, чем СИНИЙ (решение OLS) для линейных моделей

Для линейной модели решение OLS обеспечивает наилучшую линейную несмещенную оценку параметров. Конечно, мы можем обменять смещение на более низкую дисперсию, например, на регрессию гребня. Но мой вопрос касается отсутствия предвзятости. Существуют ли какие-либо другие оценщики, которые обычно...

regression least-squares linear unbiased-estimator blue

15

Почему lrtest () не соответствует anova (test = «LRT»)

Я искал способы сделать тест отношения правдоподобия в R, чтобы сравнить подгонки модели. Сначала я сам его кодировал, затем нашел и anova()функцию по умолчанию, и также lrtest()в lmtestпакете. Когда я проверял, тем не менее, anova()всегда выдает немного другое значение p, чем у двух других, даже...

r anova likelihood-ratio

15

Понимание QR-разложения

У меня есть рабочий пример (в R), который я пытаюсь понять дальше. Я использую Limma для создания линейной модели, и я пытаюсь понять, что происходит шаг за шагом в вычислениях кратного изменения. Я в основном пытаюсь выяснить, что происходит для расчета коэффициентов. Из того, что я могу выяснить,...

r regression linear-model

15

Какую меру ошибки обучения сообщать для случайных лесов?

В настоящее время я подгоняю случайные леса для задачи классификации, используя randomForestпакет в R, и не уверен, как сообщить об ошибке обучения для этих моделей. Моя ошибка обучения близка к 0%, когда я вычисляю ее, используя прогнозы, которые я получаю с помощью команды: predict(model,...

r machine-learning classification random-forest overfitting

15

Может ли модель для неотрицательных данных со сгущением в нули (Tweedie GLM, нулевое раздувание GLM и т. Д.) Предсказать точные нули?

Распределение Твиди может моделировать искаженные данные с точечной массой в нуле, когда параметр (показатель степени в отношении средней дисперсии) находится между 1 и 2.pпp Точно так же модель с нулевой раздувкой (будь то непрерывная или дискретная) может иметь большое количество нулей. У меня...

r generalized-linear-model prediction zero-inflation tweedie-distribution

15

Если «Стандартная ошибка» и «Доверительные интервалы» измеряют точность измерения, то каковы измерения точности?

В книге «Биостатистика для чайников» на странице 40 я читаю: Стандартная ошибка (сокращенно SE) - это один из способов указать, насколько точна ваша оценка или измерение чего-либо. и Доверительные интервалы предоставляют еще один способ указать точность оценки или измерения чего-либо. Но там ничего...

confidence-interval standard-error measurement-error accuracy

15

Влияет ли проклятие размерности на некоторые модели больше, чем на другие?

Места, которые я читал о проклятии размерности, объясняют его в первую очередь в связи с kNN и линейными моделями в целом. Я регулярно вижу топ-рейтингов в Kaggle, использующих тысячи функций в наборе данных, который вряд ли имеет 100 тыс. Точек данных. Они в основном используют Boosted деревья и...

neural-networks svm k-means k-nearest-neighbour high-dimensional

15

Логистическая регрессия: Scikit Learn против glmnet

Я пытаюсь продублировать результаты из sklearnбиблиотеки логистической регрессии, используя glmnetпакет в R. Из sklearnрегрессионной логистической документации , она пытается свести к минимуму функцию стоимости при l2 казни...

r logistic python scikit-learn glmnet

15

Нужно ли включать «все соответствующие предикторы»?

Основное предположение об использовании регрессионных моделей для вывода заключается в том, что «все соответствующие предикторы» были включены в уравнение прогнозирования. Обоснование состоит в том, что отказ от включения важного фактического фактора приводит к смещенным коэффициентам и,...

regression assumptions bias predictor confounding

15

Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...

r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

15

Предсказания от модели BSTS (в R) полностью проваливаются

Прочитав этот пост в блоге о байесовских моделях структурных временных рядов, я хотел взглянуть на реализацию этого в контексте проблемы, для которой я ранее использовал ARIMA. У меня есть некоторые данные с некоторыми известными (но шумными) сезонными компонентами - это определенно есть ежегодные,...

r time-series bayesian mcmc bsts

15

Выборка из неправильного распределения (с использованием MCMC и других)

Мой основной вопрос: как бы вы пробовали неправильный дистрибутив? Имеет ли смысл пробовать неправильный дистрибутив? Здесь комментарии Сианя как бы касаются вопроса, но я искал некоторые подробности по этому поводу. Более конкретно для MCMC: Говоря о MCMC и читая статьи, авторы подчеркивают, что...

distributions bayesian mcmc markov-process improper-prior

15

Пошаговая регрессия в R - Как это работает?

Я пытаюсь понять основную разницу между ступенчатой и обратной регрессией в R, используя функцию шага. Для ступенчатой регрессии я использовал следующую команду step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both") Я получил следующий вывод для приведенного выше кода. Для выбора обратной...

r regression

15

Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

15

Написание математического уравнения для многоуровневой модели смешанных эффектов

Вопрос CV Я пытаюсь дать (а) подробное и краткое математическое представление (я) модели смешанных эффектов. Я использую lme4пакет в R. Каково правильное математическое представление для моей модели? Данные, научный вопрос и код R Мой набор данных состоит из видов в разных регионах. Я проверяю,...

r mixed-model multilevel-analysis lme4-nlme