Вопросы с тегом «r»

41

Использование lmer для линейной модели смешанного эффекта с повторными измерениями

РЕДАКТИРОВАТЬ 2: Первоначально я думал, что мне нужно запустить двухфакторный ANOVA с повторными измерениями на один фактор, но теперь я думаю, что линейная модель смешанного эффекта будет работать лучше для моих данных. Я думаю, что почти знаю, что должно произойти, но все еще смущен несколькими...

40

Доверительный интервал для медианы

Я должен найти 95% CI на медиане и других процентилях. Я не знаю, как подойти к этому. Я в основном использую R как инструмент

r confidence-interval median

40

Эффект подавления в регрессии: определение и визуальное объяснение / изображение

Что такое переменная-супрессор в множественной регрессии и какие могут быть способы визуального отображения эффекта подавления (его механизм или свидетельство в результатах)? Я хотел бы пригласить всех, у кого есть мысли,...

multiple-regression data-visualization geometry suppressor

40

Как читать дистанционные графики Кука?

Кто-нибудь знает, как определить, являются ли пункты 7, 16 и 29 влиятельными или нет? Я где-то читал, что, поскольку расстояние Кука меньше 1, это не так. Я прав?

r regression residuals diagnostic cooks-distance

40

Меры переменной значимости в случайных лесах

Я играл со случайными лесами для регрессии, и мне трудно понять, что именно означают эти два показателя важности и как их следует интерпретировать. importance()Функция дает два значения для каждой переменной: %IncMSEи IncNodePurity. Есть ли простые интерпретации для этих двух значений? В...

r machine-learning random-forest importance

40

Как определить важные основные компоненты, используя метод начальной загрузки или метод Монте-Карло?

Я заинтересован в определении количества значимых паттернов, вытекающих из анализа основных компонентов (PCA) или анализа эмпирических ортогональных функций (EOF). Я особенно заинтересован в применении этого метода к климатическим данным. Поле данных представляет собой матрицу MxN, где М - это...

r pca bootstrap monte-carlo

40

Как представить результаты Лассо, используя glmnet?

Я хотел бы найти предикторы для непрерывной зависимой переменной из набора из 30 независимых переменных. Я использую регрессию Лассо, как это реализовано в пакете glmnet в R. Вот некоторый фиктивный код: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100)...

r multiple-regression lasso glmnet communication

40

Как интерпретировать F- и p-значение в ANOVA?

Я новичок в статистике, и в настоящее время я имею дело с ANOVA. Я провожу тест ANOVA в R, используя aov(dependendVar ~ IndependendVar) Я получаю, среди прочего, F-значение и p-значение. Моя нулевая гипотеза ( ) состоит в том, что все групповые средства равны.ЧАС0H0H_0 Существует много информации о...

r anova interpretation

40

Модель логистической регрессии не сходится

У меня есть некоторые данные о рейсах авиакомпании (в фрейме данных flights), и я хотел бы посмотреть, повлияет ли время полета на вероятность значительно задержанного прибытия (то есть 10 или более минут). Я подумал, что буду использовать логистическую регрессию с указанием времени полета и тем,...

r logistic separation

40

Предупреждение в R - приближение хи-квадрат может быть неправильным

У меня есть данные, показывающие результаты вступительного экзамена пожарного. Я проверяю гипотезу о том, что результаты экзамена и этническая принадлежность не являются взаимно независимыми. Чтобы проверить это, я выполнил тест хи-квадрат Пирсона в R. Результаты показывают, что я ожидал, но он дал...

r categorical-data chi-squared small-sample error-message

39

Clojure против R: преимущества и недостатки для анализа данных

У меня был план изучения Р в ближайшее время. Читая другой вопрос, я узнал о Clojure. Теперь я не знаю, что делать. Я думаю, что большим преимуществом R для меня является то, что некоторые люди в экономике используют его, в том числе один из моих руководителей (хотя другой сказал: держись подальше...

r

39

Должны ли «сохраняться» ковариаты, которые не являются статистически значимыми при создании модели?

У меня есть несколько ковариат в моем расчете для модели, и не все из них являются статистически значимыми. Должен ли я удалить те, которые не являются? Этот вопрос обсуждает это явление, но не отвечает на мой вопрос: как интерпретировать незначительный эффект ковариаты в ANCOVA? В ответе на этот...

regression statistical-significance ancova model predictor

39

Режим, класс и тип объектов R

Мне было интересно, каковы различия между объектами Mode, Class и Type of R? Тип объекта R может быть получен с помощью функции typeof (), mode by mode () и class by class (). Также какие-нибудь другие подобные функции и понятия, которые я пропустил? Спасибо и всего...

r

39

Ранг в R - по убыванию [закрыто]

Я рассчитываю ранжировать данные, которые в некоторых случаях имеют большее значение ранга 1. Я относительно новичок в R, но я не вижу, как я могу изменить этот параметр в функции ранга. x <- c(23,45,12,67,34,89) rank(x) генерирует: [1] 2 4 1 5 3 6 когда я хочу, чтобы это было: [1] 5 3 6 2 4 1 Я...

r

39

Что означает «.» (Точка) в R?

Я просто читаю книгу "R в двух словах". И кажется, что я пропустил часть, где "." как в "sample.formula" было объяснено. > sample.formula <- as.formula(y~x1+x2) Образец - это объект с формулой поля, как в других языках? И если так, как я могу узнать, какие еще поля / функции у этого объекта?...

r

39

Репликация «надежного» параметра Stata в R

Я пытался повторить результаты опции Stata robustв R. Я использовал rlmкоманду из пакета MASS, а также команду lmrobиз пакета "robustbase". В обоих случаях результаты сильно отличаются от «надежного» параметра в Stata. Кто-нибудь может предложить что-то в этом контексте? Вот результаты, которые я...

r stata robust robust-standard-error

39

Почему мы используем расхождение Кульбака-Лейблера, а не кросс-энтропию в целевой функции t-SNE?

На мой взгляд, расхождение KL от распределения выборки до истинного распределения - это просто разница между кросс-энтропией и энтропией. Почему мы используем перекрестную энтропию как функцию стоимости во многих моделях машинного обучения, но используем расхождение Кульбака-Лейблера в t-sne? Есть...

kullback-leibler tsne cross-entropy

39

Моделирование анализа мощности логистической регрессии - разработанные эксперименты

Этот вопрос является ответом на ответ @Greg Snow на вопрос, который я задал относительно анализа мощности с помощью логистической регрессии и SAS Proc GLMPOWER. Если я планирую эксперимент и проанализирую результаты в факторной логистической регрессии, как я могу использовать симуляцию (и здесь )...

r logistic generalized-linear-model simulation power-analysis

39

Функция графического обзора данных (сводная) в R

Я уверен, что раньше я сталкивался с подобной функцией в пакете R, но после интенсивного поиска в Google я, кажется, нигде не могу ее найти. Функция, о которой я думаю, создала графическое резюме для заданной ей переменной, создавая вывод с некоторыми графиками (гистограммой и, возможно, графиком с...

r data-visualization descriptive-statistics eda

39

Является ли минимизация квадратичной ошибки эквивалентной минимизации абсолютной ошибки? Почему квадратичная ошибка более популярна, чем последняя?

Когда мы проводим линейную регрессию для подбора группы точек данных , классический подход минимизирует квадратичную ошибку. Я уже давно озадачен вопросом, будет ли минимизация квадратичной ошибки таким же результатом, как минимизация абсолютной ошибки ? Если нет, то почему минимизировать квадрат...

least-squares error