Вопросы с тегом «multivariate-analysis»

Анализирует, когда одновременно анализируется более одной переменной, и эти переменные являются либо зависимыми (ответными), либо единственными в анализе. Это можно сравнить с «множественным» или «многовариантным» анализом, который подразумевает более одной (независимой) предикторной переменной.

107
Какие навыки необходимы для проведения крупномасштабного статистического анализа?

Многие статистические работы требуют опыта работы с крупномасштабными данными. Какие виды статистических и вычислительных навыков понадобятся для работы с большими наборами данных. Например, как насчет построения регрессионных моделей с учетом набора данных с 10 миллионами...

94
Каков наилучший способ выявления выбросов в многомерных данных?

Предположим, у меня есть большой набор многомерных данных, по крайней мере, с тремя переменными. Как я могу найти выбросы? Парные диаграммы рассеяния не будут работать, поскольку выброс может существовать в трех измерениях, который не является выбросом ни в одном из двухмерных подпространств. Я...

91
Возможно ли иметь пару гауссовых случайных величин, для которых совместное распределение не является гауссовым?

Кто-то задал мне этот вопрос на собеседовании, и я ответил, что их совместное распространение всегда гауссовское. Я думал, что всегда могу написать двумерный гауссовский язык со своими средствами, дисперсией и ковариациями. Мне интересно, может ли быть случай, когда совместная вероятность двух...

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

68
Многофакторная множественная регрессия в R

У меня есть 2 зависимые переменные (DV), на каждую из которых может влиять набор из 7 независимых переменных (IV). DV являются непрерывными, в то время как набор IV состоит из смеси непрерывных и двоично-закодированных переменных. (В коде ниже непрерывные переменные пишутся заглавными буквами, а...

67
Какова взаимосвязь между независимым компонентным анализом и факторным анализом?

Я новичок в независимом компонентном анализе (ICA) и имею только элементарное понимание метода. Мне кажется, что ICA похож на Факторный анализ (FA) с одним исключением: ICA предполагает, что наблюдаемые случайные величины являются линейной комбинацией независимых компонентов / факторов, которые не...

54
Является ли корректной корректировка значений p в множественной регрессии для множественных сравнений?

Предположим, что вы - исследователь в области социальных наук / эконометрик и пытаетесь найти соответствующие предикторы спроса на услугу. У вас есть 2 итоговые / зависимые переменные, описывающие спрос (используя сервис да / нет и количество случаев). У вас есть 10 предикторов / независимых...

46
Интерпретация логарифмически преобразованного предиктора и / или ответа

Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но...

41
Чем оценки склонности отличаются от добавления ковариат в регрессии, и когда они предпочтительнее последней?

Я признаю, что я относительно новичок в оценках предрасположенности и причинного анализа. Одна вещь, которая не очевидна для меня как новичка, заключается в том, как «балансировка» с использованием показателей склонности математически отличается от того, что происходит, когда мы добавляем ковариаты...

38
PCA и анализ соответствия в их отношении к Biplot

Биплот часто используется для отображения результатов анализа основных компонентов (и связанных с ним методов). Это двойная или наложенная диаграмма рассеяния, показывающая загрузки компонентов и оценки компонентов одновременно. Сегодня @amoeba сообщил мне, что он дал ответ, отходящий от моего...

34
Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?

Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе...

33
Есть ли общепринятое определение медианы образца на плоскости или более упорядоченных пространств?

Если так, то? Если нет, то почему? Для выборки на линии медиана минимизирует общее абсолютное отклонение. Казалось бы, естественно расширить определение до R2 и т. Д., Но я никогда не видел его. Но потом я уже давно на левом...

29
Процедура выбора переменной для двоичной классификации

Какие переменные / характеристики вы предпочитаете для бинарной классификации, когда в наборе обучения гораздо больше переменных / функций, чем наблюдений? Цель здесь состоит в том, чтобы обсудить, какова процедура выбора признаков, которая наилучшим образом уменьшает ошибку классификации. Мы можем...

29
Какой тест я могу использовать для сравнения уклонов двух или более регрессионных моделей?

Я хотел бы проверить разницу в ответе двух переменных на один предиктор. Вот минимальный воспроизводимый пример. library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <-...

29
Как работать с иерархическими / вложенными данными в машинном обучении

Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

29
СВД коррелированной матрицы должен быть аддитивным, но не

Я просто пытаюсь воспроизвести утверждение, сделанное в следующей статье « Поиск коррелированных бикластеров по данным экспрессии генов» : Предложение 4. Если . тогда мы имеем:XIJ=RICTJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} я. Если - идеальный бикластер с аддитивной моделью, то - идеальный бикластер с...

28
Измерение «расстояния» между двумя многомерными распределениями

Я ищу хорошую терминологию для описания того, что я пытаюсь сделать, чтобы упростить поиск ресурсов. Итак, скажем, у меня есть две группы точек A и B, каждая из которых связана с двумя значениями, X и Y, и я хочу измерить «расстояние» между A и B - то есть, насколько вероятно, что они были отобраны...

27
Могут ли степени свободы быть нецелым числом?

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...

26
Книга рекомендаций для многомерного анализа

Я заинтересован в том, чтобы получить несколько книг о многомерном анализе, и мне нужны ваши рекомендации. Бесплатные книги всегда приветствуются, но если вы знаете о какой-то замечательной несвободной книге MVA, пожалуйста, укажите...

25
Для чего нужны переменные рейтинги важности?

Я стал чем-то вроде нигилистов, когда дело доходит до переменных уровней ранжирования (в контексте многомерных моделей всех видов). Часто в ходе моей работы меня просят либо помочь другой команде составить рейтинг с переменной степенью важности, либо создать рейтинг с переменной степенью важности...