Вопросы с тегом «analysis»

215
Каковы различия между факторным анализом и анализом основных компонентов?

Кажется, что ряд статистических пакетов, которые я использую, объединяют эти два понятия. Тем не менее, мне интересно, есть ли разные предположения или «формальности» данных, которые должны быть верны, чтобы использовать одно над другим. Реальный пример был бы невероятно...

147
Можно ли применять анализ главных компонентов к наборам данных, содержащим сочетание непрерывных и категориальных переменных?

У меня есть набор данных, который содержит как непрерывные, так и категориальные данные. Я анализирую с помощью PCA и задаюсь вопросом, можно ли включать категориальные переменные в качестве части анализа. Насколько я понимаю, PCA может применяться только к непрерывным переменным. Это правильно?...

107
Какие навыки необходимы для проведения крупномасштабного статистического анализа?

Многие статистические работы требуют опыта работы с крупномасштабными данными. Какие виды статистических и вычислительных навыков понадобятся для работы с большими наборами данных. Например, как насчет построения регрессионных моделей с учетом набора данных с 10 миллионами...

94
Каков наилучший способ выявления выбросов в многомерных данных?

Предположим, у меня есть большой набор многомерных данных, по крайней мере, с тремя переменными. Как я могу найти выбросы? Парные диаграммы рассеяния не будут работать, поскольку выброс может существовать в трех измерениях, который не является выбросом ни в одном из двухмерных подпространств. Я...

91
Возможно ли иметь пару гауссовых случайных величин, для которых совместное распределение не является гауссовым?

Кто-то задал мне этот вопрос на собеседовании, и я ответил, что их совместное распространение всегда гауссовское. Я думал, что всегда могу написать двумерный гауссовский язык со своими средствами, дисперсией и ковариациями. Мне интересно, может ли быть случай, когда совместная вероятность двух...

88
Скрещенные и вложенные случайные эффекты: чем они отличаются и как они правильно указаны в lme4?

Вот как я понял вложенные и скрещенные случайные эффекты: Вложенные случайные эффекты возникают, когда фактор более низкого уровня появляется только в пределах определенного уровня фактора более высокого уровня. Например, ученики в классах в определенный момент времени. В lme4Я думал , что мы...

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

72
Эмпирические правила для минимального размера выборки для множественной регрессии

В рамках предложения по исследованию социальных наук мне был задан следующий вопрос: Я всегда использовал 100 + m (где m - количество предикторов) при определении минимального размера выборки для множественной регрессии. Это уместно? Я часто получаю похожие вопросы, часто с разными правилами. Я...

72
Какова роль логарифма в энтропии Шеннона?

Энтропия Шеннона является отрицательной суммой вероятностей каждого результата, умноженной на логарифм вероятностей для каждого результата. Какой цели служит логарифм в этом уравнении? Интуитивно понятный или визуальный ответ (в отличие от глубоко математического ответа) получит бонусные...

71
Генерация случайной величины с определенной корреляцией с существующей переменной

Для исследования моделирования я должен генерировать случайные переменные , которые показывают prefined (населения) корреляцию с существующей переменной .YYY Я посмотрел на Rпакеты copulaи CDVineкоторые могут производить случайные многомерные распределения с заданной структурой зависимостей. Однако...

68
Многофакторная множественная регрессия в R

У меня есть 2 зависимые переменные (DV), на каждую из которых может влиять набор из 7 независимых переменных (IV). DV являются непрерывными, в то время как набор IV состоит из смеси непрерывных и двоично-закодированных переменных. (В коде ниже непрерывные переменные пишутся заглавными буквами, а...

67
Какова взаимосвязь между независимым компонентным анализом и факторным анализом?

Я новичок в независимом компонентном анализе (ICA) и имею только элементарное понимание метода. Мне кажется, что ICA похож на Факторный анализ (FA) с одним исключением: ICA предполагает, что наблюдаемые случайные величины являются линейной комбинацией независимых компонентов / факторов, которые не...

63
За PCA следует ротация (например, varimax), все еще PCA?

Я пытался воспроизвести некоторые исследования (с использованием PCA) из SPSS в R. По моему опыту, principal() функция из пакета psychбыла единственной функцией, которая приблизилась (или, если моя память мне не изменяет), чтобы соответствовать выводу. Чтобы соответствовать тем же результатам, что...

54
Является ли корректной корректировка значений p в множественной регрессии для множественных сравнений?

Предположим, что вы - исследователь в области социальных наук / эконометрик и пытаетесь найти соответствующие предикторы спроса на услугу. У вас есть 2 итоговые / зависимые переменные, описывающие спрос (используя сервис да / нет и количество случаев). У вас есть 10 предикторов / независимых...

46
Интерпретация логарифмически преобразованного предиктора и / или ответа

Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но...

41
Чем оценки склонности отличаются от добавления ковариат в регрессии, и когда они предпочтительнее последней?

Я признаю, что я относительно новичок в оценках предрасположенности и причинного анализа. Одна вещь, которая не очевидна для меня как новичка, заключается в том, как «балансировка» с использованием показателей склонности математически отличается от того, что происходит, когда мы добавляем ковариаты...

39
Моделирование анализа мощности логистической регрессии - разработанные эксперименты

Этот вопрос является ответом на ответ @Greg Snow на вопрос, который я задал относительно анализа мощности с помощью логистической регрессии и SAS Proc GLMPOWER. Если я планирую эксперимент и проанализирую результаты в факторной логистической регрессии, как я могу использовать симуляцию (и здесь )...

38
Будет ли PCA работать для логических (двоичных) типов данных?

Я хочу уменьшить размерность систем более высокого порядка и захватить большую часть ковариации предпочтительно в двухмерном или одномерном поле. Я понимаю, что это можно сделать с помощью анализа основных компонентов, и я использовал PCA во многих сценариях. Однако я никогда не использовал его с...

38
PCA и анализ соответствия в их отношении к Biplot

Биплот часто используется для отображения результатов анализа основных компонентов (и связанных с ним методов). Это двойная или наложенная диаграмма рассеяния, показывающая загрузки компонентов и оценки компонентов одновременно. Сегодня @amoeba сообщил мне, что он дал ответ, отходящий от моего...