Статистика и большие данные

9
Теорема Гаусса-Маркова: СИНИЙ и МНК

Я читаю теорему Гасса-Маркова о википедии и надеялся, что кто-нибудь сможет помочь мне понять суть этой теоремы. Мы предполагаем, что линейная модель в матричной форме имеет вид: и мы ищем СИНИЙ, .y=Xβ+ηy=Xβ+η y = X\beta +\eta βˆβ^ \widehat\beta В соответствии с этим я бы обозначил как "остаток", а...

9
Путаница, связанная с нормализацией данных

Я пытаюсь выучить модель линейной регрессии. Однако у меня есть некоторая путаница, связанная с нормализацией данных. Я нормализовал особенности / предикторы к нулевому среднему значению и единице дисперсии. Нужно ли делать то же самое для цели. Если так, то...

9
Какова статистика теста в точном тесте Фишера?

Для таблицы непредвиденных обстоятельств 2 на 2 некоторые говорили, что точный тест Фишера использует счет в ячейке (1,1) в таблице в качестве статистики теста, и при нулевой гипотезе будет имеют гипергеометрическое распределение.Икс1 , 1Икс1,1X_{1,1}Икс1 , 1Икс1,1X_{1,1} Некоторые говорили, что...

9
как интерпретировать член взаимодействия в формуле lm в R?

В R, если я вызываю lm()функцию следующим образом: lm.1 = lm(response ~ var1 + var2 + var1 * var2) summary(lm.1) Это дает мне линейную модель переменной отклика с var1, var2и взаимодействие между ними. Однако как именно мы численно интерпретируем термин взаимодействия? Документация говорит, что это...

9
При каких допущениях обычный метод наименьших квадратов дает эффективные и объективные оценки?

Правда ли, что в предположениях Гаусса-Маркова обычный метод наименьших квадратов дает эффективные и объективные оценки? Так: для всех tЕ( тыT) = 0E(ut)=0E(u_t)=0 Ttt для t = sЕ( тыTUs) = σ2E(utus)=σ2E(u_tu_s)=\sigma^2 т = сt=st=s для т ≠ sЕ( тыTUs) = 0E(utus)=0E(u_tu_s)=0 т ≠ ыt≠st\neq s где...

9
Визуализация результатов от нескольких скрытых моделей классов

Я использую скрытый анализ классов для кластеризации выборки наблюдений на основе набора двоичных переменных. Я использую R и пакет poLCA. В LCA необходимо указать количество кластеров, которые вы хотите найти. На практике люди обычно запускают несколько моделей, каждая из которых задает разное...

9
Вводный учебник по непараметрическим байесовским моделям?

Я хотел бы обдумать эту тему, но учиться на официальных документах и ​​руководствах сложно, потому что есть много пробелов, которые обычно заполняются в учебниках. Если это важно, у меня достаточно сильные математические знания, как и у доктора наук. в прикладной математике (точнее,...

9
В чем разница между подходом Frequentist с метаанализом и подходом Bayesian?

Скажем, я выполняю анализ, глядя на определенную меру здоровья. Меня интересует разница в этой мере между пациентами и контрольной группой, а также в том, отличается ли эта разница от нуля. В прошлом проводились исследования, в которых рассматривался мой вопрос об одном и том же вопросе о здоровье...

9
Установка априора на параметр концентрации в процессе Дирихле

В основном это фон, пропустите до конца, если вы уже достаточно знаете о технологических смесях Дирихле . Предположу , я моделирование некоторых данных как поступающие из смеси процессов Дирихля, т.е. пусть и зависимость от F Предположит Y я я я д ~ ∫ F ( у | & thetas ) Р ( д θ ) .F∼ D ( α...

9
Надежный MCMC оценщик предельной вероятности?

Я пытаюсь вычислить предельную вероятность для статистической модели методами Монте-Карло: е( х ) = ∫е( x ∣ θ ) π( θ )dθе(Икс)знак равно∫е(Икс|θ)π(θ)dθf(x) = \int f(x\mid\theta) \pi(\theta)\, d\theta Вероятность того, что она хорошо себя ведет - гладкая, вогнутая - но объемная. Я пробовал...

9
(взаимодействующий) MCMC для мультимодального заднего

Я пытаюсь сэмплировать задний план, имеющий много режимов, особенно далеко друг от друга, используя MCMC. Похоже, что в большинстве случаев только один из этих режимов содержит 95% hpd, который я ищу. Я пытался реализовать решения, основанные на умеренном моделировании, но это не дает...

9
Является ли CCA между двумя идентичными наборами данных эквивалентными PCA в этом наборе данных?

Читая Википедию о каноническом корреляционном анализе (CCA) для двух случайных векторов и , мне стало интересно, совпадает ли анализ основных компонентов (PCA) с CCA, когда ?Y X =...

9
Использование инструментов анализа текста / естественного языка для эконометрики

Я не уверен, является ли этот вопрос полностью уместным здесь, если нет, пожалуйста, удалите. Я аспирант по экономике. Для проекта, который исследует проблемы социального страхования, у меня есть доступ к большому количеству отчетов об административных делах (> 200 тыс.), Которые касаются оценки...

9
Помогите мне приспособить эту нелинейную множественную регрессию, которая бросила вызов всем предыдущим усилиям

РЕДАКТИРОВАТЬ: С момента создания этого поста, я добавил еще один пост здесь . Краткое содержание текста ниже: я работаю над моделью и пробовал линейную регрессию, преобразования Бокса-Кокса и GAM, но не добился большого прогресса Используя R, я в настоящее время работаю над моделью, чтобы...

9
Стандартная ошибка наклона в кусочно-линейной регрессии с известными точками останова

Ситуация У меня есть набор данных с одной зависимой и одной независимой переменной . Я хочу согласовать непрерывную кусочно-линейную регрессию с известными / фиксированными точками останова, возникающими в . Точки останова известны без неопределенности, поэтому я не хочу их оценивать. Затем я...

9
Нахождение дисперсии оценки для максимального правдоподобия для распределения Пуассона

Если - это распределения Пуассона с параметром я определил, что максимальная оценка вероятности равна для данных . Поэтому мы можем определить соответствующий оценщик Мой вопрос: как бы вы определили дисперсию этой оценки? & beta ; & beta ; ( к 1 , ... , K п ) = 1К1, … , КNК1,...,КNK_1,...

9
Прогнозирование с помощью randomForest (R), когда некоторые входные данные имеют пропущенные значения (NA)

У меня есть прекрасная randomForestклассификационная модель, которую я хотел бы использовать в приложении, которое предсказывает класс нового случая. В новом случае неизбежно отсутствуют значения. Прогноз не будет работать как таковой для АН. Как мне тогда это сделать? data(iris) # create first the...

9
Интеграция Монте-Карло для не квадратично интегрируемых функций

Я надеюсь, что это правильное место, чтобы спросить, если не стесняйтесь перенести его на более подходящий форум. Я довольно долго размышлял о том, как обрабатывать неквадратные интегрируемые функции с помощью интеграции Монте-Карло. Я знаю, что MC все еще дает правильную оценку, но ошибка...

9
Правила применения симуляции Монте-Карло p-значений для критерия хи-квадрат

Я хотел бы понять использование моделирования Монте-Карло в chisq.test()функции в R. У меня есть качественная переменная, которая имеет 128 уровней / классов. Мой размер выборки составляет 26 (я не смог выбрать больше «отдельных лиц»). Поэтому очевидно, что у меня будет несколько уровней с 0...

9
Уникальная (?) Идея для прогнозирования продаж

Я работаю над разработкой модели для прогнозирования общих продаж продукта. У меня есть около полутора лет данных о бронировании, поэтому я могу провести стандартный анализ временных рядов. Однако у меня также есть много данных о каждой «возможности» (потенциальной продаже), которая была либо...