Статистика и большие данные

9
Учитывая две поглощающие цепи Маркова, какова вероятность того, что одна из них прервется раньше другой?

У меня есть две разные цепи Маркова, каждая с одним поглощающим состоянием и известной стартовой позицией. Я хочу определить вероятность того, что цепь 1 достигнет поглощающего состояния за меньшее количество шагов, чем цепь 2. Я думаю, что могу вычислить вероятность достижения поглощающего...

9
Согласование деревьев ускоренной регрессии (BRT), обобщенных расширенных моделей (GBM) и машины повышения градиента (GBM)

Вопросов: В чем разница (ы) между деревьями регрессионного усиления (BRT) и обобщенными моделями (GBM)? Могут ли они быть взаимозаменяемыми? Является ли одна конкретная форма другой? Почему Риджуэй использовал фразу «Обобщенные модели ускоренной регрессии» (GBM), чтобы описать то, что Фридман ранее...

9
Как использовать anova для сравнения двух моделей?

Как понимать anovaрезультат при сравнении двух моделей? Пример: Res.Df RSS Df Sum of Sq F Pr(>F) 1 9 54.032 2 7 4.632 2 49.4 37.329 0.0001844 *** На странице руководства указано: «Вычислить таблицы отклонений (или отклонений) для одного или нескольких подходящих объектов модели». Однако наш...

9
Почему оценки основных компонентов некоррелированы?

Supose - это матрица среднецентрированных данных. Матрица равна , имеет различных собственных значений и собственные векторы , ... , которые являются ортогональными.S = cov ( A ) m × m m s 1 s 2 s mAA\mathbf AS=cov(A)S=cov(A)\mathbf S=\text{cov}(\mathbf A)m×mm×mm\times mmmms1s1\mathbf...

9
При использовании SVM зачем мне масштабировать функции?

Согласно документации объекта StandardScaler в scikit-learn: Например, многие элементы, используемые в целевой функции алгоритма обучения (например, ядро ​​RBF машин опорных векторов или регуляризаторы L1 и L2 линейных моделей), предполагают, что все объекты сосредоточены вокруг 0 ​​и имеют...

9
Схемы альтернативного взвешивания для мета-анализа случайных эффектов: отсутствуют стандартные отклонения

Я работаю над метаанализом случайных эффектов, охватывающим ряд исследований, в которых не сообщается о стандартных отклонениях; все исследования указывают размер выборки. Я не верю, что можно приблизить или приписать отсутствующие данные SD. Как метаанализ, который использует сырые (нестандартные)...

9
Пакет Metafor: диагностика смещения и чувствительности

Я провожу многоуровневый метаанализ, который включает несколько статей с несколькими результатами. Поэтому я использую rma.mv()функцию. Пример кода: test.main = rma.mv(yi,vi,random = ~1|ID, data = data) У меня есть два вопроса: Я прочитал в предыдущем запросе , что при использовании rma.mv(),...

9
Как применить регрессию к основным компонентам для прогнозирования выходной переменной?

Я прочитал об основах анализа основных компонентов из учебника 1 , ссылки 1 и ссылки 2 . У меня есть набор данных из 100 переменных (включая выходную переменную Y), я хочу уменьшить переменные до 40 с помощью PCA, а затем предсказать переменную Y, используя эти 40 переменных. Проблема 1: После...

9
Что такое «параметр компонента дисперсии» в модели смешанного эффекта?

На странице 12 книги Бейтса о модели смешанного эффекта он описывает модель следующим образом: В конце скриншота он упоминает коэффициент относительной ковариации , зависящий от параметра дисперсионной составляющей , θΛθΛθ\Lambda_{\theta}θθ\theta не объясняя, что именно отношения. Скажем , нам...

9
Оценка многоуровневых моделей логистической регрессии

Следующая многоуровневая логистическая модель с одной пояснительной переменной на уровне 1 (индивидуальный уровень) и одной пояснительной переменной на уровне 2 (групповой уровень): π 0 j = γ 00 + γ 01 z j + u 0 j … ( 2 ) π 1 j = γ 10 + γ 11 z j + u 1 j … ( 3 )логит ( ря ж) = π0 Дж+ π1 JИкся ж… ( 1...

9
Если все 1000 тестируемых пациентов не излечиваются препаратом, разве мы не можем сказать, что принимаем нулевую гипотезу?

Во многих местах я читал, что мы никогда не можем сказать, что мы «принимаем» нулевую гипотезу. Вместо этого мы должны сказать, что мы «не можем отвергнуть» нулевую гипотезу. Но я не вижу, как это согласуется с этим простым примером: предположим, мы тестируем лекарство, которое должно полностью...

9
Укрощение перекоса ... Почему так много перекосов?

Я надеюсь получить более полное представление о четырех типах перекоса этого сообщества. Типы, на которые я ссылаюсь, упоминаются на странице помощи http://www.inside-r.org/packages/cran/e1071/docs/skewness . Старый метод не был упомянут на странице справки, но я все же включаю его....

9
Меняется ли распределение вероятности урны, когда вы извлекаете ее без замены в среднем?

Предположим, у меня есть урна, содержащая N различных цветов шаров, и каждый другой цвет может появляться разное количество раз (если есть 10 красных шаров, то также не обязательно должно быть 10 синих шаров). Если мы знаем точное содержимое урны до рисования, мы можем сформировать дискретное...

9
Когда неправильные линейные модели становятся очень красивыми?

Вопросов: Используются ли ненадлежащие линейные модели на практике, или же они время от времени описываются любопытством в научных журналах? Если да, то в каких областях они используются? Есть ли другие примеры таких моделей? Наконец, будут ли правильные стандартные ошибки, , R 2 и т. Д., Взятые из...

9
Какой хороший способ графического представления очень большого количества парных точек данных?

В моей области обычным способом построения парных данных является серия тонких наклонных отрезков, накладывающих их на медиану и КИ медианы для двух групп: Однако этот тип графика становится намного сложнее для чтения, так как количество точек данных становится очень большим (в моем случае у меня...

9
Как повышение градиента, как градиентный спуск?

Я читаю полезную статью в Википедии о повышении градиента ( https://en.wikipedia.org/wiki/Gradient_boosting ) и пытаюсь понять, как / почему мы можем аппроксимировать невязки с помощью шага наискорейшего спуска (также называемого псевдоградиентом). ). Кто-нибудь может дать мне интуицию о том, как...