Статистика и большие данные

9

Учитывая две поглощающие цепи Маркова, какова вероятность того, что одна из них прервется раньше другой?

У меня есть две разные цепи Маркова, каждая с одним поглощающим состоянием и известной стартовой позицией. Я хочу определить вероятность того, что цепь 1 достигнет поглощающего состояния за меньшее количество шагов, чем цепь 2. Я думаю, что могу вычислить вероятность достижения поглощающего...

probability markov-chain transition-matrix

9

Согласование деревьев ускоренной регрессии (BRT), обобщенных расширенных моделей (GBM) и машины повышения градиента (GBM)

Вопросов: В чем разница (ы) между деревьями регрессионного усиления (BRT) и обобщенными моделями (GBM)? Могут ли они быть взаимозаменяемыми? Является ли одна конкретная форма другой? Почему Риджуэй использовал фразу «Обобщенные модели ускоренной регрессии» (GBM), чтобы описать то, что Фридман ранее...

machine-learning boosting gbm

9

Как использовать anova для сравнения двух моделей?

Как понимать anovaрезультат при сравнении двух моделей? Пример: Res.Df RSS Df Sum of Sq F Pr(>F) 1 9 54.032 2 7 4.632 2 49.4 37.329 0.0001844 *** На странице руководства указано: «Вычислить таблицы отклонений (или отклонений) для одного или нескольких подходящих объектов модели». Однако наш...

r regression anova

9

Почему обратное исключение оправдано при множественной регрессии?

Не приводит ли это к переоснащению? Могут ли мои результаты быть более надежными, если я добавлю процедуру «домкрат» или процедуру начальной загрузки как часть...

multiple-regression bootstrap reliability overfitting jackknife

9

Почему оценки основных компонентов некоррелированы?

Supose - это матрица среднецентрированных данных. Матрица равна , имеет различных собственных значений и собственные векторы , ... , которые являются ортогональными.S = cov ( A ) m × m m s 1 s 2 s mAA\mathbf AS=cov(A)S=cov(A)\mathbf S=\text{cov}(\mathbf A)m×mm×mm\times mmmms1s1\mathbf...

correlation pca linear-algebra

9

При использовании SVM зачем мне масштабировать функции?

Согласно документации объекта StandardScaler в scikit-learn: Например, многие элементы, используемые в целевой функции алгоритма обучения (например, ядро RBF машин опорных векторов или регуляризаторы L1 и L2 линейных моделей), предполагают, что все объекты сосредоточены вокруг 0 и имеют...

machine-learning svm standard-deviation mean references

9

Схемы альтернативного взвешивания для мета-анализа случайных эффектов: отсутствуют стандартные отклонения

Я работаю над метаанализом случайных эффектов, охватывающим ряд исследований, в которых не сообщается о стандартных отклонениях; все исследования указывают размер выборки. Я не верю, что можно приблизить или приписать отсутствующие данные SD. Как метаанализ, который использует сырые (нестандартные)...

stata missing-data meta-analysis meta-regression

9

Пакет Metafor: диагностика смещения и чувствительности

Я провожу многоуровневый метаанализ, который включает несколько статей с несколькими результатами. Поэтому я использую rma.mv()функцию. Пример кода: test.main = rma.mv(yi,vi,random = ~1|ID, data = data) У меня есть два вопроса: Я прочитал в предыдущем запросе , что при использовании rma.mv(),...

meta-analysis sensitivity-analysis publication-bias funnel-plot

9

Как применить регрессию к основным компонентам для прогнозирования выходной переменной?

Я прочитал об основах анализа основных компонентов из учебника 1 , ссылки 1 и ссылки 2 . У меня есть набор данных из 100 переменных (включая выходную переменную Y), я хочу уменьшить переменные до 40 с помощью PCA, а затем предсказать переменную Y, используя эти 40 переменных. Проблема 1: После...

regression pca

9

Что такое «параметр компонента дисперсии» в модели смешанного эффекта?

На странице 12 книги Бейтса о модели смешанного эффекта он описывает модель следующим образом: В конце скриншота он упоминает коэффициент относительной ковариации , зависящий от параметра дисперсионной составляющей , θΛθΛθ\Lambda_{\theta}θθ\theta не объясняя, что именно отношения. Скажем , нам...

mixed-model references multilevel-analysis

9

Оценка многоуровневых моделей логистической регрессии

Следующая многоуровневая логистическая модель с одной пояснительной переменной на уровне 1 (индивидуальный уровень) и одной пояснительной переменной на уровне 2 (групповой уровень): π 0 j = γ 00 + γ 01 z j + u 0 j … ( 2 ) π 1 j = γ 10 + γ 11 z j + u 1 j … ( 3 )логит ( ря ж) = π0 Дж+ π1 JИкся ж… ( 1...

r logistic generalized-linear-model simulation multilevel-analysis

9

Если все 1000 тестируемых пациентов не излечиваются препаратом, разве мы не можем сказать, что принимаем нулевую гипотезу?

Во многих местах я читал, что мы никогда не можем сказать, что мы «принимаем» нулевую гипотезу. Вместо этого мы должны сказать, что мы «не можем отвергнуть» нулевую гипотезу. Но я не вижу, как это согласуется с этим простым примером: предположим, мы тестируем лекарство, которое должно полностью...

hypothesis-testing

9

Альтернативы для критерия хи-квадрат на независимость для таблиц более 2 х 2

Каковы некоторые альтернативы критерию хи-квадрат для категориальных переменных с таблицами больше 2 x 2 и ячейками с числом меньше 5, если я не хочу объединять...

chi-squared fishers-exact

9

Укрощение перекоса ... Почему так много перекосов?

Я надеюсь получить более полное представление о четырех типах перекоса этого сообщества. Типы, на которые я ссылаюсь, упоминаются на странице помощи http://www.inside-r.org/packages/cran/e1071/docs/skewness . Старый метод не был упомянут на странице справки, но я все же включаю его....

skewness

9

Обратная функция дисперсии

Можно ли найти заданное распределение вероятностей для заданного постоянного числа rrr (например, 4) для XXX , чтобы Var(X)=rVar(X)=r\mathrm{Var}(X)=r

distributions mathematical-statistics variance

9

Меняется ли распределение вероятности урны, когда вы извлекаете ее без замены в среднем?

Предположим, у меня есть урна, содержащая N различных цветов шаров, и каждый другой цвет может появляться разное количество раз (если есть 10 красных шаров, то также не обязательно должно быть 10 синих шаров). Если мы знаем точное содержимое урны до рисования, мы можем сформировать дискретное...

probability discrete-data distributions

9

Когда неправильные линейные модели становятся очень красивыми?

Вопросов: Используются ли ненадлежащие линейные модели на практике, или же они время от времени описываются любопытством в научных журналах? Если да, то в каких областях они используются? Есть ли другие примеры таких моделей? Наконец, будут ли правильные стандартные ошибки, , R 2 и т. Д., Взятые из...

regression references linear-model robust

9

Какой хороший способ графического представления очень большого количества парных точек данных?

В моей области обычным способом построения парных данных является серия тонких наклонных отрезков, накладывающих их на медиану и КИ медианы для двух групп: Однако этот тип графика становится намного сложнее для чтения, так как количество точек данных становится очень большим (в моем случае у меня...

generalized-linear-model data-visualization modeling interpretation paired-data

9

Как повышение градиента, как градиентный спуск?

Я читаю полезную статью в Википедии о повышении градиента ( https://en.wikipedia.org/wiki/Gradient_boosting ) и пытаюсь понять, как / почему мы можем аппроксимировать невязки с помощью шага наискорейшего спуска (также называемого псевдоградиентом). ). Кто-нибудь может дать мне интуицию о том, как...

self-study gradient-descent

9

Что такое VectorSource и VCorpus в пакете 'tm' (Text Mining) в R

Я не совсем уверен, что именно VectorSource и VCorpus находятся в пакете 'tm'. Документация по ним неясна, кто-нибудь может заставить меня понять в простых

r text-mining