Статистика и большие данные

9

Предположим, мы хотим сделать вывод о ненаблюдаемой реализации случайной величины , которая обычно распределяется со средним значением и дисперсией . Предположим, есть еще одна случайная переменная (ненаблюдаемая реализация которой мы аналогично назовем ), которая обычно имеет среднее значение и...

meta-analysis

9

Статистическая теория обучения VS вычислительная теория обучения?

Каковы отношения и различия между статистической теорией обучения и вычислительной теорией обучения ? Они о той же теме? Решить те же проблемы и использовать те же методы? Например, первый говорит, что это теория предсказания (регрессия, классификация,...

machine-learning statistical-learning artificial-intelligence

9

Что такое адаптивная связка?

Мой основной вопрос: что такое адаптивная связка? У меня есть слайды из презентации (к сожалению, я не могу спросить автора слайдов) об адаптивных связках, и я не понимаю, что это означает, соответственно. для чего это хорошо? Вот слайды: Затем слайды продолжаются с тестом точки изменения. Мне...

data-visualization copula

9

Фурье / тригонометрическая интерполяция

Фон В статье Эпштейна (1991): При получении суточных климатологических значений из среднемесячных значений приводятся формулировка и алгоритм расчета интерполяции Фурье для периодических и равномерно распределенных значений. В статье цель состоит в том, чтобы получить ежедневные значения из...

r interpolation fourier-transform

9

Стремится ли скорректированный R-квадрат оценить фиксированную или случайную оценку популяции в квадрате?

Популяция r-квадрат может быть определена исходя из фиксированных или случайных оценок:ρ2ρ2\rho^2 Фиксированные оценки: размер выборки и конкретные значения предикторов остаются фиксированными. Таким образом, представляет собой долю дисперсии, объясняемой в результате уравнением регрессии...

regression estimation r-squared

9

Коэффициенты шансов в логистической регрессии

У меня трудности с пониманием одного объяснения логистической регрессии. Логистический регресс находится между температурой и рыбой, которая умирает или не умирает. Наклон логистической регрессии составляет 1,76. Тогда вероятность того, что рыба погибнет, увеличится в разы до exp (1,76) = 5,8....

logistic odds-ratio odds

9

Гауссовская проблема регрессии игрушек

Я пытался получить некоторую интуицию для регрессии Гауссова процесса, поэтому я сделал простую 1D игрушечную задачу, чтобы попробовать. Я взял в качестве входных данных, а y i = { 1 , 4 , 9 } в качестве ответов. («Вдохновленный» от y = x 2 )Икся= { 1 , 2 , 3 }xi={1,2,3}x_i=\{1,2,3\}Yя= { 1 , 4 , 9...

regression gaussian-process

9

Как единообразный априор приводит к одинаковым оценкам по максимальной вероятности и моде апостериорного?

Я изучаю различные методы оценки по точкам и читаю, что при использовании оценок MAP и ML, когда мы используем «единообразный априор», оценки идентичны. Может ли кто-нибудь объяснить, что такое «равномерный» априор, и привести несколько (простых) примеров, когда оценки MAP и ML будут...

machine-learning probability bayesian estimation maximum-likelihood

9

Почему квадратный корень взят для выборки «N» в формуле стандартного отклонения?

Я пытаюсь понять очень основную концепцию стандартного отклонения. Из формулыσ=∑i=1n(xi−μ)2N−−−−−−−−−−⎷σ=∑i=1n(xi−μ)2N\sigma= \sqrt{ \dfrac{ \sum\limits_{i=1}^n (x_i-\mu)^2} N } Я не могу понять, почему мы должны вдвое сократить население "N", то есть, почему мы хотим взять когда мы не делали ?...

standard-deviation

9

Как лучше всего обрабатывать подсчета в мета-анализе?

Я провожу мета-анализ величин эффекта d в R с использованием пакета metafor. d представляет различия в показателях памяти между пациентами и здоровыми. Однако в некоторых исследованиях сообщается только о подсчетах интересующей меры d (например, несколько разных показателей памяти или оценки трех...

r meta-analysis effect-size meta-regression

9

Если у меня много положительных, незначительных результатов, могу ли я проверить «хотя бы

Допустим, я провел одну и ту же регрессию для 100 разных людей по отдельности. Мои коэффициенты интереса положительны (и весьма отличаются друг от друга), но статистически незначимы во всех 100 результатах (скажем, каждое значение p = 0,11). Есть ли способ объединить эти p-значения, чтобы сделать...

hypothesis-testing multiple-comparisons

9

Термин взаимодействия с использованием центрированных переменных иерархического регрессионного анализа? Какие переменные мы должны центрировать?

Я провожу анализ иерархической регрессии, и у меня есть несколько небольших сомнений: Мы вычисляем член взаимодействия, используя центрированные переменные? Нужно ли центрировать ВСЕ непрерывные переменные, которые есть в наборе данных, кроме зависимой переменной? Когда мы должны регистрировать...

interaction multicollinearity centering

9

LDA против персептрона

Я пытаюсь понять, как LDA «вписывается» в другие контролируемые методы обучения. Я уже прочитал некоторые из сообщений LDA-esque здесь о LDA. Я уже знаком с персептроном, но сейчас изучаю LDA. Как LDA «вписывается» в семейство контролируемых алгоритмов обучения? Каковы могут быть его недостатки по...

machine-learning classification discriminant-analysis supervised-learning

9

R / Caret: обучающие и тестовые наборы против перекрестной проверки?

Это может быть, возможно, глупый вопрос, но при создании модели с каретой и использовании чего-то вроде LOOCVили (даже более точно) LGOCV, какая польза от разделения данных на наборы обучающих и тестовых наборов, если это, по сути, шаг перекрестной проверки в любом случае? Я прочитал некоторые из...

r machine-learning cross-validation caret

9

Добавление весов для сильно искаженных наборов данных в логистической регрессии

Я использую стандартную версию логистической регрессии для подгонки моих входных переменных к двоичным выходным переменным. Однако в моей задаче отрицательные выходы (0 с) намного превосходят положительные (1 с). Соотношение составляет 20: 1. Поэтому, когда я обучаю классификатор, кажется, что даже...

regression logistic weighted-regression

9

AIC, ошибка anova: модели не все соответствуют одному и тому же количеству наблюдений, модели не все соответствуют одному и тому же размеру набора данных

У меня есть такие модели: require(nlme) set.seed(123) n <- 100 k <- 5 cat <- as.factor(rep(1:k, n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, each = k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) m1 <- lm(y ~ x)...

r mixed-model aic

9

Использование процентилей в качестве предикторов - хорошая идея?

Я думаю о проблеме, которая заключается в прогнозировании журнала (расходов) клиента с использованием линейной регрессии. Я рассматриваю, какие функции использовать в качестве входных данных, и задаюсь вопросом, будет ли нормально использовать процентиль переменной в качестве входных данных....

regression linear-model quantiles predictor

9

Путаница, связанная с выборкой Гиббса

Я наткнулся на эту статью, где говорится, что в выборке Гиббса принимается каждый образец. Я немного смущен. Как получится, если каждый принятый образец сходится к стационарному распределению. В общем Алгоритм Метрополиса мы принимаем как min (1, p (x *) / p (x)), где x * - точка выборки. Я...

mcmc gibbs metropolis-hastings

9

Хорошие, полезные и характерные эксперименты для (оптимального) статистического планирования экспериментов

Существует больше явлений, к которым может быть применен экспериментальный дизайн, чем альтернативных допустимых стратегий проектирования. Это должно быть правдой, хотя есть много способов правильно спланировать эксперимент. Каковы лучшие «проблемы», которые действительно демонстрируют ценность и...

experiment-design references optimal

9

Как измерить производительность классификатора, когда почти 100% меток класса принадлежат одному классу?

В моих данных, у меня есть переменная класса, обозначенная как . Значения переменных этого класса: (двоичные). Почти все наблюдения равны 0 (близко к 100%, точнее 97%). Я хотел бы провести тест производительности на разных классификационных моделях (это может быть точность). Чего я боюсь, так это...

classification binary-data model-evaluation