Статистика и большие данные

9
Вопрос об обратном взвешивании

Предположим, мы хотим сделать вывод о ненаблюдаемой реализации случайной величины , которая обычно распределяется со средним значением и дисперсией . Предположим, есть еще одна случайная переменная (ненаблюдаемая реализация которой мы аналогично назовем ), которая обычно имеет среднее значение и...

9
Статистическая теория обучения VS вычислительная теория обучения?

Каковы отношения и различия между статистической теорией обучения и вычислительной теорией обучения ? Они о той же теме? Решить те же проблемы и использовать те же методы? Например, первый говорит, что это теория предсказания (регрессия, классификация,...

9
Что такое адаптивная связка?

Мой основной вопрос: что такое адаптивная связка? У меня есть слайды из презентации (к сожалению, я не могу спросить автора слайдов) об адаптивных связках, и я не понимаю, что это означает, соответственно. для чего это хорошо? Вот слайды: Затем слайды продолжаются с тестом точки изменения. Мне...

9
Фурье / тригонометрическая интерполяция

Фон В статье Эпштейна (1991): При получении суточных климатологических значений из среднемесячных значений приводятся формулировка и алгоритм расчета интерполяции Фурье для периодических и равномерно распределенных значений. В статье цель состоит в том, чтобы получить ежедневные значения из...

9
Стремится ли скорректированный R-квадрат оценить фиксированную или случайную оценку популяции в квадрате?

Популяция r-квадрат может быть определена исходя из фиксированных или случайных оценок:ρ2ρ2\rho^2 Фиксированные оценки: размер выборки и конкретные значения предикторов остаются фиксированными. Таким образом, представляет собой долю дисперсии, объясняемой в результате уравнением регрессии...

9
Коэффициенты шансов в логистической регрессии

У меня трудности с пониманием одного объяснения логистической регрессии. Логистический регресс находится между температурой и рыбой, которая умирает или не умирает. Наклон логистической регрессии составляет 1,76. Тогда вероятность того, что рыба погибнет, увеличится в разы до exp (1,76) = 5,8....

9
Гауссовская проблема регрессии игрушек

Я пытался получить некоторую интуицию для регрессии Гауссова процесса, поэтому я сделал простую 1D игрушечную задачу, чтобы попробовать. Я взял в качестве входных данных, а y i = { 1 , 4 , 9 } в качестве ответов. («Вдохновленный» от y = x 2 )Икся= { 1 , 2 , 3 }xi={1,2,3}x_i=\{1,2,3\}Yя= { 1 , 4 , 9...

9
Как единообразный априор приводит к одинаковым оценкам по максимальной вероятности и моде апостериорного?

Я изучаю различные методы оценки по точкам и читаю, что при использовании оценок MAP и ML, когда мы используем «единообразный априор», оценки идентичны. Может ли кто-нибудь объяснить, что такое «равномерный» априор, и привести несколько (простых) примеров, когда оценки MAP и ML будут...

9
Почему квадратный корень взят для выборки «N» в формуле стандартного отклонения?

Я пытаюсь понять очень основную концепцию стандартного отклонения. Из формулыσ=∑i=1n(xi−μ)2N−−−−−−−−−−⎷σ=∑i=1n(xi−μ)2N\sigma= \sqrt{ \dfrac{ \sum\limits_{i=1}^n (x_i-\mu)^2} N } Я не могу понять, почему мы должны вдвое сократить население "N", то есть, почему мы хотим взять когда мы не делали ?...

9
Как лучше всего обрабатывать подсчета в мета-анализе?

Я провожу мета-анализ величин эффекта d в R с использованием пакета metafor. d представляет различия в показателях памяти между пациентами и здоровыми. Однако в некоторых исследованиях сообщается только о подсчетах интересующей меры d (например, несколько разных показателей памяти или оценки трех...

9
Если у меня много положительных, незначительных результатов, могу ли я проверить «хотя бы

Допустим, я провел одну и ту же регрессию для 100 разных людей по отдельности. Мои коэффициенты интереса положительны (и весьма отличаются друг от друга), но статистически незначимы во всех 100 результатах (скажем, каждое значение p = 0,11). Есть ли способ объединить эти p-значения, чтобы сделать...

9
Термин взаимодействия с использованием центрированных переменных иерархического регрессионного анализа? Какие переменные мы должны центрировать?

Я провожу анализ иерархической регрессии, и у меня есть несколько небольших сомнений: Мы вычисляем член взаимодействия, используя центрированные переменные? Нужно ли центрировать ВСЕ непрерывные переменные, которые есть в наборе данных, кроме зависимой переменной? Когда мы должны регистрировать...

9
LDA против персептрона

Я пытаюсь понять, как LDA «вписывается» в другие контролируемые методы обучения. Я уже прочитал некоторые из сообщений LDA-esque здесь о LDA. Я уже знаком с персептроном, но сейчас изучаю LDA. Как LDA «вписывается» в семейство контролируемых алгоритмов обучения? Каковы могут быть его недостатки по...

9
R / Caret: обучающие и тестовые наборы против перекрестной проверки?

Это может быть, возможно, глупый вопрос, но при создании модели с каретой и использовании чего-то вроде LOOCVили (даже более точно) LGOCV, какая польза от разделения данных на наборы обучающих и тестовых наборов, если это, по сути, шаг перекрестной проверки в любом случае? Я прочитал некоторые из...

9
Добавление весов для сильно искаженных наборов данных в логистической регрессии

Я использую стандартную версию логистической регрессии для подгонки моих входных переменных к двоичным выходным переменным. Однако в моей задаче отрицательные выходы (0 с) намного превосходят положительные (1 с). Соотношение составляет 20: 1. Поэтому, когда я обучаю классификатор, кажется, что даже...

9
AIC, ошибка anova: модели не все соответствуют одному и тому же количеству наблюдений, модели не все соответствуют одному и тому же размеру набора данных

У меня есть такие модели: require(nlme) set.seed(123) n <- 100 k <- 5 cat <- as.factor(rep(1:k, n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, each = k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) m1 <- lm(y ~ x)...

9
Использование процентилей в качестве предикторов - хорошая идея?

Я думаю о проблеме, которая заключается в прогнозировании журнала (расходов) клиента с использованием линейной регрессии. Я рассматриваю, какие функции использовать в качестве входных данных, и задаюсь вопросом, будет ли нормально использовать процентиль переменной в качестве входных данных....

9
Путаница, связанная с выборкой Гиббса

Я наткнулся на эту статью, где говорится, что в выборке Гиббса принимается каждый образец. Я немного смущен. Как получится, если каждый принятый образец сходится к стационарному распределению. В общем Алгоритм Метрополиса мы принимаем как min (1, p (x *) / p (x)), где x * - точка выборки. Я...

9
Хорошие, полезные и характерные эксперименты для (оптимального) статистического планирования экспериментов

Существует больше явлений, к которым может быть применен экспериментальный дизайн, чем альтернативных допустимых стратегий проектирования. Это должно быть правдой, хотя есть много способов правильно спланировать эксперимент. Каковы лучшие «проблемы», которые действительно демонстрируют ценность и...

9
Как измерить производительность классификатора, когда почти 100% меток класса принадлежат одному классу?

В моих данных, у меня есть переменная класса, обозначенная как . Значения переменных этого класса: (двоичные). Почти все наблюдения равны 0 (близко к 100%, точнее 97%). Я хотел бы провести тест производительности на разных классификационных моделях (это может быть точность). Чего я боюсь, так это...