Статистика и большие данные

9

Для заданных чисел, где значение каждого числа различно, обозначается как , и вероятность выбора каждого числа равна соответственно.nnnv1,v2,...,vnv1,v2,...,vnv_1, v_2, ..., v_np1,p2,...,pnp1,p2,...,pnp_1, p_2, ..., p_n Теперь, если я выберу чисел на основе заданных вероятностей, где , каково...

probability

9

Смысл представления симплекса как поверхности треугольника в распределении Дирихле?

Я читаю из книги, которая представляет распределение Dirchilet, а затем представил цифры о нем. Но я не был в состоянии понять эти цифры. Я прикрепил рисунок здесь внизу. Чего я не понимаю, так это значения треугольников. Обычно, когда кто-то хочет построить функцию от 2 переменных, вы берете...

distributions data-visualization dirichlet-distribution

9

Как вы строите взаимодействие между фактором и непрерывным ковариатом?

Я хотел бы нарисовать на том же графике взаимодействие между моим постоянным предиктором и моим категорическим модератором. Я знаю, как это сделать, когда оба категориальны ( взаимодействие факторов ), но на самом деле не знаю, как это сделать, когда один непрерывен, а другой...

data-visualization categorical-data interaction continuous-data

9

Можно ли использовать повторную выборку при начальной загрузке для вычисления доверительного интервала для дисперсии набора данных?

Я знаю, что если вы повторно отбираете данные из набора данных и каждый раз вычисляете среднее значение, эти средства будут следовать нормальному распределению (по CLT). Таким образом, вы можете рассчитать доверительный интервал по среднему значению набора данных, не делая никаких предположений о...

distributions confidence-interval bootstrap resampling

9

Применение регрессии гребня для недоопределенной системы уравнений?

Когда Y= Хβ+ еYзнак равноИксβ+еy = X\beta + e , задача наименьших квадратов, которая накладывает сферическое ограничение на значение может быть записана как для переопределенной системы. \ | \ cdot \ | _2 - евклидова норма вектора.δδ\deltaββ\betaмин ∥ у- Хβ∥22с . т . ∥ β∥22≤ δ2мин⁡ | |Y-Иксβ|...

regression least-squares regularization ridge-regression underdetermined

9

Почему линейная регрессия не способна предсказать исход простой детерминированной последовательности?

Мой коллега прислал мне эту проблему, очевидно, делая обходы в Интернете: If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ? Ответ, кажется, 200. 3*6 4*8 5*10 6*12 7*14 8*16 9*18 10*20=200 Когда я делаю линейную регрессию в R: data <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98)) lm1...

r regression lm

9

Странный способ вычисления хи-квадрат в Excel против R

Я смотрю на лист Excel, в котором утверждается, что он вычисляет , но я не знаю, как это сделать, и мне было интересно, если я что-то упустил.χ2χ2\chi^2 Вот данные, которые он анализирует: +------------------+----------+----------+ | Total Population | Observed | Expected |...

r chi-squared excel

9

Включение более подробных объяснительных переменных с течением времени

Я пытаюсь понять, как мне лучше всего смоделировать переменную, где со временем я получаю все более детальные предсказатели. Например, рассмотрим моделирование ставок восстановления по просроченным кредитам. Предположим, у нас есть набор данных с данными за 20 лет, и за первые 15 из этих лет мы...

regression missing-data

9

Должен ли я сообщать достоверные интервалы вместо доверительных интервалов?

Наткнувшись на концепцию в учебнике по статистике, я попытался обдумать это и, наконец, пришел к выводу, который, по-видимому, соответствует всем объяснениям, которые я видел до сих пор: достоверный интервал - это то, что, по мнению статистиков, является достоверным интервал есть. Отступление для...

confidence-interval methodology credible-interval

9

Как оценка максимального правдоподобия имеет приблизительное нормальное распределение?

Я читал о MLE как о методе создания подобранного распределения. Я натолкнулся на утверждение о том, что оценки максимального правдоподобия «имеют приблизительное нормальное распределение». Означает ли это, что если я буду применять MLE несколько раз к своим данным и семейству дистрибутивов, к...

normal-distribution estimation maximum-likelihood

9

Интуиция о совместной энтропии

У меня проблемы с построением некоторой интуиции о совместной энтропии. = неопределенность в совместном распределении ; = неопределенность в ; = неопределенность в .p ( x , y ) H ( X ) p x ( x ) H ( Y ) p y ( y )ЧАС( Х, Y)ЧАС(Икс,Y)H(X,Y)р ( х , у)п(Икс,Y)p(x,y)ЧАС( Х)ЧАС(Икс)H(X)пИкс( х...

information-theory mutual-information

9

Установка изменяющегося во времени коэффициента DLM

Я хочу приспособить DLM с изменяющимися во времени коэффициентами, то есть расширением к обычной линейной регрессии, .YT= θ1+ θ2Икс2YTзнак равноθ1+θ2Икс2y_t = \theta_1 + \theta_2x_2 У меня есть предиктор ( ) и переменная отклика ( y t ), ежегодный морской и внутренний вылов рыбы соответственно с...

r regression time-series dlm dynamic-regression

9

R обнаружить увеличение / уменьшение тренда временных рядов

У меня много временных рядов с периодами: день, неделя или месяц. С помощью stl()функции или с помощью loess(x ~ y)я могу видеть, как выглядят тренды определенного временного ряда. Мне нужно определить, увеличивается или уменьшается тренд временного ряда. Как я могу справиться с этим? Я попытался...

r time-series trend

9

Предельное значение расстояния Кука

Я читал на расстоянии повара, чтобы определить выбросы, которые имеют большое влияние на мою регрессию. В оригинальном исследовании Кука он говорит, что уровень отсечки 1 должен быть сопоставим для выявления влияющих факторов. Тем не менее, различные другие исследования используют или в качестве...

outliers cooks-distance

9

Почему 0,05 <p <0,95 результатов называют ложноположительными?

Редактировать: основа моего вопроса ошибочна, и мне нужно потратить некоторое время на выяснение того, можно ли вообще сделать это, чтобы иметь смысл. Редактировать 2: Уточняя, что я признаю, что значение p не является прямой мерой вероятности нулевой гипотезы, но я предполагаю, что чем ближе...

hypothesis-testing p-value

9

Могут ли полные условия определить совместное распределение?

Я слышал, что все полные условия (используемые в выборке Гиббса) могут определять совместное распределение. Но я не понимаю, почему и как. Или я не слышал?

distributions

9

Смещение оптимизма - оценки ошибки прогноза

В книге «Элементы статистического обучения» (доступно в формате PDF онлайн) обсуждается предвзятость (7.21, стр. 229). В нем говорится, что смещение оптимизма - это разница между ошибкой обучения и ошибкой в выборке (ошибка наблюдается, если мы выбираем новые значения результатов в каждой из...

error bias validation

9

Выбор количества разреженных главных компонентов для включения в регрессию

У кого-нибудь есть опыт подходов к выбору количества разреженных главных компонентов для включения в регрессионную

pca sparse regression-strategies

9

Эквивалентность AIC и p-значений при выборе модели

В комментарии к ответу на этот вопрос было указано, что использование AIC при выборе модели эквивалентно использованию значения p 0,154. Я попробовал это в R, где я использовал «обратный» алгоритм выбора подмножества, чтобы выбросить переменные из полной спецификации. Во-первых, путем...

model-selection p-value aic

9

Пример CLT, когда моменты не существуют

РассмотримXn=⎧⎩⎨1−12kw.p. (1−2−n)/2w.p. (1−2−n)/2w.p. 2−k for k>nXn={1w.p. (1−2−n)/2−1w.p. (1−2−n)/22kw.p. 2−k for k>nX_n = \begin{cases} 1 & \text{w.p. } (1 - 2^{-n})/2\\ -1 & \text{w.p. } (1 - 2^{-n})/2\\ 2^k & \text{w.p. } 2^{-k} \text{ for } k > n\\ \end{cases} Мне нужно показать, что,...

probability self-study central-limit-theorem moments asymptotics