Статистика и большие данные

9
Ожидание суммы K чисел без замены

Для заданных чисел, где значение каждого числа различно, обозначается как , и вероятность выбора каждого числа равна соответственно.nnnv1,v2,...,vnv1,v2,...,vnv_1, v_2, ..., v_np1,p2,...,pnp1,p2,...,pnp_1, p_2, ..., p_n Теперь, если я выберу чисел на основе заданных вероятностей, где , каково...

9
Смысл представления симплекса как поверхности треугольника в распределении Дирихле?

Я читаю из книги, которая представляет распределение Dirchilet, а затем представил цифры о нем. Но я не был в состоянии понять эти цифры. Я прикрепил рисунок здесь внизу. Чего я не понимаю, так это значения треугольников. Обычно, когда кто-то хочет построить функцию от 2 переменных, вы берете...

9
Как вы строите взаимодействие между фактором и непрерывным ковариатом?

Я хотел бы нарисовать на том же графике взаимодействие между моим постоянным предиктором и моим категорическим модератором. Я знаю, как это сделать, когда оба категориальны ( взаимодействие факторов ), но на самом деле не знаю, как это сделать, когда один непрерывен, а другой...

9
Можно ли использовать повторную выборку при начальной загрузке для вычисления доверительного интервала для дисперсии набора данных?

Я знаю, что если вы повторно отбираете данные из набора данных и каждый раз вычисляете среднее значение, эти средства будут следовать нормальному распределению (по CLT). Таким образом, вы можете рассчитать доверительный интервал по среднему значению набора данных, не делая никаких предположений о...

9
Применение регрессии гребня для недоопределенной системы уравнений?

Когда Y= Хβ+ еYзнак равноИксβ+еy = X\beta + e , задача наименьших квадратов, которая накладывает сферическое ограничение на значение может быть записана как для переопределенной системы. \ | \ cdot \ | _2 - евклидова норма вектора.δδ\deltaββ\betaмин ∥ у- Хβ∥22с . т .  ∥ β∥22≤ δ2мин⁡ | |Y-Иксβ|...

9
Почему линейная регрессия не способна предсказать исход простой детерминированной последовательности?

Мой коллега прислал мне эту проблему, очевидно, делая обходы в Интернете: If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ? Ответ, кажется, 200. 3*6 4*8 5*10 6*12 7*14 8*16 9*18 10*20=200 Когда я делаю линейную регрессию в R: data <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98)) lm1...

9
Странный способ вычисления хи-квадрат в Excel против R

Я смотрю на лист Excel, в котором утверждается, что он вычисляет , но я не знаю, как это сделать, и мне было интересно, если я что-то упустил.χ2χ2\chi^2 Вот данные, которые он анализирует: +------------------+----------+----------+ | Total Population | Observed | Expected |...

9
Включение более подробных объяснительных переменных с течением времени

Я пытаюсь понять, как мне лучше всего смоделировать переменную, где со временем я получаю все более детальные предсказатели. Например, рассмотрим моделирование ставок восстановления по просроченным кредитам. Предположим, у нас есть набор данных с данными за 20 лет, и за первые 15 из этих лет мы...

9
Должен ли я сообщать достоверные интервалы вместо доверительных интервалов?

Наткнувшись на концепцию в учебнике по статистике, я попытался обдумать это и, наконец, пришел к выводу, который, по-видимому, соответствует всем объяснениям, которые я видел до сих пор: достоверный интервал - это то, что, по мнению статистиков, является достоверным интервал есть. Отступление для...

9
Как оценка максимального правдоподобия имеет приблизительное нормальное распределение?

Я читал о MLE как о методе создания подобранного распределения. Я натолкнулся на утверждение о том, что оценки максимального правдоподобия «имеют приблизительное нормальное распределение». Означает ли это, что если я буду применять MLE несколько раз к своим данным и семейству дистрибутивов, к...

9
Интуиция о совместной энтропии

У меня проблемы с построением некоторой интуиции о совместной энтропии. = неопределенность в совместном распределении ; = неопределенность в ; = неопределенность в .p ( x , y ) H ( X ) p x ( x ) H ( Y ) p y ( y )ЧАС( Х, Y)ЧАС(Икс,Y)H(X,Y)р ( х , у)п(Икс,Y)p(x,y)ЧАС( Х)ЧАС(Икс)H(X)пИкс( х...

9
Установка изменяющегося во времени коэффициента DLM

Я хочу приспособить DLM с изменяющимися во времени коэффициентами, то есть расширением к обычной линейной регрессии, .YT= θ1+ θ2Икс2YTзнак равноθ1+θ2Икс2y_t = \theta_1 + \theta_2x_2 У меня есть предиктор ( ) и переменная отклика ( y t ), ежегодный морской и внутренний вылов рыбы соответственно с...

9
R обнаружить увеличение / уменьшение тренда временных рядов

У меня много временных рядов с периодами: день, неделя или месяц. С помощью stl()функции или с помощью loess(x ~ y)я могу видеть, как выглядят тренды определенного временного ряда. Мне нужно определить, увеличивается или уменьшается тренд временного ряда. Как я могу справиться с этим? Я попытался...

9
Предельное значение расстояния Кука

Я читал на расстоянии повара, чтобы определить выбросы, которые имеют большое влияние на мою регрессию. В оригинальном исследовании Кука он говорит, что уровень отсечки 1 должен быть сопоставим для выявления влияющих факторов. Тем не менее, различные другие исследования используют или в качестве...

9
Почему 0,05 <p <0,95 результатов называют ложноположительными?

Редактировать: основа моего вопроса ошибочна, и мне нужно потратить некоторое время на выяснение того, можно ли вообще сделать это, чтобы иметь смысл. Редактировать 2: Уточняя, что я признаю, что значение p не является прямой мерой вероятности нулевой гипотезы, но я предполагаю, что чем ближе...

9
Смещение оптимизма - оценки ошибки прогноза

В книге «Элементы статистического обучения» (доступно в формате PDF онлайн) обсуждается предвзятость (7.21, стр. 229). В нем говорится, что смещение оптимизма - это разница между ошибкой обучения и ошибкой в ​​выборке (ошибка наблюдается, если мы выбираем новые значения результатов в каждой из...

9
Эквивалентность AIC и p-значений при выборе модели

В комментарии к ответу на этот вопрос было указано, что использование AIC при выборе модели эквивалентно использованию значения p 0,154. Я попробовал это в R, где я использовал «обратный» алгоритм выбора подмножества, чтобы выбросить переменные из полной спецификации. Во-первых, путем...

9
Пример CLT, когда моменты не существуют

РассмотримXn=⎧⎩⎨1−12kw.p. (1−2−n)/2w.p. (1−2−n)/2w.p. 2−k for k>nXn={1w.p. (1−2−n)/2−1w.p. (1−2−n)/22kw.p. 2−k for k>nX_n = \begin{cases} 1 & \text{w.p. } (1 - 2^{-n})/2\\ -1 & \text{w.p. } (1 - 2^{-n})/2\\ 2^k & \text{w.p. } 2^{-k} \text{ for } k > n\\ \end{cases} Мне нужно показать, что,...