Статистика и большие данные

9
Вероятно, что образец начальной загрузки точно такой же, как и исходный.

Просто хочу проверить некоторые рассуждения. Если мой исходный образец имеет размер и я загружаю его, то мой мыслительный процесс выглядит следующим образом:Nnn n-11N1n\frac{1}{n} - это шанс любого наблюдения, взятого из исходного образца. Чтобы гарантировать, что следующая ничья не является ранее...

9
Линейная регрессия: * Почему * вы можете разделить суммы квадратов?

Этот пост относится к двумерной модели линейной регрессии, . Я всегда брал разбиение общей суммы квадратов (SSTO) на сумму квадратов для ошибки (SSE) и суммы квадратов для модели (SSR) по вере, но как только я действительно начал думать об этом, я не понимаю почему это работает...

9
Имитация линейной регрессии с гетероскедастичностью

Я пытаюсь смоделировать набор данных, который соответствует имеющимся у меня эмпирическим данным, но я не уверен, как оценить ошибки в исходных данных. Эмпирические данные включают гетероскедастичность, но я не заинтересован в ее преобразовании, а скорее использую линейную модель с ошибочным...

9
Генерация случайных чисел из «наклонного равномерного распределения» из математической теории

Для каких-то целей мне нужно генерировать случайные числа (данные) из распределения "наклонной формы". «Наклон» этого распределения может изменяться в некотором разумном интервале, и тогда мое распределение должно измениться с равномерного на треугольное в зависимости от наклона. Вот мой вывод:...

9
Почему я не могу получить действительный SVD X через разложение по собственным значениям XX 'и X'X?

Я пытаюсь сделать SVD вручную: m<-matrix(c(1,0,1,2,1,1,1,0,0),byrow=TRUE,nrow=3) U=eigen(m%*%t(m))$vector V=eigen(t(m)%*%m)$vector D=sqrt(diag(eigen(m%*%t(m))$values)) U1=svd(m)$u V1=svd(m)$v D1=diag(svd(m)$d) U1%*%D1%*%t(V1) U%*%D%*%t(V) Но последняя строка не возвращается mобратно. Почему?...

9
Когда использовать модель гауссовой смеси?

Я новичок в использовании GMM. Я не смог найти подходящей помощи онлайн. Может ли кто-нибудь предоставить мне правильный ресурс "Как решить, подходит ли использование GMM для моей проблемы?" или в случае проблем классификации "Как решить, должен ли я использовать классификацию SVM или классификацию...

9
Почему в статьях редко сообщается, какой тип квадратов используется в результатах Anova?

Исходя из моего небольшого опыта в области статистики, кажется, что тип сумм квадратов (типа I, II, III, IV ...), используемых для получения результатов ANOVA, может существенно изменить результаты теста (особенно моделей с взаимодействиями и отсутствующими данные). Однако я еще не видел бумаги,...

9
Ниже, чем ожидалось, охват для важности выборки с моделированием

Я пытался ответить на вопрос Оценка интеграла Важность метода отбора проб в R . В основном, пользователь должен рассчитать ∫π0f(x)dx=∫π01cos(x)2+x2dx∫0πf(x)dx=∫0π1cos⁡(x)2+x2dx\int_{0}^{\pi}f(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}dx используя экспоненциальное распределение в качестве...

9
Как лучше всего оценить средний эффект лечения в продольном исследовании?

В продольном исследовании результаты YitYяTY_{it} единиц iяi многократно измеряются в моменты времени tTt с общим числом фиксированных измерений mмm (фиксированные = измерения в единицах измерения проводятся одновременно). Единицы случайным образом назначаются либо на лечение, G=1гзнак равно1G=1 ,...

9
Как я могу выделить шумные участки во временном ряду?

У меня есть много данных временных рядов - уровни воды и скорости против времени. Это результат моделирования гидравлической модели. В качестве части процесса проверки, чтобы подтвердить, что модель работает должным образом, я должен построить каждый временной ряд, чтобы убедиться, что в данных нет...

9
Обучение нейронной сети для регрессии всегда предсказывает среднее

Я тренирую простую сверточную нейронную сеть для регрессии, где задача состоит в том, чтобы предсказать (x, y) расположение блока на изображении, например: Выход сети имеет два узла, один для х, а другой для у. Остальная часть сети является стандартной сверточной нейронной сетью. Потеря...

9
Статистический вывод при неправильной спецификации модели

У меня есть общий методологический вопрос. Возможно, ответили раньше, но я не могу найти соответствующую ветку. Я буду признателен за указатели на возможные дубликаты. ( Вот превосходный, но без ответа. Это также похоже по духу, даже с ответом, но последний слишком конкретен с моей точки зрения....

9
Вероятность независимого пуассоновского процесса, обгоняющего другого

Я задавал этот вопрос раньше другим способом на других биржах стека, так что извините за некоторый репост. Я спрашивал своего профессора и пару аспирантов без какого-либо однозначного ответа. Сначала я сообщу о проблеме, затем о моем потенциальном решении и о проблеме с моим решением, извините за...

9
Нормально распределенные ошибки и центральная предельная теорема

Во Вводной эконометрике Вулдриджа есть цитата: Аргумент, оправдывающий нормальное распределение ошибок, обычно выполняется примерно так: поскольку является суммой многих ненаблюдаемых факторов, влияющих на , мы можем вызвать центральную предельную теорему, чтобы заключить, что имеет приблизительное...

9
Как могут быть возможны проценты, не суммирующие до ста?

Я читал эту статью об аквапонике, и некоторые статистические данные не имели никакого смысла в отношении перечисленных процентов. Какой метод позволит этим процентам существовать? Наиболее часто растущими водными животными в процентах были тилапия (69%), декоративные рыбы (43%), сом (25%), другие...

9
Каково практическое значение альфы в GLM с гамма-семейством?

Я подгоняю несколько моделей формы .. glm(DV ~ I(1/IV), family = Gamma(link = "log") .. и ищу способы сравнить модели, полученные для разных переменных. Мне интересно, имеет ли значение альфа какое-либо практическое применение? Для трех графиков ниже значения альфа 17,85, 9,03 и 6,27. Содержат ли...

9
PCA слишком медленный, когда оба n, p большие: альтернативы?

Настройка проблемы У меня есть данные (изображения) высокой размерности (4096), которые я пытаюсь визуализировать в 2D. С этой целью я использую t-sne способом, подобным следующему примеру кода Karpathy . Документация Scikit-Learn рекомендует использовать PCA, чтобы сначала уменьшить размерность...

9
Как мне интерпретировать кривую выживания модели риска Кокса?

Как вы интерпретируете кривую выживания из модели пропорционального риска Кокса? В этом игрушечном примере предположим, что у нас есть модель пропорционального риска Кокса для ageпеременной в kidneyданных, и сгенерируем кривую выживания. library(survival) fit <- coxph(Surv(time, status)~age,...

9
Становится ли Наивный Байес более популярным? Почему?

Это результат Google трендов, полученный для фразы «Наивный Байес» с января 2004 года по апрель 2017 года ( ссылка ). Согласно этой цифре, коэффициент поиска «Наивный байесовский» в апреле 2017 года примерно на 25% выше максимума за весь период времени. Означает ли это, что этот простой и старый...