Статистика и большие данные

9

Вероятно, что образец начальной загрузки точно такой же, как и исходный.

Просто хочу проверить некоторые рассуждения. Если мой исходный образец имеет размер и я загружаю его, то мой мыслительный процесс выглядит следующим образом:Nnn n-11N1n\frac{1}{n} - это шанс любого наблюдения, взятого из исходного образца. Чтобы гарантировать, что следующая ничья не является ранее...

9

Линейная регрессия: * Почему * вы можете разделить суммы квадратов?

Этот пост относится к двумерной модели линейной регрессии, . Я всегда брал разбиение общей суммы квадратов (SSTO) на сумму квадратов для ошибки (SSE) и суммы квадратов для модели (SSR) по вере, но как только я действительно начал думать об этом, я не понимаю почему это работает...

regression sums-of-squares orthogonal

9

Имитация линейной регрессии с гетероскедастичностью

Я пытаюсь смоделировать набор данных, который соответствует имеющимся у меня эмпирическим данным, но я не уверен, как оценить ошибки в исходных данных. Эмпирические данные включают гетероскедастичность, но я не заинтересован в ее преобразовании, а скорее использую линейную модель с ошибочным...

r simulation heteroscedasticity gamlss dglm

9

Генерация случайных чисел из «наклонного равномерного распределения» из математической теории

Для каких-то целей мне нужно генерировать случайные числа (данные) из распределения "наклонной формы". «Наклон» этого распределения может изменяться в некотором разумном интервале, и тогда мое распределение должно измениться с равномерного на треугольное в зависимости от наклона. Вот мой вывод:...

r distributions python random-generation uniform

9

Почему я не могу получить действительный SVD X через разложение по собственным значениям XX 'и X'X?

Я пытаюсь сделать SVD вручную: m<-matrix(c(1,0,1,2,1,1,1,0,0),byrow=TRUE,nrow=3) U=eigen(m%*%t(m))$vector V=eigen(t(m)%*%m)$vector D=sqrt(diag(eigen(m%*%t(m))$values)) U1=svd(m)$u V1=svd(m)$v D1=diag(svd(m)$d) U1%*%D1%*%t(V1) U%*%D%*%t(V) Но последняя строка не возвращается mобратно. Почему?...

r svd eigenvalues

9

Когда использовать модель гауссовой смеси?

Я новичок в использовании GMM. Я не смог найти подходящей помощи онлайн. Может ли кто-нибудь предоставить мне правильный ресурс "Как решить, подходит ли использование GMM для моей проблемы?" или в случае проблем классификации "Как решить, должен ли я использовать классификацию SVM или классификацию...

classification svm gaussian-mixture generalized-moments

9

Почему в статьях редко сообщается, какой тип квадратов используется в результатах Anova?

Исходя из моего небольшого опыта в области статистики, кажется, что тип сумм квадратов (типа I, II, III, IV ...), используемых для получения результатов ANOVA, может существенно изменить результаты теста (особенно моделей с взаимодействиями и отсутствующими данные). Однако я еще не видел бумаги,...

regression anova manova reporting sums-of-squares

9

Ниже, чем ожидалось, охват для важности выборки с моделированием

Я пытался ответить на вопрос Оценка интеграла Важность метода отбора проб в R . В основном, пользователь должен рассчитать ∫π0f(x)dx=∫π01cos(x)2+x2dx∫0πf(x)dx=∫0π1cos⁡(x)2+x2dx\int_{0}^{\pi}f(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}dx используя экспоненциальное распределение в качестве...

r simulation exponential importance-sampling

9

Как лучше всего оценить средний эффект лечения в продольном исследовании?

В продольном исследовании результаты YitYяTY_{it} единиц iяi многократно измеряются в моменты времени tTt с общим числом фиксированных измерений mмm (фиксированные = измерения в единицах измерения проводятся одновременно). Единицы случайным образом назначаются либо на лечение, G=1гзнак равно1G=1 ,...

mixed-model panel-data multilevel-analysis random-effects-model fixed-effects-model

9

Как я могу выделить шумные участки во временном ряду?

У меня есть много данных временных рядов - уровни воды и скорости против времени. Это результат моделирования гидравлической модели. В качестве части процесса проверки, чтобы подтвердить, что модель работает должным образом, я должен построить каждый временной ряд, чтобы убедиться, что в данных нет...

time-series data-visualization change-point

9

Обучение нейронной сети для регрессии всегда предсказывает среднее

Я тренирую простую сверточную нейронную сеть для регрессии, где задача состоит в том, чтобы предсказать (x, y) расположение блока на изображении, например: Выход сети имеет два узла, один для х, а другой для у. Остальная часть сети является стандартной сверточной нейронной сетью. Потеря...

machine-learning neural-networks optimization deep-learning loss-functions

9

Статистический вывод при неправильной спецификации модели

У меня есть общий методологический вопрос. Возможно, ответили раньше, но я не могу найти соответствующую ветку. Я буду признателен за указатели на возможные дубликаты. ( Вот превосходный, но без ответа. Это также похоже по духу, даже с ответом, но последний слишком конкретен с моей точки зрения....

modeling inference misspecification

9

Вероятность независимого пуассоновского процесса, обгоняющего другого

Я задавал этот вопрос раньше другим способом на других биржах стека, так что извините за некоторый репост. Я спрашивал своего профессора и пару аспирантов без какого-либо однозначного ответа. Сначала я сообщу о проблеме, затем о моем потенциальном решении и о проблеме с моим решением, извините за...

poisson-distribution poisson-process

9

Что такое формула обратного распределения CDF?

Кто-нибудь знает, что такое обратная совокупная функция распределения нормального распределения? Есть ли у него выражение в закрытой форме? Я не нашел хорошего ответа с помощью Google....

normal-distribution inverse-cdf

9

Нормально распределенные ошибки и центральная предельная теорема

Во Вводной эконометрике Вулдриджа есть цитата: Аргумент, оправдывающий нормальное распределение ошибок, обычно выполняется примерно так: поскольку является суммой многих ненаблюдаемых факторов, влияющих на , мы можем вызвать центральную предельную теорему, чтобы заключить, что имеет приблизительное...

self-study linear-model econometrics normality-assumption central-limit-theorem

9

Как могут быть возможны проценты, не суммирующие до ста?

Я читал эту статью об аквапонике, и некоторые статистические данные не имели никакого смысла в отношении перечисленных процентов. Какой метод позволит этим процентам существовать? Наиболее часто растущими водными животными в процентах были тилапия (69%), декоративные рыбы (43%), сом (25%), другие...

percentage

9

Каково практическое значение альфы в GLM с гамма-семейством?

Я подгоняю несколько моделей формы .. glm(DV ~ I(1/IV), family = Gamma(link = "log") .. и ищу способы сравнить модели, полученные для разных переменных. Мне интересно, имеет ли значение альфа какое-либо практическое применение? Для трех графиков ниже значения альфа 17,85, 9,03 и 6,27. Содержат ли...

generalized-linear-model gamma-distribution

9

PCA слишком медленный, когда оба n, p большие: альтернативы?

Настройка проблемы У меня есть данные (изображения) высокой размерности (4096), которые я пытаюсь визуализировать в 2D. С этой целью я использую t-sne способом, подобным следующему примеру кода Karpathy . Документация Scikit-Learn рекомендует использовать PCA, чтобы сначала уменьшить размерность...

pca dimensionality-reduction high-dimensional java tsne

9

Как мне интерпретировать кривую выживания модели риска Кокса?

Как вы интерпретируете кривую выживания из модели пропорционального риска Кокса? В этом игрушечном примере предположим, что у нас есть модель пропорционального риска Кокса для ageпеременной в kidneyданных, и сгенерируем кривую выживания. library(survival) fit <- coxph(Surv(time, status)~age,...

r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

9

Становится ли Наивный Байес более популярным? Почему?

Это результат Google трендов, полученный для фразы «Наивный Байес» с января 2004 года по апрель 2017 года ( ссылка ). Согласно этой цифре, коэффициент поиска «Наивный байесовский» в апреле 2017 года примерно на 25% выше максимума за весь период времени. Означает ли это, что этот простой и старый...

naive-bayes trend