Статистика и большие данные

122
Зачем нам нужны сигма-алгебры для определения вероятностных пространств?

У нас есть случайный эксперимент с различными результатами , образующих пространство образца Ω ,Ω,\Omega, на котором мы смотрим с интересом на некоторые модели, под названием события F,F.\mathscr{F}. Сигма-алгебры (или сигма-поля) состоят из событий, которым может быть назначена мера вероятности...

119
Как выбрать соотношение Пирсона и Спирмена?

Как я знаю , когда выбирать между Спирменом и Пирсоном ? Моя переменная включает в себя удовлетворенность, и оценки были интерпретированы с использованием суммы оценок. Тем не менее, эти оценки также могут быть...

118
В чем разница между нормализацией и стандартизацией?

На работе мы обсуждали это, так как мой начальник никогда не слышал о нормализации. В линейной алгебре нормализация, по-видимому, относится к делению вектора на его длину. И в статистике стандартизация, по-видимому, относится к вычитанию среднего значения, которое затем делится на его SD. Но они...

118
Когда можно удалить перехват в модели линейной регрессии?

Я работаю на моделях линейной регрессии и задаюсь вопросом, каковы условия удаления термина «перехват». Сравнивая результаты двух разных регрессий, где один имеет перехват, а другой нет, я замечаю, что функции без перехвата намного выше. Существуют ли определенные условия или предположения, которым...

118
Означает ли причинность корреляцию?

Корреляция не подразумевает причинно-следственную связь, так как может быть много объяснений корреляции. Но подразумевает ли причинность корреляцию? Интуитивно я думаю, что наличие причинно-следственной связи означает, что существует определенная корреляция. Но моя интуиция не всегда хорошо служила...

117
Числовой пример для понимания максимизации ожидания

Я пытаюсь понять алгоритм EM, чтобы иметь возможность его реализовать и использовать. Я провел целый день, читая теорию и документ, где EM используется для отслеживания самолета с использованием информации о местоположении, поступающей с радара. Честно говоря, я не думаю, что полностью понимаю...

115
Как стандартные ошибки коэффициентов рассчитываются в регрессии?

Для моего собственного понимания я заинтересован в том, чтобы вручную повторить вычисление стандартных ошибок оценочных коэффициентов, поскольку, например, они поставляются с выходными данными lm()функции R, но не смогли ее определить. Какая формула / реализация...

115
Почему p-значения равномерно распределены по нулевой гипотезе?

Недавно я нашел в статье Klammer, et al. утверждение, что p-значения должны быть равномерно распределены. Я верю авторам, но не могу понять, почему это так. Klammer, AA, Park, CY, и Stafford Noble, W. (2009) Статистическая калибровка функции SEQUEST XCorr . Журнал исследований протеома . 8 (4):...

114
Вывод условных распределений многомерного нормального распределения

У нас есть многомерный нормальный вектор Y∼N(μ,Σ)Y∼N(μ,Σ){\boldsymbol Y} \sim \mathcal{N}(\boldsymbol\mu, \Sigma) . Попробуйте разделить μμ\boldsymbol\mu и YY{\boldsymbol Y} на μ=[μ1μ2]μ=[μ1μ2]\boldsymbol\mu = \begin{bmatrix} \boldsymbol\mu_1 \\ \boldsymbol\mu_2 \end{bmatrix}...

114
Если 900 из 1000 человек говорят, что машина синего цвета, какова вероятность того, что она синего цвета?

Первоначально это возникло в связи с некоторой работой, которую мы проводим с моделью для классификации естественного текста, но я упростил ее ... Возможно, слишком много. У вас есть синяя машина (по некоторым объективным научным показателям - она ​​синяя). Вы показываете это до 1000 человек. 900...

114
В чем разница между нейронной сетью и глубокой нейронной сетью, и почему глубокие работают лучше?

Я не видел вопроса, сформулированного именно в этих терминах, и поэтому я задаю новый вопрос. Что мне интересно знать, так это не определение нейронной сети, а понимание реальной разницы с глубокой нейронной сетью. Для большего контекста: я знаю, что такое нейронная сеть и как работает обратное...

113
Как обратить вспять PCA и восстановить исходные переменные из нескольких основных компонентов?

Анализ основных компонентов (PCA) может использоваться для уменьшения размерности. После такого уменьшения размерности, как можно приблизительно восстановить исходные переменные / характеристики из небольшого числа главных компонентов? В качестве альтернативы, как можно удалить или удалить...

113
Что не так с комиксом XKCD «Частые против байесов»?

Этот комикс xkcd (Frequentists vs. Bayesians) высмеивает статистика, который часто приводит к ошибочным результатам. Однако мне кажется, что его рассуждения на самом деле верны в том смысле, что они следуют стандартной методике частых исследований. Таким образом, мой вопрос: «Правильно ли он...

113
Корреляция Пирсона или Спирмена с ненормальными данными

Я получаю этот вопрос достаточно часто в своей статистической консультационной работе, поэтому я решил опубликовать его здесь. У меня есть ответ, который размещен ниже, но мне было интересно услышать, что говорят другие. Вопрос: Если у вас есть две переменные, которые обычно не распределены,...

111
Оценка приблизительного распределения данных на основе гистограммы

Предположим, я хочу посмотреть, являются ли мои данные экспоненциальными на основе гистограммы (то есть смещены вправо). В зависимости от того, как я сгруппирую или скопирую данные, я могу получить совершенно разные гистограммы. Один из наборов гистограмм, по-видимому, будет экспоненциальным....

111
Нужно ли удалять высококоррелированные переменные перед PCA?

Я читаю статью, где автор отказывается от нескольких переменных из-за высокой корреляции с другими переменными, прежде чем делать PCA. Общее количество переменных составляет около 20. Это дает какие-то преимущества? Мне это кажется непосильным, так как PCA должен справиться с этим...