Статистика и большие данные

48

R - QQPlot: как посмотреть, нормально ли распределяются данные

Я построил это после теста на нормальность Шапиро-Вилка. Тест показал, что вполне вероятно, что население нормально распределено. Однако как увидеть это «поведение» на этом сюжете? ОБНОВИТЬ Простая гистограмма данных: ОБНОВИТЬ Тест Шапиро-Вилка говорит:...

48

Является ли каждая ковариационная матрица положительно определенной?

Я думаю, что ответ должен быть да, но я все еще чувствую, что-то не так. В литературе должны быть общие результаты, кто-нибудь может мне

covariance matrix covariance-matrix linear-algebra

48

Как мне проверить, что две непрерывные переменные независимы?

Предположим , у меня есть образец от совместного распределения и . Как проверить гипотезу о том , что и являются независимыми ?X Y X Y(Xn,Yn),n=1..N(Xn,Yn),n=1..N(X_n,Y_n), n=1..NXXXYYYXXXYYY Не делается никаких предположений относительно законов совместного или предельного распределения и...

hypothesis-testing references independence

48

Рекуррентные и рекурсивные нейронные сети: что лучше для НЛП?

Существуют рекуррентные нейронные сети и рекурсивные нейронные сети. Оба обычно обозначаются одной и той же аббревиатурой: RNN. Согласно Википедии , Рекуррентный NN на самом деле является Рекурсивным NN, но я не совсем понимаю объяснение. Более того, я не могу найти, что лучше (с примерами или...

machine-learning neural-networks deep-learning natural-language

48

Интуитивно понятные объяснения различий между Gradient Boosting Trees (GBM) и Adaboost

Я пытаюсь понять разницу между GBM и Adaboost. Вот что я понял до сих пор: Существуют оба алгоритма повышения, которые учатся на ошибках предыдущей модели и, наконец, составляют взвешенную сумму моделей. GBM и Adaboost очень похожи, за исключением функций потери. Но мне все еще трудно понять идею...

boosting gbm adaboost

48

В чем разница между градиентным спуском на основе импульса и ускоренным градиентным спуском Нестерова?

Таким образом, градиентный спуск на основе импульса работает следующим образом: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g где - это предыдущее обновление веса, а - текущий градиент относительно параметров , - скорость обучения, а - постоянная...

optimization gradient-descent

48

Интуиция о расхождении Кульбака-Лейблера (КЛ)

Я узнал об интуиции, лежащей в основе дивергенции KL, о том, насколько функция распределения моделей отличается от теоретического / истинного распределения данных. Источник Читаю продолжает говорить о том , что интуитивное понимание «расстояний» между этими двумя распределениями является полезным,...

distributions distance intuition kullback-leibler

48

Означает ли корреляция = 0,2, что существует ассоциация «только у 1 из 5 человек»?

В книге «Идиотский мозг: нейробиолог объясняет, чем на самом деле занимается ваша голова», - писал Дин Бернетт Корреляция между ростом и интеллектом обычно указывается как около , что означает, что рост и интеллект, по-видимому, связаны только у 1 из 5 человек.0.20.20.2111555 Для меня это звучит...

correlation neuroscience

47

При проведении t-теста, почему предпочтительнее предполагать (или проверять) равные дисперсии, а не всегда использовать приближение Уэлча для df?

Кажется, что, когда предположение об однородности дисперсии встречается, результаты скорректированного по Уэлчу t-критерия и стандартного t-критерия примерно одинаковы. Почему бы просто не всегда использовать отрегулированный Welch...

variance t-test heteroscedasticity

47

Если t-критерий и ANOVA для двух групп эквивалентны, почему их предположения не эквивалентны?

Я уверен, что у меня это полностью обернуто вокруг моей головы, но я просто не могу понять это. T-критерий сравнивает два нормальных распределения, используя Z-распределение. Вот почему в ДАННЫХ есть предположение о нормальности. ANOVA эквивалентен линейной регрессии с фиктивными переменными и...

distributions regression normality-assumption t-test anova

47

Статистический вывод, когда выборка «является» населением

Представьте, что вы должны составлять отчеты о количестве кандидатов, которые ежегодно сдают данный тест. Кажется довольно сложным сделать вывод о наблюдаемом проценте успеха, например, для более широкой популяции из-за специфики целевой популяции. Таким образом, вы можете считать, что эти данные...

hypothesis-testing population sampling

47

Можно ли выполнять кластеризацию временных рядов на основе формы кривой?

У меня есть данные о продажах для ряда торговых точек, и я хочу классифицировать их в зависимости от формы их кривых с течением времени. Данные выглядят примерно так (но, очевидно, не случайны и содержат некоторые пропущенные данные): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){...

r time-series clustering

47

Первые R пакеты исходного кода для изучения при подготовке к написанию собственного пакета

Я планирую начать писать R пакетов. Я подумал, что было бы хорошо изучить исходный код существующих пакетов, чтобы изучить правила построения пакетов. Мои критерии для хороших пакетов для изучения: Простые статистические / технические идеи : цель состоит в том, чтобы узнать о механике конструкции...

r

47

Байесовский учебник статистики

Я пытаюсь набрать скорость в байесовской статистике. У меня есть немного истории статистики (STAT 101), но не слишком много - я думаю, что могу понять предшествующую, заднюю и вероятность: D. Я пока не хочу читать байесовский учебник. Я предпочел бы читать из источника (веб-сайт), который быстро...

bayesian references

47

Как сделать выбор поднабора логистической регрессии?

Я подгоняю биномиальное семейство glm в R, и у меня есть целая группа объясняющих переменных, и мне нужно найти лучшее (R-квадрат в качестве меры - это хорошо). Если не считать сценария для циклического перебора различных комбинаций объясняющих переменных и последующей записи, которая дает...

r logistic

47

Наиболее запутанные статистические термины

Мы, статистики, используем много слов способами, которые немного отличаются от того, как их используют все остальные. Это вызывает много проблем, когда мы учим или объясняем, что делаем. Я начну список (и теперь я добавлю некоторые определения, по комментариям): Сила - это способность правильно...

terminology communication

47

Понимание Наивного Байеса

От StatSoft, Inc. (2013), Электронный учебник статистики , «Наивный байесовский классификатор» : Чтобы продемонстрировать концепцию наивной байесовской классификации, рассмотрим пример, показанный на иллюстрации выше. Как указано, объекты могут быть классифицированы как ЗЕЛЕНЫЙ или КРАСНЫЙ. Моя...

machine-learning naive-bayes

47

Почему ожидание такое же, как среднее арифметическое?

Сегодня я натолкнулся на новую тему под названием «Математическое ожидание». В книге, за которой я следую, говорится, что ожидание - это среднее арифметическое случайной величины, получаемой из любого распределения вероятностей. Но он определяет ожидание как сумму произведений некоторых данных и...

expected-value

47

Как найти пики в наборе данных?

Если у меня есть набор данных, который создает график, подобный следующему, как бы я алгоритмически определил значения x показанных пиков (в данном случае три из них):...

data-visualization mode

47

Сплайны перекрывают данные?

Моя проблема : я недавно встретил статистика, который сообщил мне, что сплайны полезны только для исследования данных и подвержены переобучению, таким образом, бесполезны при прогнозировании. Он предпочел исследовать с помощью простых полиномов ... Так как я большой поклонник сплайнов, и это...

regression splines