Статистика и большие данные

48
R - QQPlot: как посмотреть, нормально ли распределяются данные

Я построил это после теста на нормальность Шапиро-Вилка. Тест показал, что вполне вероятно, что население нормально распределено. Однако как увидеть это «поведение» на этом сюжете? ОБНОВИТЬ Простая гистограмма данных: ОБНОВИТЬ Тест Шапиро-Вилка говорит:...

48
Как мне проверить, что две непрерывные переменные независимы?

Предположим , у меня есть образец от совместного распределения и . Как проверить гипотезу о том , что и являются независимыми ?X Y X Y(Xn,Yn),n=1..N(Xn,Yn),n=1..N(X_n,Y_n), n=1..NXXXYYYXXXYYY Не делается никаких предположений относительно законов совместного или предельного распределения и...

48
Рекуррентные и рекурсивные нейронные сети: что лучше для НЛП?

Существуют рекуррентные нейронные сети и рекурсивные нейронные сети. Оба обычно обозначаются одной и той же аббревиатурой: RNN. Согласно Википедии , Рекуррентный NN на самом деле является Рекурсивным NN, но я не совсем понимаю объяснение. Более того, я не могу найти, что лучше (с примерами или...

48
Интуитивно понятные объяснения различий между Gradient Boosting Trees (GBM) и Adaboost

Я пытаюсь понять разницу между GBM и Adaboost. Вот что я понял до сих пор: Существуют оба алгоритма повышения, которые учатся на ошибках предыдущей модели и, наконец, составляют взвешенную сумму моделей. GBM и Adaboost очень похожи, за исключением функций потери. Но мне все еще трудно понять идею...

48
В чем разница между градиентным спуском на основе импульса и ускоренным градиентным спуском Нестерова?

Таким образом, градиентный спуск на основе импульса работает следующим образом: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g где - это предыдущее обновление веса, а - текущий градиент относительно параметров , - скорость обучения, а - постоянная...

48
Интуиция о расхождении Кульбака-Лейблера (КЛ)

Я узнал об интуиции, лежащей в основе дивергенции KL, о том, насколько функция распределения моделей отличается от теоретического / истинного распределения данных. Источник Читаю продолжает говорить о том , что интуитивное понимание «расстояний» между этими двумя распределениями является полезным,...

48
Означает ли корреляция = 0,2, что существует ассоциация «только у 1 из 5 человек»?

В книге «Идиотский мозг: нейробиолог объясняет, чем на самом деле занимается ваша голова», - писал Дин Бернетт Корреляция между ростом и интеллектом обычно указывается как около , что означает, что рост и интеллект, по-видимому, связаны только у 1 из 5 человек.0.20.20.2111555 Для меня это звучит...

47
При проведении t-теста, почему предпочтительнее предполагать (или проверять) равные дисперсии, а не всегда использовать приближение Уэлча для df?

Кажется, что, когда предположение об однородности дисперсии встречается, результаты скорректированного по Уэлчу t-критерия и стандартного t-критерия примерно одинаковы. Почему бы просто не всегда использовать отрегулированный Welch...

47
Если t-критерий и ANOVA для двух групп эквивалентны, почему их предположения не эквивалентны?

Я уверен, что у меня это полностью обернуто вокруг моей головы, но я просто не могу понять это. T-критерий сравнивает два нормальных распределения, используя Z-распределение. Вот почему в ДАННЫХ есть предположение о нормальности. ANOVA эквивалентен линейной регрессии с фиктивными переменными и...

47
Статистический вывод, когда выборка «является» населением

Представьте, что вы должны составлять отчеты о количестве кандидатов, которые ежегодно сдают данный тест. Кажется довольно сложным сделать вывод о наблюдаемом проценте успеха, например, для более широкой популяции из-за специфики целевой популяции. Таким образом, вы можете считать, что эти данные...

47
Можно ли выполнять кластеризацию временных рядов на основе формы кривой?

У меня есть данные о продажах для ряда торговых точек, и я хочу классифицировать их в зависимости от формы их кривых с течением времени. Данные выглядят примерно так (но, очевидно, не случайны и содержат некоторые пропущенные данные): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){...

47
Первые R пакеты исходного кода для изучения при подготовке к написанию собственного пакета

Я планирую начать писать R пакетов. Я подумал, что было бы хорошо изучить исходный код существующих пакетов, чтобы изучить правила построения пакетов. Мои критерии для хороших пакетов для изучения: Простые статистические / технические идеи : цель состоит в том, чтобы узнать о механике конструкции...

47
Байесовский учебник статистики

Я пытаюсь набрать скорость в байесовской статистике. У меня есть немного истории статистики (STAT 101), но не слишком много - я думаю, что могу понять предшествующую, заднюю и вероятность: D. Я пока не хочу читать байесовский учебник. Я предпочел бы читать из источника (веб-сайт), который быстро...

47
Как сделать выбор поднабора логистической регрессии?

Я подгоняю биномиальное семейство glm в R, и у меня есть целая группа объясняющих переменных, и мне нужно найти лучшее (R-квадрат в качестве меры - это хорошо). Если не считать сценария для циклического перебора различных комбинаций объясняющих переменных и последующей записи, которая дает...

47
Наиболее запутанные статистические термины

Мы, статистики, используем много слов способами, которые немного отличаются от того, как их используют все остальные. Это вызывает много проблем, когда мы учим или объясняем, что делаем. Я начну список (и теперь я добавлю некоторые определения, по комментариям): Сила - это способность правильно...

47
Понимание Наивного Байеса

От StatSoft, Inc. (2013), Электронный учебник статистики , «Наивный байесовский классификатор» : Чтобы продемонстрировать концепцию наивной байесовской классификации, рассмотрим пример, показанный на иллюстрации выше. Как указано, объекты могут быть классифицированы как ЗЕЛЕНЫЙ или КРАСНЫЙ. Моя...

47
Почему ожидание такое же, как среднее арифметическое?

Сегодня я натолкнулся на новую тему под названием «Математическое ожидание». В книге, за которой я следую, говорится, что ожидание - это среднее арифметическое случайной величины, получаемой из любого распределения вероятностей. Но он определяет ожидание как сумму произведений некоторых данных и...

47
Как найти пики в наборе данных?

Если у меня есть набор данных, который создает график, подобный следующему, как бы я алгоритмически определил значения x показанных пиков (в данном случае три из них):...

47
Сплайны перекрывают данные?

Моя проблема : я недавно встретил статистика, который сообщил мне, что сплайны полезны только для исследования данных и подвержены переобучению, таким образом, бесполезны при прогнозировании. Он предпочел исследовать с помощью простых полиномов ... Так как я большой поклонник сплайнов, и это...