Статистика и большие данные

181
Как суммировать данные по группам в R? [закрыто]

У меня есть фрейм данных R, как это: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Мне нужно получить фрейм данных в следующем виде: group mean sd 1 34.5 5.6 2 32.3 4.2 ... Номер группы может отличаться, но их...

176
Каков размер пакета в нейронной сети?

Я использую Python Keras packageдля нейронной сети. Это ссылка . Is batch_sizeравно числу тестовых образцов? Из Википедии у нас есть эта информация: Однако в других случаях оценка градиента суммы может потребовать дорогостоящих оценок градиентов от всех функций слагаемых. Когда обучающий набор...

174
Когда (и почему) вы должны взять журнал распределения (чисел)?

Скажем, у меня есть некоторые исторические данные, например, прошлые цены на акции, колебания цен на авиабилеты, прошлые финансовые данные компании ... Теперь кто-то (или какая-то формула) приходит и говорит «давайте возьмем / используем журнал дистрибутива», и вот куда я иду ПОЧЕМУ ? Вопросов:...

173
Как интерпретировать сюжет QQ

Я работаю с небольшим набором данных (21 наблюдение) и имею следующий нормальный график QQ в R: Видя, что сюжет не поддерживает нормальность, что я могу сделать вывод о базовом распределении? Мне кажется, что распределение, более искаженное вправо, было бы лучше, верно? Кроме того, какие еще выводы...

171
Почему внезапное увлечение тензорами?

Недавно я заметил, что многие люди разрабатывают тензорные эквиваленты многих методов (тензорная факторизация, тензорные ядра, тензоры для тематического моделирования и т. Д.). Мне интересно, почему мир внезапно очарован тензорами? Существуют ли недавние документы / стандартные результаты, которые...

167
Когда я должен использовать лассо против риджа?

Скажем, я хочу оценить большое количество параметров, и я хочу наказать некоторые из них, потому что я считаю, что они должны иметь небольшой эффект по сравнению с другими. Как мне решить, какую схему наказания использовать? Когда регрессия гребня более уместна? Когда я должен использовать...

163
Как бороться с идеальным разделением в логистической регрессии?

Если у вас есть переменная, которая отлично разделяет нули и единицы в целевой переменной, R выдаст следующее предупреждающее сообщение «идеальное или квази идеальное разделение»: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Мы все еще получаем модель, но оценки...

161
Есть ли у Юлии надежда остаться в статистическом сообществе?

Я недавно прочитал сообщение от R-Bloggers, которое связывалось с этим сообщением в блоге от Джона Майлса Уайта о новом языке под названием Джулия . Джулия пользуется преимуществом компилятора, работающего точно в срок, который дает ему быстрое время выполнения и ставит его на тот же порядок...

160
Шпаргалка R's lmer

На этом форуме много обсуждается вопрос о том, как правильно указать различные иерархические модели lmer. Я думал, что было бы здорово иметь всю информацию в одном месте. Пара вопросов для начала: Как указать несколько уровней, где одна группа вложена в другую: это (1|group1:group2)или нет...

159
ROC против кривых точности и отзыва

Я понимаю формальные различия между ними, и я хочу знать, когда более уместно использовать одно против другого. Всегда ли они дают дополнительное представление о производительности данной системы классификации / обнаружения? Когда разумно представить их обоих, скажем, в газете? вместо одного?...

158
Как я могу получить количество строк data.frame в R? [закрыто]

После прочтения набора данных: dataset <- read.csv("forR.csv") Как я могу получить R, чтобы дать мне количество дел, которые он содержит? Кроме того, будет ли возвращаемое значение включать исключающие случаи, пропущенные с помощью na.omit(dataset)?...

154
Генеративный или дискриминационный

Я знаю, что порождающие средства «основаны на » и дискриминационные средства «основаны на », но я запутался в нескольких моментах:P ( y | x )P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x) Википедия (+ много других хитов в сети) классифицирует такие вещи, как SVM и деревья решений, как дискриминационные. Но...

149
Как выбрать прогностическую модель после k-кратной перекрестной проверки?

Мне интересно, как выбрать прогностическую модель после выполнения перекрестной проверки по K-кратному критерию. Это может быть неловко сформулировано, поэтому позвольте мне объяснить более подробно: всякий раз, когда я запускаю кросс-проверку K-кратных данных, я использую K подмножеств данных...

149
Может ли значение распределения вероятности, превышающее 1, быть в порядке?

На странице Википедии о наивных байесовских классификаторах есть такая строка: p ( h e i g h t | m a l e ) = 1,5579p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (Распределение вероятностей по 1 в порядке. Это площадь под кривой колокола, равная 1.) Как значение может быть в...

148
Что мне делать, если моя нейронная сеть не учится?

Я тренирую нейронную сеть, но потери от тренировок не уменьшаются. Как я могу это исправить? Я не спрашиваю о переоснащении или регуляризации. Я спрашиваю, как решить проблему, когда производительность моей сети не улучшается на тренировочном наборе . Этот вопрос намеренно носит общий характер,...

147
Можно ли применять анализ главных компонентов к наборам данных, содержащим сочетание непрерывных и категориальных переменных?

У меня есть набор данных, который содержит как непрерывные, так и категориальные данные. Я анализирую с помощью PCA и задаюсь вопросом, можно ли включать категориальные переменные в качестве части анализа. Насколько я понимаю, PCA может применяться только к непрерывным переменным. Это правильно?...