Статистика и большие данные

181

Как суммировать данные по группам в R? [закрыто]

У меня есть фрейм данных R, как это: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Мне нужно получить фрейм данных в следующем виде: group mean sd 1 34.5 5.6 2 32.3 4.2 ... Номер группы может отличаться, но их...

r data-transformation

176

Каков размер пакета в нейронной сети?

Я использую Python Keras packageдля нейронной сети. Это ссылка . Is batch_sizeравно числу тестовых образцов? Из Википедии у нас есть эта информация: Однако в других случаях оценка градиента суммы может потребовать дорогостоящих оценок градиентов от всех функций слагаемых. Когда обучающий набор...

neural-networks python terminology keras

174

Когда (и почему) вы должны взять журнал распределения (чисел)?

Скажем, у меня есть некоторые исторические данные, например, прошлые цены на акции, колебания цен на авиабилеты, прошлые финансовые данные компании ... Теперь кто-то (или какая-то формула) приходит и говорит «давайте возьмем / используем журнал дистрибутива», и вот куда я иду ПОЧЕМУ ? Вопросов:...

distributions data-transformation logarithm

173

Как интерпретировать сюжет QQ

Я работаю с небольшим набором данных (21 наблюдение) и имею следующий нормальный график QQ в R: Видя, что сюжет не поддерживает нормальность, что я могу сделать вывод о базовом распределении? Мне кажется, что распределение, более искаженное вправо, было бы лучше, верно? Кроме того, какие еще выводы...

r data-visualization inference qq-plot

171

Почему внезапное увлечение тензорами?

Недавно я заметил, что многие люди разрабатывают тензорные эквиваленты многих методов (тензорная факторизация, тензорные ядра, тензоры для тематического моделирования и т. Д.). Мне интересно, почему мир внезапно очарован тензорами? Существуют ли недавние документы / стандартные результаты, которые...

machine-learning references matrix linear-algebra tensor

167

Когда я должен использовать лассо против риджа?

Скажем, я хочу оценить большое количество параметров, и я хочу наказать некоторые из них, потому что я считаю, что они должны иметь небольшой эффект по сравнению с другими. Как мне решить, какую схему наказания использовать? Когда регрессия гребня более уместна? Когда я должен использовать...

regression lasso ridge-regression

166

Статистика Анекдоты

Ну, у нас есть любимые статистические цитаты. Как насчет статистики

references humor

164

В линейной регрессии, когда уместно использовать лог независимой переменной вместо фактических значений?

Я ищу лучшее распределение для рассматриваемой независимой переменной, или чтобы уменьшить влияние выбросов или что-то

regression distributions data-transformation logarithm regression-strategies

163

Как бороться с идеальным разделением в логистической регрессии?

Если у вас есть переменная, которая отлично разделяет нули и единицы в целевой переменной, R выдаст следующее предупреждающее сообщение «идеальное или квази идеальное разделение»: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Мы все еще получаем модель, но оценки...

r regression logistic separation

161

Есть ли у Юлии надежда остаться в статистическом сообществе?

Я недавно прочитал сообщение от R-Bloggers, которое связывалось с этим сообщением в блоге от Джона Майлса Уайта о новом языке под названием Джулия . Джулия пользуется преимуществом компилятора, работающего точно в срок, который дает ему быстрое время выполнения и ставит его на тот же порядок...

r computational-statistics software computing julia

160

Шпаргалка R's lmer

На этом форуме много обсуждается вопрос о том, как правильно указать различные иерархические модели lmer. Я думал, что было бы здорово иметь всю информацию в одном месте. Пара вопросов для начала: Как указать несколько уровней, где одна группа вложена в другую: это (1|group1:group2)или нет...

r mixed-model random-effects-model fixed-effects-model lme4-nlme

159

ROC против кривых точности и отзыва

Я понимаю формальные различия между ними, и я хочу знать, когда более уместно использовать одно против другого. Всегда ли они дают дополнительное представление о производительности данной системы классификации / обнаружения? Когда разумно представить их обоих, скажем, в газете? вместо одного?...

machine-learning roc precision-recall

158

Как я могу получить количество строк data.frame в R? [закрыто]

После прочтения набора данных: dataset <- read.csv("forR.csv") Как я могу получить R, чтобы дать мне количество дел, которые он содержит? Кроме того, будет ли возвращаемое значение включать исключающие случаи, пропущенные с помощью na.omit(dataset)?...

r

154

Генеративный или дискриминационный

Я знаю, что порождающие средства «основаны на » и дискриминационные средства «основаны на », но я запутался в нескольких моментах:P ( y | x )P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x) Википедия (+ много других хитов в сети) классифицирует такие вещи, как SVM и деревья решений, как дискриминационные. Но...

machine-learning generative-models

153

СПС по корреляции или ковариации?

Каковы основные различия между выполнением анализа главных компонентов (PCA) на матрице корреляции и ковариационной матрице? Они дают одинаковые

correlation pca covariance factor-analysis

149

Как выбрать прогностическую модель после k-кратной перекрестной проверки?

Мне интересно, как выбрать прогностическую модель после выполнения перекрестной проверки по K-кратному критерию. Это может быть неловко сформулировано, поэтому позвольте мне объяснить более подробно: всякий раз, когда я запускаю кросс-проверку K-кратных данных, я использую K подмножеств данных...

cross-validation model-selection

149

Может ли значение распределения вероятности, превышающее 1, быть в порядке?

На странице Википедии о наивных байесовских классификаторах есть такая строка: p ( h e i g h t | m a l e ) = 1,5579p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (Распределение вероятностей по 1 в порядке. Это площадь под кривой колокола, равная 1.) Как значение может быть в...

distributions probability normal-distribution pdf

148

Что мне делать, если моя нейронная сеть не учится?

Я тренирую нейронную сеть, но потери от тренировок не уменьшаются. Как я могу это исправить? Я не спрашиваю о переоснащении или регуляризации. Я спрашиваю, как решить проблему, когда производительность моей сети не улучшается на тренировочном наборе . Этот вопрос намеренно носит общий характер,...

neural-networks deep-learning

147

Можно ли применять анализ главных компонентов к наборам данных, содержащим сочетание непрерывных и категориальных переменных?

У меня есть набор данных, который содержит как непрерывные, так и категориальные данные. Я анализирую с помощью PCA и задаюсь вопросом, можно ли включать категориальные переменные в качестве части анализа. Насколько я понимаю, PCA может применяться только к непрерывным переменным. Это правильно?...

categorical-data pca correspondence-analysis mixed-type-data

143

R против SAS, почему SAS предпочитают частные компании?

Я изучил R, но кажется, что компании гораздо больше заинтересованы в опыте SAS. Каковы преимущества SAS перед

r sas