Статистика и большие данные

92
Как вы рассчитываете точность и вспоминаете для мультиклассовой классификации, используя путаницу?

Интересно, как вычислить точность и вспомнить использование путаницы для решения задачи классификации нескольких классов. В частности, наблюдение может быть назначено только его наиболее вероятному классу / метке. Я хотел бы вычислить: Точность = TP / (TP + FP) Напомним = TP / (TP + FN) для каждого...

92
Кто такие байесовцы?

Когда кто-то начинает интересоваться статистикой, дихотомия «Частый» и «Байесовский» вскоре становится обычным явлением (а кто вообще не читал « Сигнал и шум» Нейта Сильвера ?). В беседах и вводных курсах точка зрения является чрезвычайно частой ( MLE , значения), но есть небольшая часть времени,...

92
Оценка максимального правдоподобия (MLE) в терминах непрофессионала

Может ли кто-нибудь объяснить мне подробно об оценке максимального правдоподобия (MLE) в терминах непрофессионала? Я хотел бы знать основную концепцию, прежде чем перейти к математическому выводу или...

91
Возможно ли иметь пару гауссовых случайных величин, для которых совместное распределение не является гауссовым?

Кто-то задал мне этот вопрос на собеседовании, и я ответил, что их совместное распространение всегда гауссовское. Я думал, что всегда могу написать двумерный гауссовский язык со своими средствами, дисперсией и ковариациями. Мне интересно, может ли быть случай, когда совместная вероятность двух...

91
PCA и пропорции объяснены

В общем, что подразумевается под тем, чтобы сказать, что доля дисперсии в анализе, подобном PCA, объясняется первым основным компонентом? Может ли кто-то объяснить это интуитивно, но также дать точное математическое определение того, что означает «объяснение отклонений» в терминах анализа главных...

91
Почему ANOVA преподается / используется так, как если бы это была другая методология исследования по сравнению с линейной регрессией?

ANOVA эквивалентен линейной регрессии с использованием подходящих фиктивных переменных. Выводы остаются неизменными независимо от того, используете ли вы ANOVA или линейную регрессию. В свете их эквивалентности, есть ли причина, по которой ANOVA используется вместо линейной регрессии? Примечание:...

90
Когда линейную регрессию следует называть «машинным обучением»?

В недавнем коллоквиуме реферат спикера утверждал, что они использовали машинное обучение. Во время беседы единственное, что связано с машинным обучением, было то, что они выполняют линейную регрессию на своих данных. После расчета коэффициентов наилучшего соответствия в пространстве параметров 5D...

90
Если у меня есть 58% шанс выиграть очко, какова вероятность того, что я выиграю игру в пинг-понг до 21, выиграю на 2?

У меня есть ставка с коллегой, что из 50 игр в пинг-понг (сначала выиграйте 21 очко, выиграйте 2) я выиграю все 50. До сих пор мы сыграли 15 игр, и в среднем я выиграл 58% очки, плюс я выиграл все игры до сих пор. Таким образом, мы задаемся вопросом, есть ли у меня 58% шанс выиграть очко, а у него...

89
Как эффективно управлять проектом статистического анализа?

Мы часто слышим о шаблонах управления проектами и проектирования в компьютерных науках, но реже в статистическом анализе. Тем не менее, кажется, что решающим шагом на пути к созданию эффективного и долгосрочного статистического проекта является обеспечение организованности. Я часто выступаю за...

89
Интерпретация plot.lm ()

У меня был вопрос о том, как интерпретировать графики, созданные с помощью plot (lm) в R. Мне было интересно, можете ли вы, ребята, сказать мне, как интерпретировать графики масштаба-местоположения и левереджа? Любые замечания будут оценены. Предположим, базовые знания статистики, регрессии и...

89
«Лучшая» серия цветов, используемая для дифференциации серий на графиках издательского качества

Было ли проведено какое-либо исследование о том, какой набор цветов лучше всего использовать для отображения нескольких серий на одном графике? Я только что использовал значения по умолчанию matplotlib, и они выглядят немного по-детски, так как они все яркие, основные...

88
Когда использовать гамма GLM?

Гамма-распределение может принимать довольно широкий диапазон форм, и, учитывая связь между средним и дисперсией через два его параметра, оно кажется подходящим для работы с гетероскедастичностью в неотрицательных данных таким образом, что лог-преобразованный OLS может не обойтись без WLS или...

88
Скрещенные и вложенные случайные эффекты: чем они отличаются и как они правильно указаны в lme4?

Вот как я понял вложенные и скрещенные случайные эффекты: Вложенные случайные эффекты возникают, когда фактор более низкого уровня появляется только в пределах определенного уровня фактора более высокого уровня. Например, ученики в классах в определенный момент времени. В lme4Я думал , что мы...

88
Насколько мы должны бояться предупреждений о сходимости в lme4?

Если мы подгоняем блеск, мы можем получить предупреждение, которое говорит нам, что модели трудно сойтись ... например >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) Другой способ...

88
Диагностические участки для подсчета регрессии

Какие диагностические графики (и, возможно, формальные тесты) вы считаете наиболее информативными для регрессий, где результат представляет собой переменную счета? Я особенно заинтересован в пуассоновских и отрицательных биномиальных моделях, а также в аналогах с нулевой раздувкой и препятствием...

88
Зачем нормализовывать изображения, вычитая среднее значение изображения набора данных вместо текущего среднего значения изображения в глубоком обучении?

Существуют некоторые варианты нормализации изображений, но большинство, похоже, используют эти два метода: Вычтите среднее значение для канала, рассчитанное для всех изображений (например, VGG_ILSVRC_16_layers ) Вычесть по пикселю / каналу, рассчитанному по всем изображениям (например, CNN_S ,...

88
Есть ли способ запомнить определения ошибок типа I и типа II?

Я не статистик по образованию, я инженер-программист. И все же статистика выходит очень много. На самом деле, вопросы, связанные с ошибками типа I и типа II, часто возникают в ходе моего обучения на экзамене на сертифицированного специалиста по разработке программного обеспечения (математика и...

88
Простой алгоритм онлайн-определения выбросов общего временного ряда

Я работаю с большим количеством временных рядов. Эти временные ряды в основном представляют собой измерения сети, проводимые каждые 10 минут, и некоторые из них являются периодическими (т. Е. Пропускная способность), а некоторые другие - нет (т. Е. Объем трафика маршрутизации). Я хотел бы, чтобы...

87
Что такое дефицит ранга и как с ним бороться?

Подгонка логистической регрессии с использованием lme4 заканчивается Error in mer_finalize(ans) : Downdated X'X is not positive definite. Вероятной причиной этой ошибки, очевидно, является недостаток ранга. Что такое дефицит ранга и как мне его...