Вопросы с тегом «c»

299
Разница между логитовой и пробитной моделями

В чем разница между моделью Logit и Probit ? Мне больше интересно знать, когда использовать логистическую регрессию, а когда использовать Probit. Если есть какая-либо литература, которая определяет это, используя R , это также было бы...

241
Почему евклидово расстояние не является хорошим показателем в больших измерениях?

Я читал, что «евклидово расстояние не является хорошим расстоянием в больших измерениях». Я думаю, что это утверждение как-то связано с проклятием размерности, но что именно? Кроме того, что такое «большие размеры»? Я применял иерархическую кластеризацию, используя евклидово расстояние со 100...

222
Есть ли основания предпочитать AIC или BIC другим?

AIC и BIC - оба метода оценки соответствия модели, оштрафованные за количество оцениваемых параметров. Насколько я понимаю, BIC штрафует модели за свободные параметры больше, чем AIC. Помимо предпочтений, основанных на строгости критериев, есть ли другие причины отдавать предпочтение AIC, а не BIC...

193
Алгоритмы автоматического выбора модели

Я хотел бы реализовать алгоритм автоматического выбора модели. Я имею в виду пошаговую регрессию, но все будет хорошо (хотя она должна основываться на линейных регрессиях). Моя проблема в том, что я не могу найти методологию или реализацию с открытым исходным кодом (я просыпаюсь в Java)....

163
Как бороться с идеальным разделением в логистической регрессии?

Если у вас есть переменная, которая отлично разделяет нули и единицы в целевой переменной, R выдаст следующее предупреждающее сообщение «идеальное или квази идеальное разделение»: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Мы все еще получаем модель, но оценки...

159
ROC против кривых точности и отзыва

Я понимаю формальные различия между ними, и я хочу знать, когда более уместно использовать одно против другого. Всегда ли они дают дополнительное представление о производительности данной системы классификации / обнаружения? Когда разумно представить их обоих, скажем, в газете? вместо одного?...

96
Как выбрать t-критерий или непараметрический критерий, например, Уилкоксон в небольших выборках

Определенные гипотезы могут быть проверены с использованием t- критерия Стьюдента (возможно, с использованием поправки Уэлча для неравных отклонений в случае двух выборок) или с помощью непараметрического теста, такого как парный критерий Уилкоксона со знаком, ранговый критерий...

87
Что такое дефицит ранга и как с ним бороться?

Подгонка логистической регрессии с использованием lme4 заканчивается Error in mer_finalize(ans) : Downdated X'X is not positive definite. Вероятной причиной этой ошибки, очевидно, является недостаток ранга. Что такое дефицит ранга и как мне его...

82
Почему надежная (и устойчивая) статистика не заменила классические методы?

При решении бизнес-задач с использованием данных обычно используется хотя бы одно ключевое предположение о том, что подкрепляющая классическая статистика недопустима. В большинстве случаев никто не удосуживается проверить эти предположения, поэтому вы никогда не узнаете. Например, то, что многие из...

81
Имеет ли значение несбалансированный образец при выполнении логистической регрессии?

Итак, я думаю, что у меня есть достаточно приличная выборка, принимая во внимание эмпирическое правило 20: 1: довольно большая выборка (N = 374) для в общей сложности 7 потенциальных переменных-предикторов. Моя проблема заключается в следующем: независимо от того, какой набор переменных предикторов...

78
Как вручную вычислить площадь под кривой (AUC) или c-статистику

Меня интересует вычисление площади под кривой (AUC) или c-статистика вручную для бинарной модели логистической регрессии. Например, в наборе данных проверки у меня есть истинное значение для зависимой переменной, сохранение (1 = сохранено; 0 = не сохранено), а также прогнозируемое состояние...

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

75
Почему логистическая регрессия не называется логистической классификацией?

Поскольку логистическая регрессия является статистической классификационной моделью, имеющей дело с категориальными зависимыми переменными, почему она не называется логистической классификацией ? Разве имя "Регрессия" не должно быть зарезервировано для моделей, имеющих дело с непрерывными...

74
Диагностика логистической регрессии

Для линейной регрессии мы можем проверить диагностические графики (графики остатков, графики нормального QQ и т. Д.), Чтобы проверить, не нарушены ли предположения о линейной регрессии. Что касается логистической регрессии, у меня возникают проблемы с поиском ресурсов, которые объясняют, как...

73
Как простая модель логистической регрессии достигает 92% точности классификации по MNIST?

Несмотря на то, что все изображения в наборе данных MNIST центрированы с одинаковым масштабом и обращены вверх без поворотов, у них есть существенный разброс рукописного текста, который удивляет меня, как линейная модель достигает такой высокой точности классификации. Насколько я могу...

72
Решение для параметров регрессии в закрытом виде против градиентного спуска

В курсе машинного обучения Эндрю Нг он знакомит с линейной регрессией и логистической регрессией и показывает, как подобрать параметры модели с использованием градиентного спуска и метода Ньютона. Я знаю, что градиентный спуск может быть полезен в некоторых приложениях машинного обучения (например,...