Вопросы с тегом «model-evaluation»

Об оценке моделей, как в выборке, так и вне выборки.

107
Почему точность не является наилучшей мерой для оценки моделей классификации?

Это общий вопрос, который косвенно задавался здесь несколько раз, но в нем нет ни одного авторитетного ответа. Было бы здорово иметь подробный ответ на этот вопрос для справки. Точность , доля правильных классификаций среди всех классификаций, является очень простой и очень «интуитивно понятной»...

54
Лучший алгоритм PCA для огромного количества функций (> 10K)?

Ранее я спрашивал об этом в StackOverflow, но кажется, что это может быть более уместным, учитывая, что он не получил никаких ответов по SO. Это своего рода на пересечении статистики и программирования. Мне нужно написать код для PCA (Анализ основных компонентов). Я просмотрел известные алгоритмы и...

43
Оптимизированные реализации алгоритма Random Forest

Я заметил , что есть несколько реализаций случайного леса , такие как ALGLIB, вафли и некоторые R пакеты , например randomForest. Кто-нибудь может сказать мне, высоко ли оптимизированы эти библиотеки? Являются ли они в основном эквивалентными случайным лесам, как подробно описано в «Элементах...

35
Как выбрать метод кластеризации? Как проверить кластерное решение (чтобы гарантировать выбор метода)?

Одна из самых больших проблем с кластерным анализом заключается в том, что нам, возможно, придется делать разные выводы, основываясь на разных методах кластеризации (включая разные методы связи в иерархической кластеризации). Хотелось бы узнать ваше мнение по этому поводу - какой метод вы выберете...

31
Неправильное использование перекрестной проверки (представление отчета о наилучшем значении гиперпараметра)

Недавно я натолкнулся на статью, в которой предлагается использовать классификатор k-NN для конкретного набора данных. Авторы использовали все доступные образцы данных, чтобы выполнить перекрестную проверку в k-кратном размере для различных значений k и сообщить результаты перекрестной проверки...

24
Оценка логистической регрессии и интерпретации Хосмера-Лемешоу Goodness of Fit

Как мы все знаем, есть 2 метода для оценки модели логистической регрессии, и они тестируют очень разные вещи Прогнозирующая сила: Получите статистику, которая измеряет, насколько хорошо вы можете предсказать зависимую переменную на основе независимых переменных. Хорошо известными псевдо R ^ 2...

22
Классификационные / оценочные показатели для сильно несбалансированных данных

Я имею дело с проблемой обнаружения мошенничества (кредитной оценки). Таким образом, существует очень несбалансированная связь между мошенническими и не мошенническими наблюдениями. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html предоставляет большой обзор различных...

14
Зачем использовать нормализованный счет Джини вместо AUC в качестве оценки?

Конкурс Kaggle в прогнозировании безопасного водителя Порто Сегуро использует нормализованную оценку Джини в качестве метрики оценки, и мне стало любопытно узнать причины такого выбора. Каковы преимущества использования нормализованной оценки Джини вместо наиболее обычных показателей, таких как...

13
Сравнение двух моделей, когда кривые ROC пересекают друг друга

Одна общая мера, используемая для сравнения двух или более классификационных моделей, заключается в использовании площади под кривой ROC (AUC) в качестве способа косвенной оценки их эффективности. В этом случае модель с большим AUC обычно интерпретируется как работающая лучше, чем модель с меньшим...

13
Связь между коэффициентами корреляции Фи, Мэтьюса и Пирсона

Являются ли коэффициенты корреляции фи и Мэтьюса одним и тем же понятием? Как они связаны или эквивалентны коэффициенту корреляции Пирсона для двух двоичных переменных? Я предполагаю, что двоичные значения равны 0 и 1. Корреляция Пирсона между двумя случайными величинами Бернулли и :уxxxyyy...

12
Точный критерий Фишера и гипергеометрическое распределение

Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например: > soda_gender f m n 0 5 y 5 0 Очевидно, это резкое упрощение, но я не хотел, чтобы контекст мешал....

12
Почему в классической статистике не используется метод удержания (разделение данных на обучение и тестирование)?

В моей классной работе по извлечению данных был предложен метод удержания для оценки производительности модели. Однако, когда я взял свой первый класс по линейным моделям, это не было введено как средство проверки или оценки модели. Мои онлайн-исследования также не показывают какого-либо...

12
В чем разница между

Я читал о метриках регрессии в питоне scikit учиться ручным и даже если каждый из них имеет свою собственную формулу, я не могу сказать , интуитивно , что разница между и дисперсией баллами и поэтому , когда использовать один или другой , чтобы оценить мои...

10
Оцениваете производительность регрессионной модели с использованием обучающих и тестовых наборов?

Я часто слышу об оценке эффективности модели классификации, проводя тестовый набор и обучая модель на тренировочном наборе. Затем создаем 2 вектора, один для прогнозируемых значений и один для истинных значений. Очевидно, что сравнение позволяет судить о производительности модели по ее...

10
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою...

10
Лучший способ оценить методы оценки PDF

Я хочу проверить некоторые из моих идей, которые, на мой взгляд, лучше, чем все, что я видел. Я могу ошибаться, но я хотел бы проверить свои идеи и побороть мои сомнения с помощью более определенных наблюдений. Я думал сделать следующее: Аналитически определить набор распределений. Некоторые из них...

10
Почему бета-оценка определяет бета как это?

Это бета-оценка F: Fβ= ( 1 + β2) ⋅ р г е с я с я о п ⋅ г е с л л( β2⋅ р т е с я с я о п ) + г е грл лFβзнак равно(1+β2)⋅пресяsяоN⋅ресaLL(β2⋅пресяsяоN)+ресaLLF_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}} В статье...

10
Как сравнить точность двух разных моделей, используя статистическую значимость

Я работаю над прогнозированием временных рядов. У меня есть два набора данных: и . У меня есть три модели прогнозирования: M1, M2, M3 . Все эти модели обучаются с использованием выборок в наборе данных D1 , и их производительность измеряется с использованием выборок в наборе данных D2 . Допустим,...

10
Подходит при обучении из огромных наборов данных?

По сути, есть два распространенных способа обучения на огромных наборах данных (когда вы сталкиваетесь с ограничениями времени / пространства): Обман :) - используйте только «управляемое» подмножество для обучения. Потеря точности может быть незначительной из-за закона убывающей отдачи -...