Вопросы с тегом «valuation»

107
Почему точность не является наилучшей мерой для оценки моделей классификации?

Это общий вопрос, который косвенно задавался здесь несколько раз, но в нем нет ни одного авторитетного ответа. Было бы здорово иметь подробный ответ на этот вопрос для справки. Точность , доля правильных классификаций среди всех классификаций, является очень простой и очень «интуитивно понятной»...

54
Лучший алгоритм PCA для огромного количества функций (> 10K)?

Ранее я спрашивал об этом в StackOverflow, но кажется, что это может быть более уместным, учитывая, что он не получил никаких ответов по SO. Это своего рода на пересечении статистики и программирования. Мне нужно написать код для PCA (Анализ основных компонентов). Я просмотрел известные алгоритмы и...

43
Оптимизированные реализации алгоритма Random Forest

Я заметил , что есть несколько реализаций случайного леса , такие как ALGLIB, вафли и некоторые R пакеты , например randomForest. Кто-нибудь может сказать мне, высоко ли оптимизированы эти библиотеки? Являются ли они в основном эквивалентными случайным лесам, как подробно описано в «Элементах...

35
Как выбрать метод кластеризации? Как проверить кластерное решение (чтобы гарантировать выбор метода)?

Одна из самых больших проблем с кластерным анализом заключается в том, что нам, возможно, придется делать разные выводы, основываясь на разных методах кластеризации (включая разные методы связи в иерархической кластеризации). Хотелось бы узнать ваше мнение по этому поводу - какой метод вы выберете...

31
Неправильное использование перекрестной проверки (представление отчета о наилучшем значении гиперпараметра)

Недавно я натолкнулся на статью, в которой предлагается использовать классификатор k-NN для конкретного набора данных. Авторы использовали все доступные образцы данных, чтобы выполнить перекрестную проверку в k-кратном размере для различных значений k и сообщить результаты перекрестной проверки...

24
Оценка логистической регрессии и интерпретации Хосмера-Лемешоу Goodness of Fit

Как мы все знаем, есть 2 метода для оценки модели логистической регрессии, и они тестируют очень разные вещи Прогнозирующая сила: Получите статистику, которая измеряет, насколько хорошо вы можете предсказать зависимую переменную на основе независимых переменных. Хорошо известными псевдо R ^ 2...

22
Создание индекса качества из нескольких переменных для включения порядка рангов

У меня есть четыре числовые переменные. Все они являются показателями качества почвы. Чем выше переменная, тем выше качество. Диапазон для всех них различен: Вар1 от 1 до 10 Вар2 от 1000 до 2000 Вар3 от 150 до 300 Вар4 от 0 до 5 Мне нужно объединить четыре переменные в один показатель качества...

22
Классификационные / оценочные показатели для сильно несбалансированных данных

Я имею дело с проблемой обнаружения мошенничества (кредитной оценки). Таким образом, существует очень несбалансированная связь между мошенническими и не мошенническими наблюдениями. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html предоставляет большой обзор различных...

14
Зачем использовать нормализованный счет Джини вместо AUC в качестве оценки?

Конкурс Kaggle в прогнозировании безопасного водителя Порто Сегуро использует нормализованную оценку Джини в качестве метрики оценки, и мне стало любопытно узнать причины такого выбора. Каковы преимущества использования нормализованной оценки Джини вместо наиболее обычных показателей, таких как...

13
Сравнение двух моделей, когда кривые ROC пересекают друг друга

Одна общая мера, используемая для сравнения двух или более классификационных моделей, заключается в использовании площади под кривой ROC (AUC) в качестве способа косвенной оценки их эффективности. В этом случае модель с большим AUC обычно интерпретируется как работающая лучше, чем модель с меньшим...

13
Связь между коэффициентами корреляции Фи, Мэтьюса и Пирсона

Являются ли коэффициенты корреляции фи и Мэтьюса одним и тем же понятием? Как они связаны или эквивалентны коэффициенту корреляции Пирсона для двух двоичных переменных? Я предполагаю, что двоичные значения равны 0 и 1. Корреляция Пирсона между двумя случайными величинами Бернулли и :уxxxyyy...

13
Общий рейтинг из нескольких рейтинговых списков

Я просмотрел много литературы, доступной в Интернете, в том числе этот форум, но безуспешно и надеюсь, что кто-то может помочь в статистической проблеме, с которой я сейчас сталкиваюсь: У меня есть 5 списков ранжированных данных, каждый из которых содержит 10 пунктов, ранжированных от позиции 1...

12
Точный критерий Фишера и гипергеометрическое распределение

Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например: > soda_gender f m n 0 5 y 5 0 Очевидно, это резкое упрощение, но я не хотел, чтобы контекст мешал....

12
Почему в классической статистике не используется метод удержания (разделение данных на обучение и тестирование)?

В моей классной работе по извлечению данных был предложен метод удержания для оценки производительности модели. Однако, когда я взял свой первый класс по линейным моделям, это не было введено как средство проверки или оценки модели. Мои онлайн-исследования также не показывают какого-либо...

12
В чем разница между

Я читал о метриках регрессии в питоне scikit учиться ручным и даже если каждый из них имеет свою собственную формулу, я не могу сказать , интуитивно , что разница между и дисперсией баллами и поэтому , когда использовать один или другой , чтобы оценить мои...

11
Как заказать или оценить набор экспертов?

У меня есть база данных, содержащая большое количество экспертов в этой области. Для каждого из этих экспертов у меня есть множество атрибутов / точек данных, таких как: количество лет опыта. лицензии количество отзывов текстовое содержание этих обзоров 5-звездочный рейтинг в каждом из этих обзоров...

10
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою...

10
Оцениваете производительность регрессионной модели с использованием обучающих и тестовых наборов?

Я часто слышу об оценке эффективности модели классификации, проводя тестовый набор и обучая модель на тренировочном наборе. Затем создаем 2 вектора, один для прогнозируемых значений и один для истинных значений. Очевидно, что сравнение позволяет судить о производительности модели по ее...

10
Как сравнить точность двух разных моделей, используя статистическую значимость

Я работаю над прогнозированием временных рядов. У меня есть два набора данных: и . У меня есть три модели прогнозирования: M1, M2, M3 . Все эти модели обучаются с использованием выборок в наборе данных D1 , и их производительность измеряется с использованием выборок в наборе данных D2 . Допустим,...