Я установил свою модель и пытаюсь понять, хороша ли она. Я рассчитал рекомендуемые показатели для его оценки ( / AUC / точность / ошибка прогнозирования / и т. Д.), Но не знаю, как их интерпретировать. Короче говоря, как мне определить, хороша ли моя модель по метрике? Достаточно ли 0,6 (например), чтобы я мог сделать выводы или обосновать научные / деловые решения?
Этот вопрос намеренно широк, чтобы охватить широкий круг ситуаций, с которыми часто сталкиваются члены; такие вопросы могут быть закрыты как дубликаты этого. Приветствуются изменения, расширяющие область действия за пределы упомянутых метрик, а также дополнительные ответы, особенно те, которые дают представление о других классах метрик.
goodness-of-fit
r-squared
accuracy
auc
diagnostic
mkt - восстановить монику
источник
источник
Ответы:
Этот ответ будет в основном сфокусирован на , но большая часть этой логики распространяется на другие метрики, такие как AUC и так далее.R2
Читатели из CrossValidated почти наверняка не смогут ответить на этот вопрос. Не существует неконтекстного способа решить, хороши ли метрики модели, такие как , или нетR2 . В крайних случаях обычно можно получить консенсус от широкого круга экспертов: равное почти 1, обычно указывает на хорошую модель, а значение, близкое к 0, указывает на ужасную модель. Между ними лежит диапазон, в котором оценки носят субъективный характер. В этом диапазоне требуется больше, чем просто статистическая экспертиза, чтобы ответить, хороша ли ваша метрика модели. Требуются дополнительные знания в вашей области, которых, вероятно, нет у читателей CrossValidated.R2
Почему это? Позвольте мне проиллюстрировать это на примере из моего собственного опыта (мелкие детали изменены).
Я имел обыкновение делать лабораторные эксперименты по микробиологии. Я бы поставил колбы с клетками на разные уровни концентрации питательных веществ и измерил рост плотности клеток (то есть наклон плотности клеток во времени, хотя эта деталь не важна). Когда я затем смоделировал это соотношение роста / питательных веществ, было обычно достигать значений > 0,90.R2
Теперь я ученый-эколог. Я работаю с наборами данных, содержащих измерения с натуры. Если я попытаюсь приспособить точно такую же модель, описанную выше, к этим наборам данных «поля», я буду удивлен, если достигнет 0,4.R2
В этих двух случаях используются одни и те же параметры с очень похожими методами измерения, модели, написанные и смонтированные с использованием одних и тех же процедур, и даже один и тот же человек выполняет подгонку! Но в одном случае 0,7 было бы ужасно низким, а в другом - подозрительно высоким.R2
Кроме того, мы бы взяли некоторые химические измерения наряду с биологическими измерениями. Модели для стандартных химических кривых имели бы около 0,99, а значение 0,90 было бы крайне низким .R2
Что приводит к этим большим различиям в ожиданиях? Контекст. Этот расплывчатый термин охватывает обширную область, поэтому позвольте мне попытаться разделить его на несколько более конкретных факторов (это, вероятно, не полностью):
1. Что такое выплата / последствия / заявка?
Вот где природа вашей области, вероятно, будет наиболее важной. Как бы я ни ценил свою работу, увеличение моей модели с на 0,1 или 0,2 не произведет революцию в мире. Но есть приложения, где такая величина изменений будет огромной! Гораздо меньшее улучшение модели прогноза акций может означать десятки миллионов долларов для фирмы, которая ее разрабатывает.R2
Это еще проще проиллюстрировать для классификаторов, поэтому я собираюсь переключить мое обсуждение метрик с на точность для следующего примера (игнорируя слабость метрики точности на данный момент). Рассмотрим странный и прибыльный мир куриного пола . После нескольких лет тренировок человек может быстро определить разницу между цыплятами мужского и женского пола, когда им всего 1 день. Самцов и самок кормят по-разному, чтобы оптимизировать производство мяса и яиц, поэтому высокая точность позволяет сэкономить огромные суммы нерационально распределенных инвестиций в миллиардыR2 птиц. Еще несколько десятилетий назад точность в 85% считалась высокой в США. В настоящее время ценность достижения очень высокой точности, около 99%? Заработная плата, которая, по-видимому, может варьироваться от 60 000 до, возможно, 180 000 долларов в год (на основе некоторого быстрого поиска в Google). Поскольку люди все еще ограничены в скорости, с которой они работают, алгоритмы машинного обучения, которые могут достигать аналогичной точности, но позволяют выполнять сортировку быстрее, могут стоить миллионы.
(Надеюсь, вам понравился пример - альтернатива была удручающей в отношении очень сомнительной алгоритмической идентификации террористов).
2. Насколько сильно влияние немоделируемых факторов в вашей системе?
Во многих экспериментах вы можете позволить себе роскошь изолировать систему от всех других факторов, которые могут на нее повлиять (в конце концов, это отчасти цель экспериментов). Природа грязнее. Продолжая более ранний пример микробиологии: клетки растут, когда питательные вещества доступны, но на них влияют и другие вещи - насколько жарко, сколько хищников их есть, есть ли в воде токсины. Все они вместе с питательными веществами и друг с другом сложным образом. Каждый из этих других факторов приводит к изменению данных, которые не собираются вашей моделью. Питательные вещества могут быть не важны в вариациях вождения по сравнению с другими факторами, и поэтому, если я исключу эти другие факторы, моя модель моих полевых данных обязательно будет иметь более низкое .R2
3. Насколько точны и точны ваши измерения?
Измерение концентрации клеток и химических веществ может быть чрезвычайно точным и точным. Измерение (например) эмоционального состояния сообщества на основе трендов хештегов в Твиттере, скорее всего, будет… меньше. Если вы не можете быть точными в своих измерениях, маловероятно, что ваша модель сможет когда-либо достичь высокого . Насколько точны измерения в вашей области? Мы, вероятно, не знаем.R2
4. Сложность и обобщения модели
Если вы добавите в модель больше факторов, даже случайных, вы в среднем увеличите модель (скорректированная величина частично решает эту проблему). Это переоснащение . Модель перехвата не будет хорошо обобщать новые данные, т.е. будет иметь более высокую погрешность прогнозирования, чем ожидалось, на основе соответствия исходному (обучающему) набору данных. Это потому, что он соответствует шуму в исходном наборе данных. Это частично объясняет, почему модели штрафуются за сложность процедур выбора моделей или подвергаются регуляризации.R2 R2
Если переоснащение игнорируется или не может быть успешно предотвращено, оценочное значение будет смещено вверх, т.е. выше, чем должно быть. Другими словами, ваше значение может дать вам неверное представление о производительности вашей модели, если она не подходит.R2 R2
ИМО, переоснащение на удивление распространено во многих областях. Как избежать этого - сложная тема, и я рекомендую прочитать о процедурах регуляризации и выборе модели на этом сайте, если вы заинтересованы в этом.
5. Диапазон данных и экстраполяция
Распространяется ли ваш набор данных на существенную часть диапазона значений X, которые вас интересуют? Добавление новых точек данных за пределы существующего диапазона данных может оказать большое влияние на оценку , поскольку это метрика, основанная на дисперсии X и Y.R2
Помимо этого, если вы подгоняете модель к набору данных и хотите предсказать значение за пределами диапазона X этого набора данных (т. Е. Экстраполировать ), вы можете обнаружить, что ее производительность ниже, чем вы ожидаете. Это связано с тем, что оцененные вами отношения вполне могут измениться за пределами установленного вами диапазона данных. На рисунке ниже, если вы проводили измерения только в диапазоне, указанном зеленым квадратом, вы можете представить, что прямая линия (красным) хорошо описывает данные. Но если вы попытаетесь предсказать значение за пределами этого диапазона с помощью этой красной линии, вы будете совершенно неверны.
[Фигура является отредактированной версией этой , найденной через быстрый поиск в Google по «кривой Монода».]
6. Метрики дают вам только часть картины
Это на самом деле не критика метрик - они являются сводными данными, что означает, что они также выбрасывают информацию по своему замыслу. Но это означает, что любая метрика не учитывает информацию, которая может иметь решающее значение для ее интерпретации. Хороший анализ учитывает более одной метрики.
Предложения, исправления и другие отзывы приветствуются. И другие ответы тоже, конечно.
источник
Эта проблема возникает в моей области гидрологии при оценке того, насколько хорошо модели прогнозируют поток по данным о количестве осадков и климате. Некоторые исследователи ( Chiew and McMahon, 1993 ) опросили 93 гидролога, (63 ответили), чтобы выяснить, какие диагностические графики и статистические данные о достоверности соответствия они использовали, которые были наиболее важными, и как они использовались для классификации качества соответствия модели. , Результаты уже датированы, но подход все еще может представлять интерес. Они представили результаты подбора моделей различных качеств и попросили гидрологов классифицировать их по 4 категориям (1) совершенно приемлемый результат; (2) приемлемо, но используется с оговоркой; (3) неприемлемо, используйте только если нет другой альтернативы; и (4) никогда не использовать ни при каких условиях.
Наиболее важными диагностическими графиками были графики временных рядов и диаграммы рассеяния смоделированных и зарегистрированных потоков по данным, использованным для калибровки. R-квадрат и коэффициент эффективности модели Нэша-Сатклиффа (E) были предпочтительной статистикой соответствия. Например, результаты считались приемлемыми, если E => 0,8
Есть и другие примеры в литературе. При оценке модели экосистемы в Северном море была использована следующая классификация: E> 0,65 превосходно, 0,5–0,65 очень хорошо, 0,2–0,5 хорошо и <0,2 плохо ( Allen et al., 2007 ).
Moriasi et al. (2015) предоставляет таблицы допустимых значений для метрик для различных типов моделей.
Я суммировал эту информацию и ссылки в блоге .
Аллен Дж., П. Сомерфилд и Ф. Гилберт (2007), Количественная оценка неопределенности в моделях связанных гидродинамических экосистем высокого разрешения, J. Mar. Syst., 64 (1–4), 3–14, doi: 10.1016 /j.jmarsys.2006.02.010.
Мориази, Д., Гитау, М. Пай, Н. и Даггупати, П. (2015) Модели гидрологии и качества воды: показатели эффективности и критерии оценки Сделки ASABE (Американское общество инженеров сельского хозяйства и биологии) 58 (6): 1763-1785
источник
Просто добавлю к отличным ответам выше - по моему опыту, метрики оценки и диагностические инструменты так же хороши и честны, как и человек, использующий их. То есть, если вы понимаете математику, стоящую за ними, то, вероятно, вы можете искусственно увеличить их, чтобы ваша модель выглядела лучше, не увеличивая ее фактическую полезность.
Я буду кратким ответ на этот вопрос, так как выше, делают большую работу, предоставляя объяснения / ссылки. Я просто хотел добавить некоторую перспективу в раздел 6. Метрики дают только часть картины по ответу mkt.
Надеюсь это поможет.
источник