Я моделирую событие с двумя исходами, а и б. Я создал модель, которая оценивает вероятность того, что a или b произойдут (то есть модель рассчитает, что a произойдет с вероятностью 40%, а b произойдет с вероятностью 60%).
У меня есть большая запись результатов испытаний с оценками из модели. Я хотел бы дать количественную оценку того, насколько точно модель использует эти данные - возможно ли это, и если да, то как?
Ответы:
Предположим, что ваша модель действительно предсказывает, что шанс А составляет 40%, а В - 60%. В некоторых случаях вы можете захотеть преобразовать это в классификацию, в которой произойдет B (так как это более вероятно, чем A). После преобразования в классификацию каждое предсказание является правильным или неправильным, и существует ряд интересных способов подсчета правильных и неправильных ответов. Одним из них является прямая точность (процент правильных ответов). Другие включают точность и отзыв или F-меру . Как уже упоминалось, вы можете посмотреть на кривую ROC . Кроме того, ваш контекст может предоставить конкретную матрицу затрат, которая вознаграждает истинные позитивы по-разному от истинных негативов и / или штрафует ложные позитивы по-разному от ложных негативов.
Тем не менее, я не думаю, что это то, что вы действительно ищете. Если вы сказали, что вероятность B составляет 60%, а я сказал, что вероятность 99%, у нас очень разные прогнозы, даже если они оба будут сопоставлены с B в простой системе классификации. Если вместо этого произойдет «А», вы просто ошибаетесь, а я очень ошибаюсь, поэтому я надеюсь, что получу более суровое наказание, чем вы. Когда ваша модель фактически производит вероятности, правило оценки является мерой эффективности ваших вероятностных прогнозов. В частности, вам, вероятно, нужно правильное правило подсчета очков, означающее, что оценка оптимизирована для хорошо откалиброванных результатов.
Конечно, тип выбранного вами правила оценки может зависеть от того, какой тип события вы пытаетесь предсказать. Тем не менее, это должно дать вам некоторые идеи для дальнейших исследований.
Я добавлю предостережение о том, что независимо от того, что вы делаете, при оценке вашей модели таким образом, я предлагаю вам взглянуть на свой показатель на данных вне выборки (то есть на данных, которые не использовались для построения вашей модели). Это может быть сделано через перекрестную проверку . Возможно, более просто вы можете построить свою модель на одном наборе данных, а затем оценить ее на другом (стараясь не допустить, чтобы выводы из различий вне выборки попали в моделирование внутри выборки).
источник