Предположим, у меня есть алгоритм, который классифицирует вещи на две категории. Я могу измерить точность алгоритма, скажем, на 1000 тестовых вещей - предположим, 80% вещей классифицированы правильно.
Предположим, что я каким-то образом модифицирую алгоритм, чтобы 81% вещей были классифицированы правильно.
Может ли статистика сказать мне что-нибудь о том, является ли мое улучшение алгоритма статистически значимым? Является ли понятие статистической значимости уместным в этой ситуации? Пожалуйста, укажите мне некоторые ресурсы, которые могут иметь отношение к делу.
Огромное спасибо.
Как сказал Эрик, да, вы можете проверить это для статистической значимости. Однако подумайте, что именно вы хотите проверить. Я думаю, что более интересным вопросом может быть вопрос о том, насколько вероятно, что якобы «улучшенный» алгоритм лучше (или значительно лучше), чем оригинал, учитывая данные наблюдаемой разницы в 1%. Задание вопросов в терминах «статистической значимости» приводит к противоположному типу вопросов: учитывая, что оба алгоритма одинаковы, есть ли менее 5% шансов наблюдать улучшение, по крайней мере, в такой степени?
Для меня последний вопрос задом наперед, но он как-то стал стандартом. Вы можете проверить Википедию на противоречие в статистической проверке гипотезы . Впоследствии вас может заинтересовать байесовский вывод . Если вы действительно хотите углубиться в анализ байесовских данных, вы можете проверить «Анализ байесовских данных» Гельмана и др. Или проверить этот вопрос .
источник
Применяя ответ Эрика к Майклу :
Вы можете сделать то же самое мышление, на которое ссылается Эрик при выборе показателя эффективности.
Я считаю полезным ссылаться на различные такие меры по вопросам, на которые они отвечают (здесь, на языке медицинской диагностики, с которым я наиболее знаком - но, возможно, вы можете просто заменить пациента текстом и заболеванием спамом ;-)):
Чувствительность: учитывая, что у пациента действительно есть заболевание, насколько вероятно, чтобы классификатор это понял?
Специфичность: учитывая, что у пациента действительно нет заболевания, насколько вероятно, чтобы классификатор это понял?
Положительная прогностическая ценность: учитывая, что классификатор утверждает, что пациент болен, насколько вероятна болезнь у пациента?
Отрицательная прогностическая ценность: учитывая, что классификатор утверждает, что пациент не болен, насколько вероятно, что у пациента действительно нет заболевания?
Как видите, предсказательные значения - это то, что действительно интересует врачей и пациентов. Однако почти каждый характеризует свой классификатор по чувствительности и специфичности. Причина в том, что прогностические значения должны принимать во внимание распространенность заболевания, и это может сильно различаться (порядки!) Для разных типов пациентов.
Больше по теме на ваш вопрос:
Могу поспорить, вы правы в беспокойстве.
Взяв оба сценария Эрика в пример:
Вот независимые тестовые образцы:
(обратите внимание, что этот тест был двусторонним, предполагая, что два классификатора были бы опубликованы, даже если бы результаты были наоборот)
Вот наилучшая возможная ситуация: парный тест, и новый классификатор подходит для всех выборок, старый тоже подходит, плюс еще 10:
(значение р остается ниже магического 0,05, если не более 10 образцов из 1000 были по-разному предсказаны двумя классификаторами).
Даже если p-значения являются правильным ответом на неправильный вопрос, есть признаки того, что это своего рода трудное место.
Однако, принимая во внимание обычную научную практику, т. Е. Неизвестное (неопубликованное) количество новых функций, было протестировано, и была опубликована только та, которая работала немного лучше, место становится еще более узким. И затем, 80% классификатор может быть просто преемником 79% классификатора ...
Если вам нравится читать по-немецки, есть несколько действительно хороших книг Бек-Борнхольда и Дуббена. Если я правильно помню, Mit a Wahrscheinlichkeit grenzender Sicherheit очень хорошо обсуждает эти проблемы. (Я не знаю, существует ли английское издание, довольно буквальный перевод названия: «С уверенностью, граничащей с вероятностью»)
источник
Я бы настоятельно не рекомендовал использовать любое прерывистое неправильное правило оценки (показатель точности, такой как чувствительность, специфичность, пропорции, классифицированные как правильные, когда оптимизированные результаты в фиктивной модели), и вместо этого использовать тесты отношения правдоподобия или частичные F-тесты для добавленной стоимости нового переменные.
Один из нескольких способов увидеть проблемы с правильной классификацией пропорций состоит в том, что если общая пропорция в одной категории равна 0,9, вы будете правы в 0,9 раза, игнорируя данные и классифицируя каждое наблюдение как относящееся к этой категории.
источник