Тест на значимость, основанный на точности / отзыв / F1

Можно ли провести тест значимости, основанный исключительно на показателях точности / отзыва / F1?

Например, если вы столкнулись с двумя системами в документе, для которых сообщается только P / R / F1 (в одном наборе данных и т. Д.), Можете ли вы затем выполнить тест статистической значимости? Если да, то как это сделать?

statistical-significance precision-recall Vam
источник

Ответы:

Интуитивно понятно, что получить высокий P / R / F1 для небольшого набора данных или для очень однородного / предсказуемого набора данных, вероятно, проще, чем получить высокий P / R / F1 для больших или более хаотических наборов данных. Следовательно, улучшение P / R / F1 для более крупного и более хаотичного набора данных является более значительным.

Следуя этой интуиции, вам, вероятно, потребуется доступ к выводу методов «черного ящика», чтобы измерить разницу в распределении результатов, учитывая при этом размер и разнообразие в этом наборе. Только P / R / F1, вероятно, слишком мало информации.

Проверка значимости в этом параметре обычно выполняется путем формирования нулевой гипотезы (оба алгоритма всегда дают один и тот же результат) и затем расчета вероятности наблюдения разницы в выходных данных, которые вы наблюдаете, если алгоритмы действительно были одинаковыми. Например, если вероятность меньше 0,05, вы отвергаете нулевую гипотезу и делаете вывод, что улучшение является значительным.

Этот документ имеет соответствующие обсуждения: http://www.aclweb.org/anthology/C00-2137

Пабло Мендес
источник