Интуитивно понятно, что получить высокий P / R / F1 для небольшого набора данных или для очень однородного / предсказуемого набора данных, вероятно, проще, чем получить высокий P / R / F1 для больших или более хаотических наборов данных. Следовательно, улучшение P / R / F1 для более крупного и более хаотичного набора данных является более значительным.
Следуя этой интуиции, вам, вероятно, потребуется доступ к выводу методов «черного ящика», чтобы измерить разницу в распределении результатов, учитывая при этом размер и разнообразие в этом наборе. Только P / R / F1, вероятно, слишком мало информации.
Проверка значимости в этом параметре обычно выполняется путем формирования нулевой гипотезы (оба алгоритма всегда дают один и тот же результат) и затем расчета вероятности наблюдения разницы в выходных данных, которые вы наблюдаете, если алгоритмы действительно были одинаковыми. Например, если вероятность меньше 0,05, вы отвергаете нулевую гипотезу и делаете вывод, что улучшение является значительным.
Этот документ имеет соответствующие обсуждения:
http://www.aclweb.org/anthology/C00-2137