Я работаю над сильно несбалансированными данными. В литературе для перебалансировки данных используется несколько методов с использованием повторной выборки (избыточной или недостаточной выборки). Два хороших подхода:
SMOTE: Синтетическая техника пересчёта меньшинств ( SMOTE )
ADASYN: Адаптивный синтетический подход к выборке для несбалансированного обучения ( ADASYN )
Я реализовал ADASYN, потому что его адаптивный характер и простота расширения для многоклассовых задач.
Мой вопрос заключается в том, как проверить данные с передискретизацией, произведенные ADASYN (или любыми другими методами передискретизации). В упомянутых двух статьях неясно, как они проводили свои эксперименты. Есть два сценария:
1- Перебор всего набора данных, затем разделение его на наборы для обучения и тестирования (или перекрестную проверку).
2- После разделения исходного набора данных выполните передискретизацию только на обучающем наборе и выполните тестирование на исходном наборе данных для испытаний (можно выполнить с перекрестной проверкой).
В первом случае результаты намного лучше, чем без передискретизации, но я обеспокоен, если есть переобучение. В то время как во втором случае результаты немного лучше, чем без передискретизации, и намного хуже, чем в первом случае. Но проблема со вторым случаем заключается в том, что если все выборки из класса меньшинства отправляются в набор для тестирования, то при избыточной выборке не будет достигнуто никакого преимущества.
Я не уверен, есть ли другие параметры для проверки таких данных.
Второй (2) вариант - правильный способ сделать это. Синтетические сэмплы, которые вы создаете с помощью методов передискретизации, являются не реальными примерами, а скорее синтетическими. Они не действительны для целей тестирования, в то время как они все еще в порядке для обучения. Они предназначены для изменения поведения классификатора без изменения алгоритма.
источник