Является ли 100% точность модели при превышении данных вне выборки?

11

Я только что закончил курс машинного обучения для R на cognitiveclass.ai и начал экспериментировать со случайными лесами.

Я сделал модель, используя библиотеку randomForest из R. Модель классифицируется по двум классам: хороший и плохой.

Я знаю, что, когда модель переоснащена, она хорошо работает на данных из своего собственного набора обучения, но плохо на данных вне выборки.

Для обучения и тестирования моей модели я перетасовал и разделил весь набор данных на 70% для обучения и 30% для тестирования.

Мой вопрос: я получаю 100% точность прогноза, сделанного на тестовом наборе. Это плохо? Это кажется слишком хорошим, чтобы быть правдой.

Целью является распознавание формы волны на четырех на друг друга в зависимости от формы волны. Особенностями набора данных являются стоимостные результаты анализа сигналов динамического коробления во времени с их целевым сигналом.

Милан ван Дейк
источник
добро пожаловать на сайт! Вы пытались предсказать некоторые данные шума?
Торос91
Каждый раз, когда вы переставляете, тренируетесь и тестируете, точность составляет 100%?
Алекс
@ Алекс Не совсем, но он остается очень высоким, как 98,55%
Милан ван Дейк
1
@ Алекс 11,35% "хорошо" и 88,65% "плохо"
Милан ван Дейк
1
Это довольно несбалансированно. Попробуйте использовать повторную выборку (повторную выборку), чтобы склонить баланс в обучающем наборе к классу ОК (например, сделайте это 30%) и сохранить соотношение 11/89 в наборах тестирования / проверки. Что вы получаете?
Алекс

Ответы:

29

Высокие баллы проверки, такие как точность, обычно означают, что вы не перегружаете себя, однако это должно привести к осторожности и может указывать на что-то пошло не так Это также может означать, что проблема не слишком сложна и что ваша модель действительно работает хорошо. Две вещи, которые могут пойти не так:

  • Вы не разбили данные должным образом, и данные проверки также появились в ваших данных обучения, что означает, что это указывает на переобучение, потому что вы больше не измеряете обобщение
  • Вы используете некоторую разработку функций для создания дополнительных функций, и, возможно, вы ввели некоторую утечку цели, когда ваши строки используют информацию из своей текущей цели, а не только от других в вашем обучающем наборе
Ян ван дер Вегт
источник
11
Точность 100% всегда выдает «утечку цели».
Пол
1

Изучите, каковы ваши самые предсказательные особенности. Иногда вы случайно включили вашу цель (или что-то, что эквивалентно вашей цели) среди ваших функций.

Том
источник