Я только что закончил курс машинного обучения для R на cognitiveclass.ai и начал экспериментировать со случайными лесами.
Я сделал модель, используя библиотеку randomForest из R. Модель классифицируется по двум классам: хороший и плохой.
Я знаю, что, когда модель переоснащена, она хорошо работает на данных из своего собственного набора обучения, но плохо на данных вне выборки.
Для обучения и тестирования моей модели я перетасовал и разделил весь набор данных на 70% для обучения и 30% для тестирования.
Мой вопрос: я получаю 100% точность прогноза, сделанного на тестовом наборе. Это плохо? Это кажется слишком хорошим, чтобы быть правдой.
Целью является распознавание формы волны на четырех на друг друга в зависимости от формы волны. Особенностями набора данных являются стоимостные результаты анализа сигналов динамического коробления во времени с их целевым сигналом.
источник
Ответы:
Высокие баллы проверки, такие как точность, обычно означают, что вы не перегружаете себя, однако это должно привести к осторожности и может указывать на что-то пошло не так Это также может означать, что проблема не слишком сложна и что ваша модель действительно работает хорошо. Две вещи, которые могут пойти не так:
источник
Изучите, каковы ваши самые предсказательные особенности. Иногда вы случайно включили вашу цель (или что-то, что эквивалентно вашей цели) среди ваших функций.
источник