Я некоторое время работал над машинным обучением и биоинформатикой, и сегодня у меня был разговор с коллегой по основным общим вопросам интеллектуального анализа данных.
Мой коллега (который является экспертом по машинному обучению) сказал, что, по его мнению, возможно, наиболее важный практический аспект машинного обучения заключается в том, как понять, собрали ли вы достаточно данных для обучения своей модели машинного обучения .
Это утверждение удивило меня, потому что я никогда не придавал такого значения этому аспекту ...
Затем я искал дополнительную информацию в Интернете и обнаружил, что этот пост на FastML.com сообщает о том, что вам нужно примерно в 10 раз больше экземпляров данных, чем имеется функций .
Два вопроса:
1 - Действительно ли этот вопрос особенно актуален в машинном обучении?
2 - Правило 10 раз работает? Есть ли другие соответствующие источники по этой теме?
источник
Ответы:
Десятикратное правило кажется мне практическим правилом, но это правда, что производительность вашего алгоритма машинного обучения может снизиться, если вы не обеспечите его достаточным количеством обучающих данных.
Практичный и данных ориентированного на способ определения, есть ли у вас достаточно данных обучения является путем построения кривой обучения, как один в примере ниже:
Кривая обучения отражает эволюцию ошибок обучения и тестирования по мере увеличения размера вашего тренировочного набора.
Как вы можете видеть в самой правой части графика, две линии на графике имеют тенденцию достигать асимптоты. Следовательно, вы в конечном итоге достигнете точки, в которой увеличение размера вашего набора данных не повлияет на вашу обученную модель.
Расстояние между ошибкой теста и асимптотами ошибки обучения является представлением вашей модели. Но что более важно, этот сюжет говорит, нужно ли вам больше данных. По сути, если вы представляете ошибку тестирования и обучения для увеличения больших подмножеств ваших обучающих данных, и линии, кажется, не достигают асимптот, вам следует продолжать собирать больше данных.
источник
X_train, y_train: Only train subset
илиX, y: the entire dataset
источник