Кто-нибудь может сказать мне, какова цель создания функции? и зачем обогащать пространство признаков перед классификацией изображения? Это необходимый шаг?
Есть ли способ обогатить пространство функций?
источник
Кто-нибудь может сказать мне, какова цель создания функции? и зачем обогащать пространство признаков перед классификацией изображения? Это необходимый шаг?
Есть ли способ обогатить пространство функций?
Генерация объектов - это процесс сбора необработанных неструктурированных данных и определения функций (т. Е. Переменных) для потенциального использования в статистическом анализе. Например, в случае интеллектуального анализа текста вы можете начать с необработанного журнала из тысяч текстовых сообщений (например, SMS, электронная почта, сообщения в социальных сетях и т. Д.) И генерировать функции, удаляя малозначимые слова (то есть стоп-слова), используя определенный размер. блоки слов (то есть n-граммы) или применение других правил.
Извлечение элементов. После создания элементов часто необходимо протестировать преобразования исходных элементов и выбрать подмножество этого пула потенциальных исходных и производных элементов для использования в вашей модели (т. Е. Извлечение и выбор элементов). Тестирование производных значений является обычным шагом, поскольку данные могут содержать важную информацию, имеющую нелинейный характер или взаимосвязь с вашим результатом, поэтому важность элемента данных может проявляться только в его преобразованном состоянии (например, производные более высокого порядка). Использование слишком большого количества функций может привести к множественной коллинеарности или иным образом запутать статистические модели, в то время как извлечение минимального количества функций в соответствии с целью вашего анализа следует принципу скупости.
Такое расширение пространства признаков часто является необходимым шагом в классификации изображений или других объектов данных, поскольку необработанное пространство признаков обычно заполняется подавляющим количеством неструктурированных и нерелевантных данных, которые включают в себя то, что в парадигме часто называют «шумом». «сигнал» и «шум» (то есть, что некоторые данные имеют прогностическое значение, а другие нет). Расширяя пространство функций, вы можете лучше идентифицировать важные данные, которые имеют прогностическое или другое значение в вашем анализе (например, «сигнал»), удаляя при этом противоречивую информацию (например, «шум»).