В чем разница между генерацией и извлечением объектов?

Генерация объектов - это процесс сбора необработанных неструктурированных данных и определения функций (т. Е. Переменных) для потенциального использования в статистическом анализе. Например, в случае интеллектуального анализа текста вы можете начать с необработанного журнала из тысяч текстовых сообщений (например, SMS, электронная почта, сообщения в социальных сетях и т. Д.) И генерировать функции, удаляя малозначимые слова (то есть стоп-слова), используя определенный размер. блоки слов (то есть n-граммы) или применение других правил.

Извлечение элементов. После создания элементов часто необходимо протестировать преобразования исходных элементов и выбрать подмножество этого пула потенциальных исходных и производных элементов для использования в вашей модели (т. Е. Извлечение и выбор элементов). Тестирование производных значений является обычным шагом, поскольку данные могут содержать важную информацию, имеющую нелинейный характер или взаимосвязь с вашим результатом, поэтому важность элемента данных может проявляться только в его преобразованном состоянии (например, производные более высокого порядка). Использование слишком большого количества функций может привести к множественной коллинеарности или иным образом запутать статистические модели, в то время как извлечение минимального количества функций в соответствии с целью вашего анализа следует принципу скупости.

Такое расширение пространства признаков часто является необходимым шагом в классификации изображений или других объектов данных, поскольку необработанное пространство признаков обычно заполняется подавляющим количеством неструктурированных и нерелевантных данных, которые включают в себя то, что в парадигме часто называют «шумом». «сигнал» и «шум» (то есть, что некоторые данные имеют прогностическое значение, а другие нет). Расширяя пространство функций, вы можете лучше идентифицировать важные данные, которые имеют прогностическое или другое значение в вашем анализе (например, «сигнал»), удаляя при этом противоречивую информацию (например, «шум»).

Hack-R,
источник

Хороший ответ! (+1)

Александр Блех

Это мое удовольствие!

Александр Блех

Спасибо .. Существуют ли какие-либо методы для обогащения пространственных объектов?

Сарата Прия

Конечно. Есть много таких методов. Например, фильтр Габора - это алгоритм обнаружения краев полосового фильтра, обычно используемый для генерации признаков в распознавании лиц и классификации текстур. Это может использоваться в сочетании с алгоритмами классификации, такими как машины опорных векторов.

Hack-R

Могу ли я использовать это для обогащения функций в классификации изображений?

Сарата Прия

В чем разница между генерацией и извлечением объектов?

Ответы: