Извлечение функций и выбор функций существенно уменьшают размерность данных, но извлечение функций также делает данные более разделимыми, если я прав.
Какой метод предпочтительнее другого и когда?
Я подумал, поскольку выбор функции не изменяет исходные данные и их свойства, я предполагаю, что вы будете использовать выбор функции, когда важно, чтобы функции, на которых вы тренируетесь, оставались неизменными. Но я не могу представить, почему вы хотите что-то подобное ..
Как сказал Адитья, есть 3 связанных с особенностями термина, которые иногда путают друг с другом. Я постараюсь дать краткое объяснение каждому из них:
Если единственное, чего вы хотите добиться - это уменьшить размерность в существующем наборе данных, вы можете использовать методы преобразования объектов или выбора объектов. Но если вам нужно знать физическую интерпретацию функций, которые вы определяете как «важные», или вы пытаетесь ограничить объем данных, которые необходимо собрать для анализа (вам необходим весь начальный набор функций для преобразования функций), тогда может работать только выбор функций.
Вы можете найти более подробную информацию о выборе объектов и уменьшении размеров в следующих ссылках:
Краткое описание методов уменьшения размеров
Классификация и выбор характеристик: обзор
Соответствующие вопросы и ответы в переполнении стека
источник
Я думаю, что это две разные вещи,
Начнем с выбора функций :
Этот метод используется для выбора функций, которые объясняют большую часть целевой переменной (имеет корреляцию с целевой переменной). Этот тест выполняется непосредственно перед применением модели к данным.
Чтобы объяснить это лучше, давайте рассмотрим пример: есть 10 признаков и 1 целевая переменная, 9 функций объясняют 90% целевой переменной, а 10 функций вместе объясняют 91% целевой переменной. Таким образом, переменная 1 не имеет большого значения, поэтому вы склонны удалять ее перед моделированием (это также субъективно для бизнеса). Меня также могут называть Predictor Важность.
Теперь давайте поговорим о Feature Extraction ,
Который используется в обучении без учителя, извлечении контуров в изображениях, извлечении би-граммов из текста, извлечении фонем из записи произносимого текста. Когда вы ничего не знаете о данных, таких как словарь данных, слишком много функций, что означает, что данные не в понятном формате. Затем вы пытаетесь применить эту технику, чтобы получить некоторые функции, которые объясняют большую часть данных. Извлечение признаков включает в себя преобразование функций, которое часто необратимо, потому что некоторая информация теряется в процессе уменьшения размерности.
Вы можете применить Feature Extraction к заданным данным, чтобы извлечь объекты, а затем применить Feature Feature относительно целевой переменной, чтобы выбрать подмножество, которое может помочь в создании хорошей модели с хорошими результатами.
Вы можете пройти через эти Link-1 , Link-2 для лучшего понимания.
мы можем реализовать их в R, Python, SPSS.
дайте мне знать, если нужно больше разъяснений.
источник
Они очень разные: выбор объектов действительно уменьшает размеры, но извлечение объектов добавляет измерения, которые вычисляются из других объектов.
Для данных панели или временных рядов обычно используется переменная datetime, и не требуется обучать зависимую переменную самой дате, так как они не появятся в будущем. Таким образом, вы должны исключить дату и время: удаление функции.
С другой стороны, день недели / выходной день может быть очень важным, поэтому нам нужно вычислить состояние дня недели из datetime: извлечение функции.
источник
Цитата: «Руки на машинное обучение с SciKit-Learn, Keras & Tensorflow - Aurelien Geron»
источник