Общие процедуры выбора переменных на основе данных (например, прямое, обратное, пошаговое, все подмножества) имеют тенденцию приводить к появлению моделей с нежелательными свойствами, включая:
- Коэффициенты смещены от нуля.
- Слишком малые стандартные ошибки и слишком узкие доверительные интервалы.
- Проверьте статистику и p-значения, которые не имеют объявленного значения.
- Оценки соответствия модели, которые являются чрезмерно оптимистичными.
- Включенные термины, которые могут быть бессмысленными (например, исключение терминов более низкого порядка).
Тем не менее, процедуры выбора переменных сохраняются. Учитывая проблемы с выбором переменных, зачем нужны эти процедуры? Что мотивирует их использование?
Некоторые предложения, чтобы начать обсуждение ....
- Желание интерпретируемых коэффициентов регрессии? (Введен в заблуждение в модели со многими IV?)
- Устранить дисперсию, вносимую нерелевантными переменными?
- Устранить ненужные ковариации / избыточности среди независимых переменных?
- Уменьшите количество оценок параметров (проблемы мощности, размера выборки)
Есть ли другие? Являются ли проблемы, решаемые методами выбора переменных, более или менее важными, чем проблемы, возникающие при выборе переменных? Когда их следует использовать? Когда их не следует использовать?
Ответы:
Выбор переменных (без штрафных санкций) только усугубляет ситуацию. Выбор переменных почти не имеет шансов найти «правильные» переменные и приводит к значительному завышению эффектов оставшихся переменных и огромному занижению стандартных ошибок. Ошибочно полагать, что выбор переменной, сделанный обычным способом, помогает обойти проблему «большого p, малого n». Суть в том, что окончательная модель вводит в заблуждение во всех отношениях. Это связано с поразительным утверждением, которое я прочитал в эпидемиологической статье: «У нас не было достаточного размера выборки для разработки модели с несколькими переменными, поэтому вместо этого мы выполнили все возможные тесты для таблиц 2x2».
Каждый раз, когда данный набор данных используется для исключения переменных, при использовании Y для принятия решения все статистические величины будут искажаться. Типичный выбор переменной - мираж.
Редактировать : (Копирование комментариев снизу скрыто за сгибом)
Я не хочу быть корыстным, но моя книга « Стратегии регрессионного моделирования» углубляется в это. Интернет-материалы, включая раздаточные материалы, можно найти на моей веб-странице . Некоторые доступные методы - (регрессия гребня), (лассо) и так называемая эластичная сеть (комбинация и ). Или используйте сокращение данных (слепо для ответа ) перед выполнением регрессии. Моя книга уделяет этому больше внимания, чем наказанию.L2 L1 L1 L2 Y
источник
Прежде всего, недостатки, которые вы упомянули, - это последствия неправильного выбора объектов , то есть переоснащения, незавершенности или перерегулирования.
«Идеальная» ФС состоит из двух шагов; во-первых, это удаление всех переменных, не связанных с DV (так называемые все соответствующие проблемы, очень сложная задача, не связанная с используемой моделью / классификатором), во-вторых, ограничение набора только теми переменными, которые могут оптимально использоваться модель (например, и одинаково хороши в объяснении , но линейная модель, скорее всего, не сможет использовать в общем случае) - эта модель называется минимально оптимальной .eY Y Y eY
Все соответствующие уровни дают представление о том, что действительно движет данным процессом, поэтому имеют пояснительную ценность. Минимальный оптимальный уровень (по конструкции) дает как можно более подходящую модель, работающую с максимально возможными незагроможденными данными.
Реальные ФС просто хотят достичь одной из этих целей (обычно последней).
источник
Выбор переменных обязательно, потому что большинство моделей плохо справляются с большим количеством нерелевантных переменных. Эти переменные только внесут шум в вашу модель, или, что еще хуже, приведут вас к чрезмерному соответствию. Это хорошая идея, чтобы исключить эти переменные из анализа.
Кроме того, вы не можете включить все переменные, которые существуют в каждом анализе, потому что их существует бесконечное количество. В какой-то момент вы должны провести черту, и это хорошо делать строго. Отсюда и все обсуждения по выбору переменных.
Большинство проблем с выбором переменных может быть решено путем перекрестной проверки или с помощью модели со встроенным штрафом и выбором признаков (например, эластичная сеть для линейных моделей).
Если вас интересуют некоторые эмпирические результаты, связанные с множественными переменными, вызывающими переопределение , ознакомьтесь с результатами конкурса « Не перегружайте» на Kaggle.
источник