Как вы выбираете переменные в регрессионной модели?

12

Традиционный подход к выбору переменных заключается в поиске переменных, которые в наибольшей степени способствуют прогнозированию нового ответа. Недавно я узнал об альтернативе этому. При моделировании переменных, которые определяют эффект лечения, как, например, в клинических испытаниях фармацевтических препаратов, говорят, что переменная качественно взаимодействуетс лечением, если, если оставить другие вещи фиксированными, изменение этой переменной может создать изменение, при котором лечение будет наиболее эффективным. Эти переменные не всегда являются сильными предикторами эффекта, но могут быть важны для врача при выборе лечения для отдельных пациентов. В своей докторской диссертации Лейси Гюнтер разработала метод выбора этих качественно взаимодействующих переменных, которые могут быть пропущены алгоритмами, основывающими выбор на предсказании. Недавно я работал с ней над распространением этих методов на другие модели, включая логистическую регрессию и модели пропорциональной регрессии Кокса.

У меня есть два вопроса:

  1. Что вы думаете о ценности этих новых методов?
  2. В случае традиционных методов какой подход вы предпочитаете? Такие критерии, как AIC, BIC, Mallows Cp, F тесты для ввода или отбрасывания переменных в пошаговом, прямом и обратном направлениях ...

Первая статья по этому вопросу была опубликована в «Гюнтер Л., Чжу, Дж. И Мерфи С.А.» (2009). Выбор переменной для качественного взаимодействия . Статистическая методология doi: 10, 1016 / j.stamet.2009.05.003.

Следующая статья была опубликована в журнале Gunter, L., Zhu, J. and Murphy, SA (2011). Переменный выбор качественных взаимодействий в персонализированной медицине, контролируя частоту ошибок в семье . Журнал биофармацевтической статистики 21, 1063-1078.

Следующий опубликован в специальном выпуске по переменному отбору Гюнтер Л., Черник М.Р. и Сан Дж. (2011). Простой метод отбора переменных в регрессии по отношению к выбору лечения . Пакистанский журнал статистики и исследований операций 7: 363-380.

Вы можете найти газеты на сайтах журналов. Возможно, вам придется купить статью. Я мог бы иметь файлы PDF для этих статей. Лэйси и я только что закончили монографию на эту тему, которая будет опубликована в виде SpringerBrief позже в этом году.

Майкл Р. Черник
источник
11
Может быть, я не следую - если есть априорная причина подозревать изменение эффекта, то чем эти новые методы отличаются, например, от включения терминов взаимодействия в список переменных-кандидатов для выбора модели?
Макрос
6
(1) Одна или несколько строк, кажется, были потеряны в этом вопросе. Я предполагаю, что это может продолжаться «пошагово, вперед и назад, ...» (2) Идентификация модели и выбор переменных здесь широко обсуждались. Например, поиск по + модель + переменная + выбор представляет 145 потоков на данный момент. Сужение этого поиска, вероятно, ответит на второй вопрос. (3) Чтобы облегчить ответы на первый вопрос, не могли бы вы предоставить ссылку или явные ссылки на это исследование?
whuber
2
Это вопрос включения переменной, которая взаимодействует с лечением. Но это качественное взаимодействие, а не просто взаимодействие. Для взаимодействия две линии не должны быть параллельными. Для качественного взаимодействия они должны пересекать интервал, в котором определяется переменная. Таким образом, идея состоит в том, чтобы найти переменную, которая качественно взаимодействует. Это отличается от выбора переменных и условий взаимодействия, которые улучшают соответствие или прогноз.
Майкл Р. Черник
3
Спасибо, что воспользовались возможностью ответить, Майкл. Возможно, ключевым моментом для поднятия является то, что этот сайт - не дискуссионный сайт, а скорее сайт вопросов и ответов. С этим приходит несколько иные способы общения. FAQ охватывает это в некоторых деталях. Иногда потоки могут быть немного утеряны, но на самом деле я нахожу это на удивление редко, как только можно получить немного больше опыта с общей схемой вещей. Приветствия.
кардинал
6
Майкл, да, система SE требует некоторого привыкания и не идеальна. Но это имеет смысл, и это соответствует. Мы стремимся к постоянному улучшению : в отличие от серверов списков и досок объявлений, вопросы (и ответы) могут быть изменены; это ожидается. В конечном счете, мы бы хотели, чтобы поток начинался с одного, хорошо сформулированного, полного вопроса, который стоит сам по себе без ссылки на ветку комментариев; затем следует продолжить с одним или несколькими хорошо написанными, хорошо приписанными каноническими ответами. Учитывая этот идеал, предложения @ cardinal могут иметь для вас больше смысла.
whuber

Ответы:

2
  1. См. Гельман и Хилл, Анализ данных с использованием регрессии и многоуровневой / иерархической модели, стр. 69, у них есть раздел по выбору модели. Она использует подход, основанный на вопросах, который вполне подходит, но в своей статье она должна объяснить, почему она включила то, что сделала в модель. Как вы сказали: «Эти переменные не всегда являются сильными предикторами эффекта, но могут быть важны для врача при выборе лечения для отдельных пациентов». так что пока она оправдывает, почему эти предикторы должны быть включены, это нормально. Лично для меня я предпочитаю эти методы. Итак, вот мой ответ на 2.
  2. Пошагово, вперёд и назад я считаю чёрными ящиками. Когда вы запустите модель через все три, вы не получите тех же предикторов. Поэтому с точки зрения использования, у меня не было бы четкого ответа. AIC или BIC можно использовать для сравнения моделей.
Лорен Гудвин
источник