Должны ли «сохраняться» ковариаты, которые не являются статистически значимыми при создании модели?

39

У меня есть несколько ковариат в моем расчете для модели, и не все из них являются статистически значимыми. Должен ли я удалить те, которые не являются?

Этот вопрос обсуждает это явление, но не отвечает на мой вопрос: как интерпретировать незначительный эффект ковариаты в ANCOVA?

В ответе на этот вопрос нет ничего, что предполагало бы удаление незначимых ковариат, однако сейчас я склонен полагать, что они должны остаться. Прежде чем даже прочитать этот ответ, я думал так же, поскольку ковариата все еще может объяснить некоторую дисперсию (и, таким образом, помочь модели) без необходимости объяснения суммы за некоторым порогом (порог значимости, который я считаю неприменимым к ковариатам).

Где-то в CV есть еще один вопрос, ответ на который, по-видимому, подразумевает, что ковариаты должны храниться независимо от их значения, но это неясно. (Я хочу дать ссылку на этот вопрос, но я не смог найти его снова прямо сейчас.)

Итак ... Должны ли ковариаты, которые не показаны как статистически значимые, быть сохранены в расчете для модели? (Я отредактировал этот вопрос, чтобы уточнить, что ковариаты никогда не попадают в выходные данные модели при любом вычислении.)

Чтобы добавить усложнение, что, если ковариаты статистически значимы для некоторых подмножеств данных (подмножеств, которые должны обрабатываться отдельно). Я бы по умолчанию оставил такой ковариат, иначе нужно будет использовать разные модели, или в одном из случаев будет отсутствовать статистически значимый ковариат. Если у вас также есть ответ на этот разделенный случай, пожалуйста, укажите это.

AM
источник
6
Вообще говоря, я бы сказал, что вы должны хранить переменные, которые являются теоретически важными или значимыми в предыдущих исследованиях, даже если ваши данные не подтверждают их влияние. При этом, чтобы получить более конкретный ответ, я думаю, что вы должны добавить пару строк, чтобы объяснить вашу модель и ее назначение (например, определение факторов риска, прогнозирование, ...).
ocram
Я бы сказал, что это зависит. Тесты - это просто индикаторы. Если вы считаете, что должна быть небольшая зависимость, подумайте о сохранении в модели. Если вы также верите, что зависимости не должно быть, оставьте ее.
Bene
ОК, так что вы оба говорите , что не-значение не диктует коварьировать удаляется из рассмотрения, так что вы оба фактически ответили на мой вопрос. Я должен перефразировать мой вопрос, чтобы более четко указать, что я спрашиваю, является ли статистическая значимость ковариаты необходимым условием для ее сохранения («Означает ли не значимость ковариаты, что ее следует удалить ...»), и Я бы принял любой из ваших комментариев в качестве ответов.
AM
Прежде чем я сделаю это, я хотел бы убедиться, что я использую правильную терминологию. Первоначально я писал «держал в модели», но это не казалось правильным, потому что ковариаты никогда не появляются в модели. Я согласился на то, что «оставлен в расчете для модели » (и «снят с рассмотрения »), но есть ли лучший способ сказать это? Каков правильный термин для того, для чего хранится или удаляется ковариата?
AM
3
Вам нужно будет проверить правильность выполнения таких процедур отбора. Другие не смогли.
Фрэнк Харрелл

Ответы:

32

Вы уже получили несколько хороших ответов. Есть причины сохранить ковариаты и причины отказаться от ковариат. Статистическая значимость не должна быть ключевым фактором в подавляющем большинстве случаев.

  1. Ковариаты могут иметь такое существенное значение, что они должны быть там.
  2. Величина эффекта ковариаты может быть высокой, даже если она незначительна.
  3. Ковариата может влиять на другие аспекты модели.
  4. Ковариата может быть частью того, как ваша гипотеза была сформулирована.

Если вы находитесь в очень исследовательском режиме и ковариата не важна в литературе, а размер эффекта невелик и ковариата мало влияет на вашу модель, а ковариата не входит в вашу гипотезу, то вы, вероятно, можете удалить ее просто для простоты. ,

Питер Флом - Восстановить Монику
источник
6
Очень важная, но часто игнорируемая ситуация освещается здесь # 4, но я объясню это. Часто - да и обычно - вам следует сравнить свои результаты с результатами предыдущих работников с похожими данными. Если другие найдут конкретные ковариаты, которые стоит включить в их модели, вы должны сравнить свои результаты с их результатами, независимо от того, достигают ли ваши ковариаты (обычных) уровней значимости. Обратите внимание, что случаи здесь могут варьироваться от моделей отчетности, которые вы считаете плохими (особенно), до моделей отчетности, которые вы считаете хорошими.
Ник Кокс
1
Я определенно склонялся к «держать в себе» (и, в первую очередь, не придавал большого значения р-значению для ковариат), но ваш ответ составляет очень хороший контрольный список (ну ... два) для меньшинства. Размер эффекта - это то, что я не учел, и хотя я рассматривал гипотезы, мне очень понравилось, что вы включили его, по причинам, упомянутым @NickCox, и просто для того, чтобы препятствовать рыбалке.
AM
26

п

Фрэнк Харрелл
источник
10
Длинный ответ "да"! +1 и лол.
Питер Флом - Восстановить Монику
Если не p-значения, каковы другие причины для удаления предикторов? Вы упоминаете интерпретацию доверительных интервалов, но кажется, что «интересный диапазон» будет нулевым, что означает, что люди будут интерпретировать КИ, как р-значения (включение или исключение нуля).
Марк Уайт
1
Каковы причины удаления предикторов, когда это искажает статистические свойства? Не понятно по твоему вопросу и "ноль".
Фрэнк Харрелл
7

Одним из полезных выводов является то, что на самом деле нет ничего конкретного о ковариате, если говорить статистически, см., Например, Справку по записи ковариат в формулу регрессии . Между прочим, это может объяснить, почему нет covariateтега. Следовательно, материал здесь и в других местах о не значимых терминах в линейной модели является релевантным, как и хорошо известные критики ступенчатой ​​регрессии, даже если ANCOVA прямо не упоминается.

Вообще говоря, плохая идея выбирать предикторы, основываясь только на их значении. Если по какой-либо причине вы не можете указать модель заранее, вам следует рассмотреть другие подходы, но если вы планировали включить их в первую очередь, собирать данные соответствующим образом и не сталкиваться с конкретными проблемами (например, коллинеарностью), просто сохраните их.

Что касается причин их сохранения, то возражения, которые вы выдвинули, кажутся мне обоснованными. Другая причина заключается в том, что удаление незначимых предикторов смещает выводы на основе модели. Еще один способ взглянуть на все это - спросить, что можно получить, удалив эти ковариаты по факту.

гала
источник
4

Нам действительно нужно больше информации о ваших целях, чтобы ответить на этот вопрос. Регрессии используются для двух основных целей:

  1. прогнозирование
  2. вывод

Прогнозирование - это когда ваша цель состоит в том, чтобы уметь угадывать значения исходной переменной для наблюдений, которых нет в выборке (хотя обычно они находятся в диапазоне данных выборки - в противном случае мы иногда используем слово «прогнозирование»). Прогнозирование полезно для рекламных целей, финансов и т. Д. Если вы просто заинтересованы в прогнозировании некоторой переменной результата, я мало что могу вам предложить.

Вывод, где веселье (даже если это не то, где деньги). Вывод - это то, где вы пытаетесь сделать выводы о конкретных параметрах модели - обычно для определения причинного влияния одной переменной на другую. Несмотря на общее восприятие, регрессионного анализа никогда не достаточно для причинного вывода. Вы всегда должны знать больше о процессе генерации данных, чтобы узнать, отражает ли ваша регрессия причинный эффект. Ключевой вопрос для причинного вывода из регрессий заключается в том, является ли условное среднее ошибки (условное для регрессоров) нулевым. Это не может быть известно из р-значений на регрессорах. Можно иметь объективные или непротиворечивые оценки регрессии, но это требует гораздо больших усилий, чем просто бросить некоторые очевидные элементы управления в регрессию и надеяться, что вы получили важные из них.Освоение метрик: путь от причины к следствию и в основном безвредная эконометрика ). Освоение метрик легче читается и довольно дешево, но имейте в виду, что это не метод регрессий, а их значение. Для хорошего освещения примеров хороших и плохих планов наблюдательных исследований я рекомендую книгу Дэвида Фридмана «Статистические модели и обувная кожа» (1991), Социологическая методология , том 21 (краткое и легко читаемое с увлекательными примерами).

Кроме того: одержимость статистической техникой над хорошим дизайном исследования на большинстве курсов колледжа - моя педагогическая слабость.

Во-вторых, не говоря уже о том, чтобы мотивировать текущую важность этой проблемы: разница между предсказанием и выводом заключается в том, почему большие данные не заменяют науку.

Рэнди Крагун
источник