У меня есть несколько ковариат в моем расчете для модели, и не все из них являются статистически значимыми. Должен ли я удалить те, которые не являются?
Этот вопрос обсуждает это явление, но не отвечает на мой вопрос: как интерпретировать незначительный эффект ковариаты в ANCOVA?
В ответе на этот вопрос нет ничего, что предполагало бы удаление незначимых ковариат, однако сейчас я склонен полагать, что они должны остаться. Прежде чем даже прочитать этот ответ, я думал так же, поскольку ковариата все еще может объяснить некоторую дисперсию (и, таким образом, помочь модели) без необходимости объяснения суммы за некоторым порогом (порог значимости, который я считаю неприменимым к ковариатам).
Где-то в CV есть еще один вопрос, ответ на который, по-видимому, подразумевает, что ковариаты должны храниться независимо от их значения, но это неясно. (Я хочу дать ссылку на этот вопрос, но я не смог найти его снова прямо сейчас.)
Итак ... Должны ли ковариаты, которые не показаны как статистически значимые, быть сохранены в расчете для модели? (Я отредактировал этот вопрос, чтобы уточнить, что ковариаты никогда не попадают в выходные данные модели при любом вычислении.)
Чтобы добавить усложнение, что, если ковариаты статистически значимы для некоторых подмножеств данных (подмножеств, которые должны обрабатываться отдельно). Я бы по умолчанию оставил такой ковариат, иначе нужно будет использовать разные модели, или в одном из случаев будет отсутствовать статистически значимый ковариат. Если у вас также есть ответ на этот разделенный случай, пожалуйста, укажите это.
Ответы:
Вы уже получили несколько хороших ответов. Есть причины сохранить ковариаты и причины отказаться от ковариат. Статистическая значимость не должна быть ключевым фактором в подавляющем большинстве случаев.
Если вы находитесь в очень исследовательском режиме и ковариата не важна в литературе, а размер эффекта невелик и ковариата мало влияет на вашу модель, а ковариата не входит в вашу гипотезу, то вы, вероятно, можете удалить ее просто для простоты. ,
источник
источник
Одним из полезных выводов является то, что на самом деле нет ничего конкретного о ковариате, если говорить статистически, см., Например, Справку по записи ковариат в формулу регрессии . Между прочим, это может объяснить, почему нет
covariate
тега. Следовательно, материал здесь и в других местах о не значимых терминах в линейной модели является релевантным, как и хорошо известные критики ступенчатой регрессии, даже если ANCOVA прямо не упоминается.Вообще говоря, плохая идея выбирать предикторы, основываясь только на их значении. Если по какой-либо причине вы не можете указать модель заранее, вам следует рассмотреть другие подходы, но если вы планировали включить их в первую очередь, собирать данные соответствующим образом и не сталкиваться с конкретными проблемами (например, коллинеарностью), просто сохраните их.
Что касается причин их сохранения, то возражения, которые вы выдвинули, кажутся мне обоснованными. Другая причина заключается в том, что удаление незначимых предикторов смещает выводы на основе модели. Еще один способ взглянуть на все это - спросить, что можно получить, удалив эти ковариаты по факту.
источник
Нам действительно нужно больше информации о ваших целях, чтобы ответить на этот вопрос. Регрессии используются для двух основных целей:
Прогнозирование - это когда ваша цель состоит в том, чтобы уметь угадывать значения исходной переменной для наблюдений, которых нет в выборке (хотя обычно они находятся в диапазоне данных выборки - в противном случае мы иногда используем слово «прогнозирование»). Прогнозирование полезно для рекламных целей, финансов и т. Д. Если вы просто заинтересованы в прогнозировании некоторой переменной результата, я мало что могу вам предложить.
Вывод, где веселье (даже если это не то, где деньги). Вывод - это то, где вы пытаетесь сделать выводы о конкретных параметрах модели - обычно для определения причинного влияния одной переменной на другую. Несмотря на общее восприятие, регрессионного анализа никогда не достаточно для причинного вывода. Вы всегда должны знать больше о процессе генерации данных, чтобы узнать, отражает ли ваша регрессия причинный эффект. Ключевой вопрос для причинного вывода из регрессий заключается в том, является ли условное среднее ошибки (условное для регрессоров) нулевым. Это не может быть известно из р-значений на регрессорах. Можно иметь объективные или непротиворечивые оценки регрессии, но это требует гораздо больших усилий, чем просто бросить некоторые очевидные элементы управления в регрессию и надеяться, что вы получили важные из них.Освоение метрик: путь от причины к следствию и в основном безвредная эконометрика ). Освоение метрик легче читается и довольно дешево, но имейте в виду, что это не метод регрессий, а их значение. Для хорошего освещения примеров хороших и плохих планов наблюдательных исследований я рекомендую книгу Дэвида Фридмана «Статистические модели и обувная кожа» (1991), Социологическая методология , том 21 (краткое и легко читаемое с увлекательными примерами).
Кроме того: одержимость статистической техникой над хорошим дизайном исследования на большинстве курсов колледжа - моя педагогическая слабость.
Во-вторых, не говоря уже о том, чтобы мотивировать текущую важность этой проблемы: разница между предсказанием и выводом заключается в том, почему большие данные не заменяют науку.
источник