Могу ли я игнорировать коэффициенты для незначительных уровней факторов в линейной модели?

15

После поиска разъяснений по поводу коэффициентов линейной модели здесь у меня возник вопрос о не значащем значении (высокое значение p) для коэффициентов уровней факторов.

Пример: если моя линейная модель включает в себя фактор с 10 уровнями, и только 3 из этих уровней имеют значимые значения p, связанные с ними, при использовании модели для прогнозирования Y я могу выбрать не включать термин коэффициента, если субъект попадает в один из не значимый уровень?

Что еще более важно, было бы неправильно объединять 7 несущественных уровней в один уровень и повторно анализировать?

Trees4theForest
источник
2
Что ж, вы можете получить необъективный вывод, сделав это - например, если вы формируете интервалы прогнозирования, вероятности охвата, вероятно, будут неправильными для людей на любом из 7 незначительных уровней.
Макро
1
Здесь вы получили несколько хороших ответов, но вас также может заинтересовать, почему не следует отбрасывать факторы с высокими значениями p. Стоит отметить, что это логически эквивалентно процедуре автоматического выбора модели, даже если вы делаете это самостоятельно, а не компьютер делает это за вас. Прочтение этого вопроса и предлагаемых ответов может помочь понять, почему все это правда.
gung - Восстановить Монику
1
Этот вопрос имеет точную копию с ноября 2012 года: stats.stackexchange.com/questions/18745/… . Там тоже есть немного провокационной информации.
rolando2
2
Это такой важный вопрос, и все же нет ответа, подкрепляющего аргумент теорией. В нынешнем виде они просто мнения. Даже книга, на которую ссылается один из ответов (этот вывод отличается от других ответов), не содержит ссылок. Поскольку это стоит, я не доверяю ни одному из них, и поэтому предпочел бы ничего не делать (т.е. сохранять все категории / факторы).
Лучоначо

Ответы:

13

Если вы вводите переменную предиктора с несколькими уровнями, вы либо вводите переменную, либо нет, вы не можете выбирать уровни. Возможно, вы захотите реструктурировать уровни вашей переменной-предиктора, чтобы уменьшить количество уровней (если это имеет смысл в контексте вашего анализа.) Однако я не уверен, приведет ли это к некоторому типу статистической аннулирования, если вы рушатся уровни, потому что вы видите, что они не значимы.

Также, просто заметьте, вы говорите, что маленькие значения незначительны. Я предполагаю, что вы имели в виду, что маленькое p- значение является значимым, то есть: p- значение .0001 является значимым, и поэтому вы отклоняете ноль (предполагая, что уровень α > .0001 ?). pппα>0,0001

Ellie
источник
(Исправил мою опечатку р-значения.) Хорошие моменты здесь. Таким образом, сворачивание уровней, при условии, что оно основано на некоторой реальной и логической причине, оправданной в контексте исследования (что может также произойти, чтобы разобрать их по разрыву значимости), является разумным, а не просто объединяет их произвольно в зависимости от их значимости , Понял.
Trees4theForest
15

Ответ @ Элли хороший.

Если вы вводите переменную с несколькими уровнями, вам необходимо сохранить все эти уровни в своем анализе. Выбор и выбор на основе уровня значимости будут смещать ваши результаты и делать очень странные вещи для вашего вывода, даже если каким-то чудом ваши оценки удастся остаться прежними, так как у вас будут пробелы в ваших оценочных эффектах на разных уровнях переменная.

Я хотел бы рассмотреть ваши оценки для каждого уровня предиктора в графическом виде. Видите ли вы тенденцию, поднимаясь по уровням, или она неустойчива?

Вообще говоря, я также против перекодирования переменных, основанных на статистических тестах - или основанных исключительно на статистических моментах. Деления в вашей переменной должны основываться на чем-то более твердом - логически значимые точки отсечения, интерес к определенной точке перехода и т. Д.

фомиты
источник
8

Продолжая два хороших ответа, которые вы уже получили, давайте рассмотрим это по существу. Предположим, что ваша зависимая переменная - это, скажем, доход, а ваша независимая переменная - это, скажем, этническая принадлежность, с уровнями, определенными для переписи (белые, черные / афроамериканцы, американские индейцы / коренные жители Аляски, азиатские, коренные жители острова Гавайи / Pac, другое и многорасовое). Допустим, вы делаете фиктивную кодировку так, чтобы белые были эталонной категорией, и вы получите

яNсомезнак равноб0+б1ВAA+б2AяAN+б3AS+б4NЧАСпя+б5О+б6Mр

Если вы проводите это исследование в Нью-Йорке, вы, вероятно, получите очень мало коренных жителей Гавайских островов / Тихоокеанских островов. Вы можете решить включить их (если они есть) в список остальных. Однако вы не можете использовать полное уравнение и просто не включать этот коэффициент. Тогда перехват будет неправильным, как и любые прогнозируемые значения дохода.

Но как сочетать категории?

Как говорили другие, это должно иметь смысл .

Питер Флом - Восстановить Монику
источник
4

Чтобы дать другое мнение: почему бы не включить его в качестве случайного эффекта? Это должно оштрафовать эти уровни со слабой поддержкой и обеспечить минимальный размер их эффекта. Таким образом, вы можете держать их всех, не беспокоясь о глупых предсказаниях.

И да, это более мотивировано с точки зрения байесовских случайных эффектов, чем весь случайный эффект "выборки всех возможных уровней".

Ши Паркс
источник
0

Мне также было интересно, смогу ли я объединить незначительные категории с справочной категорией. Следующие утверждения в книге «Интеллектуальный анализ данных для бизнес-аналитики: концепции, методы и приложения в Microsoft Office Excel® с XLMiner®, 2-е издание Галита Шмуэли, Нитина Р. Пателя, Питера С. Брюса», стр. 87-89 (Измерение Сокращение) ( Google Search Result ), кажется, поддерживает второе предложение ответа @ Ellie:

  • «Приспособленные регрессионные модели могут также использоваться для дальнейшего объединения аналогичных категорий: категории, которые имеют коэффициенты, которые не являются статистически значимыми (то есть имеют высокое значение p), могут быть объединены с эталонной категорией, поскольку их отличие от эталонной категории, по-видимому, не имеет значительное влияние на выходную переменную »
  • «Категории, имеющие одинаковые значения коэффициентов (и один и тот же знак), часто можно комбинировать, поскольку их влияние на выходную переменную одинаково»

Тем не менее, я планирую проверить с экспертами в предметной области, имеет ли логическое значение объединение категорий (как подразумевалось в предыдущих ответах / комментариях, например, @Fomite, @gung).

user1420372
источник
Этот ответ противоречит другим ответам здесь.
kjetil b halvorsen