После поиска разъяснений по поводу коэффициентов линейной модели здесь у меня возник вопрос о не значащем значении (высокое значение p) для коэффициентов уровней факторов.
Пример: если моя линейная модель включает в себя фактор с 10 уровнями, и только 3 из этих уровней имеют значимые значения p, связанные с ними, при использовании модели для прогнозирования Y я могу выбрать не включать термин коэффициента, если субъект попадает в один из не значимый уровень?
Что еще более важно, было бы неправильно объединять 7 несущественных уровней в один уровень и повторно анализировать?
Ответы:
Если вы вводите переменную предиктора с несколькими уровнями, вы либо вводите переменную, либо нет, вы не можете выбирать уровни. Возможно, вы захотите реструктурировать уровни вашей переменной-предиктора, чтобы уменьшить количество уровней (если это имеет смысл в контексте вашего анализа.) Однако я не уверен, приведет ли это к некоторому типу статистической аннулирования, если вы рушатся уровни, потому что вы видите, что они не значимы.
Также, просто заметьте, вы говорите, что маленькие значения незначительны. Я предполагаю, что вы имели в виду, что маленькое p- значение является значимым, то есть: p- значение .0001 является значимым, и поэтому вы отклоняете ноль (предполагая, что уровень α > .0001 ?).п п п α > .0001
источник
Ответ @ Элли хороший.
Если вы вводите переменную с несколькими уровнями, вам необходимо сохранить все эти уровни в своем анализе. Выбор и выбор на основе уровня значимости будут смещать ваши результаты и делать очень странные вещи для вашего вывода, даже если каким-то чудом ваши оценки удастся остаться прежними, так как у вас будут пробелы в ваших оценочных эффектах на разных уровнях переменная.
Я хотел бы рассмотреть ваши оценки для каждого уровня предиктора в графическом виде. Видите ли вы тенденцию, поднимаясь по уровням, или она неустойчива?
Вообще говоря, я также против перекодирования переменных, основанных на статистических тестах - или основанных исключительно на статистических моментах. Деления в вашей переменной должны основываться на чем-то более твердом - логически значимые точки отсечения, интерес к определенной точке перехода и т. Д.
источник
Продолжая два хороших ответа, которые вы уже получили, давайте рассмотрим это по существу. Предположим, что ваша зависимая переменная - это, скажем, доход, а ваша независимая переменная - это, скажем, этническая принадлежность, с уровнями, определенными для переписи (белые, черные / афроамериканцы, американские индейцы / коренные жители Аляски, азиатские, коренные жители острова Гавайи / Pac, другое и многорасовое). Допустим, вы делаете фиктивную кодировку так, чтобы белые были эталонной категорией, и вы получите
Если вы проводите это исследование в Нью-Йорке, вы, вероятно, получите очень мало коренных жителей Гавайских островов / Тихоокеанских островов. Вы можете решить включить их (если они есть) в список остальных. Однако вы не можете использовать полное уравнение и просто не включать этот коэффициент. Тогда перехват будет неправильным, как и любые прогнозируемые значения дохода.
Но как сочетать категории?
Как говорили другие, это должно иметь смысл .
источник
Чтобы дать другое мнение: почему бы не включить его в качестве случайного эффекта? Это должно оштрафовать эти уровни со слабой поддержкой и обеспечить минимальный размер их эффекта. Таким образом, вы можете держать их всех, не беспокоясь о глупых предсказаниях.
И да, это более мотивировано с точки зрения байесовских случайных эффектов, чем весь случайный эффект "выборки всех возможных уровней".
источник
Мне также было интересно, смогу ли я объединить незначительные категории с справочной категорией. Следующие утверждения в книге «Интеллектуальный анализ данных для бизнес-аналитики: концепции, методы и приложения в Microsoft Office Excel® с XLMiner®, 2-е издание Галита Шмуэли, Нитина Р. Пателя, Питера С. Брюса», стр. 87-89 (Измерение Сокращение) ( Google Search Result ), кажется, поддерживает второе предложение ответа @ Ellie:
Тем не менее, я планирую проверить с экспертами в предметной области, имеет ли логическое значение объединение категорий (как подразумевалось в предыдущих ответах / комментариях, например, @Fomite, @gung).
источник