Я советовал студенту-исследователю с конкретной проблемой, и я хотел, чтобы на этом сайте присутствовали другие.
Контекст:
Исследователь имел три типа предикторных переменных. Каждый тип содержал различное количество переменных-предикторов. Каждый предиктор был непрерывной переменной:
- Социальные: S1, S2, S3, S4 (т.е. четыре предиктора)
- Когнитивный: С1, С2 (т.е. два предиктора)
- Поведение: B1, B2, B3 (т. Е. Три предиктора)
Переменная результата также была непрерывной. Выборка включала около 60 участников.
Исследователь хотел прокомментировать, какой тип предикторов важнее для объяснения переменной результата. Это было связано с более широкой теоретической озабоченностью относительно относительной важности этих типов предикторов.
Вопросов
- Каков хороший способ оценить относительную важность одного набора предикторов относительно другого набора?
- Какова хорошая стратегия для борьбы с тем фактом, что в каждом наборе есть разное количество предикторов?
- Какие предостережения в интерпретации вы могли бы предложить?
Любые ссылки на примеры или обсуждение методов также приветствуются.
regression
predictor
importance
Джером англим
источник
источник
Предложения
Предостережения
источник
значение
Первое, что нужно сделать, это ввести в действие «важность предикторов». Я предполагаю, что это означает что-то вроде «чувствительности среднего результата к изменениям значений предикторов». Поскольку ваши предикторы сгруппированы, то чувствительность среднего результата к группам предикторов более интересна, чем переменная при анализе переменных. Я оставляю это открытым, понимается ли чувствительность причинно. Эта проблема поднимается позже.
Три версии важности
Много различий объяснили : я предполагаю, что первым портом захода психологов, вероятно, является разложение дисперсии, приводящее к показателю того, насколько дисперсия результата объясняется структурой дисперсии-ковариации в каждой группе предикторов. Не будучи экспериментатором, я не могу здесь многое предложить, кроме как отметить, что вся концепция «объяснение дисперсии» на мой вкус немного необоснованна, даже без вопроса «какая сумма каких квадратов». Другие могут не согласиться и развивать его дальше.
Большие стандартизированные коэффициенты : SPSS предлагает (неправильно названную) бета-версию для измерения воздействия способом, сопоставимым по переменной. Есть несколько причин не использовать это, обсуждаемые в учебнике регрессии Фокса, здесь и в других местах. Все применяются здесь. Это также игнорирует групповую структуру.
С другой стороны, я полагаю, что можно стандартизировать предикторы в группах и использовать ковариационную информацию, чтобы судить о влиянии одного стандартного отклонения во всех из них. Лично девиз: «если что-то не стоит делать, не стоит делать хорошо», мой интерес к этому уменьшается.
Большие предельные эффекты : Другой подход заключается в том, чтобы оставаться в масштабе измерений и рассчитывать предельные эффекты между тщательно выбранными точками выборки. Поскольку вас интересуют группы, полезно выбирать точки для изменения групп переменных, а не отдельных, например, манипулируя обеими когнитивными переменными одновременно. (Много возможностей для классных участков здесь). Основная статья здесь .
effects
Пакет в R будет делать это красиво.Здесь есть две оговорки:
Если вы сделаете это, вы захотите обратить внимание на то, что вы не выбираете две когнитивные переменные, которые, хотя и являются индивидуально правдоподобными, например, медианы, совместно далеки от любого предметного наблюдения.
Некоторые переменные даже теоретически не поддаются манипулированию, поэтому интерпретация предельных эффектов как причинно-следственных связей является более деликатной, хотя и полезной.
Разное количество предикторов
Проблемы возникают из-за ковариационной структуры сгруппированных переменных, о которой мы обычно стараемся не беспокоиться, а для этой задачи.
В частности, при расчете предельных эффектов (или стандартизированных по этому вопросу коэффициентов) на группы, а не на отдельные переменные, прокрутка размерности для более крупных групп облегчит сравнения для областей, где нет случаев. Больше предикторов в группе приводит к более малонаселенному пространству, поэтому любая мера важности будет зависеть больше от предположений модели и меньше от наблюдений (но не скажу вам, что ...) Но это те же проблемы, что и на этапе подбора модели действительно. Конечно, те же, которые возникают при оценке причинно-следственных связей на основе моделей.
источник
Одним из методов является объединение наборов переменных в переменные пучка. Эти методы широко используются в социологии и смежных областях.
Refs:
Whitt, Hugh P. 1986. «Коэффициент снопа: упрощенный и расширенный подход». Социологические исследования 15: 174-189.
источник