Кроме буквального тестирования каждой возможной комбинации переменной (ей) в модели ( x1:x2
или x1*x2 ... xn-1 * xn
). Как вы определяете, если СЛЕДУЕТ или МОЖЕТ существовать взаимодействие между вашими независимыми (мы надеемся) переменными?
Каковы лучшие практики в попытке определить взаимодействие? Есть ли графическая техника, которую вы могли бы использовать?
regression
modeling
interaction
Брэндон Бертельсен
источник
источник
Ответы:
Кокс и Вермут (1996) или Кокс (1984) обсуждали некоторые методы обнаружения взаимодействий. Проблема обычно заключается в том, насколько общими должны быть условия взаимодействия. По сути, мы (а) подбираем (и тестируем) все члены взаимодействия второго порядка, по одному, и (б) наносим на график соответствующие им p-значения (т. Е. № числа как функцию от ). Идея состоит в том, чтобы посмотреть, следует ли сохранить определенное количество членов взаимодействия: при условии, что все члены взаимодействия равны нулю, распределение значений p должно быть равномерным (или, что эквивалентно, точки на диаграмме рассеяния должны быть приблизительно распределены вдоль линия, проходящая через начало координат).1 - р
Теперь, как сказал @Gavin , подгонка многих (если не всех) взаимодействий может привести к переобучению, но в определенном смысле это также бесполезно (некоторые члены взаимодействия высокого порядка часто вообще не имеют смысла). Однако это связано с интерпретацией, а не с обнаружением взаимодействий, и Кокс уже дал хороший обзор в Интерпретации взаимодействия: обзор ( Анналы прикладной статистики 2007, 1 (2), 371–385) - это включает ссылки, указанные выше. Другие направления исследований, на которые стоит обратить внимание, это изучение эпистатических эффектов в генетических исследованиях, в частности методов, основанных на графических моделях (например, эффективный метод идентификации статистических взаимодействующих элементов в сетях ассоциаций генов ).
Ссылки
источник
Моя лучшая практика - подумать о проблеме перед тем, как подгонять модель. Какова правдоподобная модель, учитывая феномен, который вы изучаете? Подгонка всех возможных комбинаций переменных и взаимодействий для меня звучит как выемка данных.
источник
Подбор модели дерева (т. Е. Использование R) поможет вам определить сложные взаимодействия между объясняющими переменными. Прочитайте пример на странице 30 здесь .
источник
Я предвосхищу этот ответ, поскольку я полностью согласен с Гэвином, и если вы заинтересованы в подборе любой модели, это должно отражать изучаемое явление. Проблема в том, что логика определения любых и всех эффектов (и то, на что ссылается Гэвин, когда он говорит, что дноуглубление данных) состоит в том, что вы можете разместить бесконечное число взаимодействий или квадратичных терминов для переменных или преобразований в ваших данных, и вы неизбежно найдет "существенные" эффекты для некоторой вариации ваших данных.
Как утверждает chl, эти эффекты взаимодействия более высокого порядка на самом деле не имеют никакой интерпретации, и часто даже взаимодействия более низкого порядка не имеют никакого смысла. Если вы заинтересованы в разработке причинно-следственной модели, вы должны включать только те термины, которые, по вашему мнению, могут иметь отношение к вашей зависимой переменной A priori для соответствия вашей модели.
Если вы считаете, что они могут повысить предсказательную силу вашей модели, вам следует поискать ресурсы по методам выбора моделей, чтобы не допустить чрезмерного соответствия вашей модели.
источник
Если вы хотите узнать, является ли эта пропорция значимой, вам придется выполнять моделирование (примерно, вам нужно знать количество степеней свободы вашей модели, чтобы сравнить ее с дисперсией).
Ваши переменные дискретные или непрерывные? ограничен или не очень (то есть вы не знаете максимум)?
источник