Каковы лучшие практики в определении эффектов взаимодействия?

35

Кроме буквального тестирования каждой возможной комбинации переменной (ей) в модели ( x1:x2или x1*x2 ... xn-1 * xn). Как вы определяете, если СЛЕДУЕТ или МОЖЕТ существовать взаимодействие между вашими независимыми (мы надеемся) переменными?

Каковы лучшие практики в попытке определить взаимодействие? Есть ли графическая техника, которую вы могли бы использовать?

Брэндон Бертельсен
источник
Вы могли бы рассказать нам немного о ваших данных? размер (см. мой ответ) и характер (см. ответ Гэвина)
Робин Жирар
@ Робин: Дайте ему время встать с кровати, Брэндон в Торонто ;-)
Восстановить Монику - Г. Симпсон
1
@ Робин, я бы предпочел, чтобы оно было более общим. Если в своем ответе вы предоставляете метод, который требует предположения о размере или характере данных, укажите это. Проблема, с которой я столкнулся, охватывает целый ряд различных задач моделирования, все с разными данными. Итак, в этом случае я ищу общую рекомендацию по определению эффектов взаимодействия.
Брэндон Бертельсен

Ответы:

20

Кокс и Вермут (1996) или Кокс (1984) обсуждали некоторые методы обнаружения взаимодействий. Проблема обычно заключается в том, насколько общими должны быть условия взаимодействия. По сути, мы (а) подбираем (и тестируем) все члены взаимодействия второго порядка, по одному, и (б) наносим на график соответствующие им p-значения (т. Е. № числа как функцию от ). Идея состоит в том, чтобы посмотреть, следует ли сохранить определенное количество членов взаимодействия: при условии, что все члены взаимодействия равны нулю, распределение значений p должно быть равномерным (или, что эквивалентно, точки на диаграмме рассеяния должны быть приблизительно распределены вдоль линия, проходящая через начало координат).1-п

Теперь, как сказал @Gavin , подгонка многих (если не всех) взаимодействий может привести к переобучению, но в определенном смысле это также бесполезно (некоторые члены взаимодействия высокого порядка часто вообще не имеют смысла). Однако это связано с интерпретацией, а не с обнаружением взаимодействий, и Кокс уже дал хороший обзор в Интерпретации взаимодействия: обзор ( Анналы прикладной статистики 2007, 1 (2), 371–385) - это включает ссылки, указанные выше. Другие направления исследований, на которые стоит обратить внимание, это изучение эпистатических эффектов в генетических исследованиях, в частности методов, основанных на графических моделях (например, эффективный метод идентификации статистических взаимодействующих элементов в сетях ассоциаций генов ).

Ссылки

  • Кокс Д.Р. и Вермут Н. (1996). Многомерные зависимости: модели, анализ и интерпретация . Чепмен и Холл / КПР.
  • Кокс, DR (1984). Взаимодействие . Международный статистический обзор , 52, 1–31.
хл
источник
16

Моя лучшая практика - подумать о проблеме перед тем, как подгонять модель. Какова правдоподобная модель, учитывая феномен, который вы изучаете? Подгонка всех возможных комбинаций переменных и взаимодействий для меня звучит как выемка данных.

Восстановить Монику - Дж. Симпсон
источник
5
звучит как замечание или ответ "думать"?
Робин Жирар
2
@ Робин - последний. Я нахожу статистическое моделирование довольно трудным (я эколог с небольшой формальной статистической подготовкой, большинство из того, что я узнал, самоучка), но намного легче, если я сначала подумаю над проблемой, определю, что правдоподобно, Постройте эту модель, проведите диагностику моей модели, попробуйте взаимодействия, где это имеет научный смысл.
Восстановить Монику - Г. Симпсон
2
@ Брэндон: Если отсутствует взаимодействие, в остатках будут шаблоны, зависящие от значений ковариат. Построение остатков по ковариатам может помочь определить, где взаимодействие может быть уместным.
Восстановить Монику - Г. Симпсон
2
@ Брэндон: это стандартная модель диагностики и навыки разведки. Я бы построил невязки против одного из ковариат, которые, я думаю, могли бы быть кандидатом на интеграцию, обусловленные (в ggplot2 или решетчатом виде) значениями ковариаты, которые, я думаю, участвуют во взаимодействии. Пропустите лессовую гладь через каждую панель, чтобы увидеть, есть ли шаблоны. Зависит от того, какой тип переменных ваши ковариаты.
Восстановить Монику - Г. Симпсон
2
Дноуглубительные работы? Если вы пытаете данные достаточно долго, они признаются ...
Любопытно
16

Подбор модели дерева (т. Е. Использование R) поможет вам определить сложные взаимодействия между объясняющими переменными. Прочитайте пример на странице 30 здесь .

Джордж Донтас
источник
Очень просто и очень полезно. Спасибо за ссылку на текст Кроули!
Брэндон Бертельсен
Будьте осторожны - вы не можете легко вписать такие виды взаимодействия, скажем, в линейную модель. Взаимодействия происходят только в одной ветви дерева (или части). Вам нужно много данных, чтобы использовать эти виды инструментов в реальных данных.
Восстановить Монику - Г. Симпсон
3
Как сказал @Gavin, одна из потенциальных ловушек заключается в том, что деревья решений нуждаются в большом размере выборки и являются достаточно нестабильными (что является одной из причин, по которым в качестве жизнеспособных альтернатив были предложены мешки и случайные леса). Другая проблема заключается в том, что неясно, ищем ли мы эффекты взаимодействия второго или более высокого порядка. В первом случае CART не является решением. В любом случае, я нахожу очень сомнительным любую интерпретацию взаимодействия между 6 переменными в любом исследовании (наблюдательном или контролируемом).
ЧЛ
7

Я предвосхищу этот ответ, поскольку я полностью согласен с Гэвином, и если вы заинтересованы в подборе любой модели, это должно отражать изучаемое явление. Проблема в том, что логика определения любых и всех эффектов (и то, на что ссылается Гэвин, когда он говорит, что дноуглубление данных) состоит в том, что вы можете разместить бесконечное число взаимодействий или квадратичных терминов для переменных или преобразований в ваших данных, и вы неизбежно найдет "существенные" эффекты для некоторой вариации ваших данных.

Как утверждает chl, эти эффекты взаимодействия более высокого порядка на самом деле не имеют никакой интерпретации, и часто даже взаимодействия более низкого порядка не имеют никакого смысла. Если вы заинтересованы в разработке причинно-следственной модели, вы должны включать только те термины, которые, по вашему мнению, могут иметь отношение к вашей зависимой переменной A priori для соответствия вашей модели.

Если вы считаете, что они могут повысить предсказательную силу вашей модели, вам следует поискать ресурсы по методам выбора моделей, чтобы не допустить чрезмерного соответствия вашей модели.

Энди У
источник
7

N

N

Если вы хотите узнать, является ли эта пропорция значимой, вам придется выполнять моделирование (примерно, вам нужно знать количество степеней свободы вашей модели, чтобы сравнить ее с дисперсией).

Ваши переменные дискретные или непрерывные? ограничен или не очень (то есть вы не знаете максимум)?

Робин Жирар
источник
спасибо за направление на соболевские индексы. Опять же, я хотел бы указать, что я ищу общий, а не конкретный ответ здесь. Я не спрашиваю о конкретном наборе данных, а скорее пытаюсь объяснить проблему, которая у меня возникла с рядом различных наборов.
Брэндон Бертельсен