Байесовский анализ таблиц сопряженности: как описать величину эффекта

9

Я работаю с примерами из анализа Крушке « Байесовский анализ данных» , в частности, с использованием экспоненциального ANOVA Пуассона в гл. 22, который он представляет в качестве альтернативы частым тестам хи-квадрат независимости для таблиц непредвиденных обстоятельств.

Я вижу, как мы получаем информацию о взаимодействиях, которые происходят более или менее часто, чем можно было бы ожидать, если бы переменные были независимыми (т. Е. Когда ИЧР исключает ноль).

Мой вопрос: как я могу вычислить или интерпретировать величину эффекта в этой структуре? Например, Крушке пишет, что «сочетание голубых глаз с черными волосами происходит реже, чем можно было бы ожидать, если бы цвет глаз и цвет волос были независимыми», но как мы можем описать силу этой ассоциации? Как я могу сказать, какие взаимодействия являются более экстремальными, чем другие? Если бы мы провели тест хи-квадрат этих данных, мы могли бы вычислить V Крамера как меру общей величины эффекта. Как выразить размер эффекта в этом байесовском контексте?

Вот отдельный пример из книги (в коде R), на случай, если ответ скрыт от меня на виду ...

df <- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15, 
10, 54, 14), .Dim = c(4L, 4L), .Dimnames = list(c("Black", "Blond", 
"Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel")))

df

         Blue Brown Green Hazel
Black      20    68     5    15
Blond      94     7    16    10
Brunette   84   119    29    54
Red        17    26    14    14

Вот частый вывод с показателями размера эффекта (не в книге):

vcd::assocstats(df)
                    X^2 df P(> X^2)
Likelihood Ratio 146.44  9        0
Pearson          138.29  9        0

Phi-Coefficient   : 0.483 
Contingency Coeff.: 0.435 
Cramer's V        : 0.279

Вот байесовский вывод с ИЧР и вероятностями клеток (прямо из книги):

# prepare to get Krushkes' R codes from his web site
Krushkes_codes <- c(
  "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/openGraphSaveGraph.R", 
  "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/PoissonExponentialJagsSTZ.R")

# download Krushkes' scripts to working directory
lapply(Krushkes_codes, function(i) download.file(i, destfile = basename(i)))

# run the code to analyse the data and generate output
lapply(Krushkes_codes, function(i) source(basename(i)))

А вот графики апостериорной модели Пуассона, примененной к данным:

введите описание изображения здесь

А графики апостериорного распределения по оценкам вероятностей клеток:

введите описание изображения здесь

Бен
источник

Ответы:

1

Согласно индексу, Крушке только дважды упоминает величину эффекта, и оба раза находятся в контексте метрической предсказанной переменной. Но это немного на р. 601:

Если исследователь заинтересован в нарушениях независимости, то интерес вызывает величина . Модель особенно удобна для этой цели, потому что произвольные контрасты взаимодействия могут быть исследованы, чтобы определить, где возникает независимость.βrc

Итак, я понял, что - это параметр для интерпретации. Пусть равно сумме произведений всех коэффициентов и соответствующих им элементов x, исключая и . Поскольку и . Когда = 1, то увеличивается или уменьшается в размере , нет?β1,2Sβ1,2x1,2yiPois(λi)λi=eβ1,2x1,2+S=eβ1,2x1,2eSx1,2λieβ1,2

Шон Пасха
источник
1

Одним из способов изучения величины эффекта в модели ANOVA является рассмотрение стандартных отклонений "супернасе" и "конечного населения". У вас есть двухсторонняя таблица, так что это 3 компонента дисперсии (2 основных эффекта и 1 взаимодействие). Это основано на анализе mcmc. Вы рассчитываете стандартное отклонение для каждого эффекта для каждого образца mcmc.

sk=1dk1j=1dk(βk,jβ¯k)2

Где индексирует «строку» таблицы ANOVA. Простые коробочные графики образцов mcmc vs весьма поучительны в отношении размеров эффекта.kskk

Эндрю Гельман выступал за такой подход. См. Его статью 2005 года «Анализ отклонений: почему это важнее, чем когда-либо»

probabilityislogic
источник
Эта статья доступна здесь .
Шон Пасха
Оба эти ответа кажутся очень многообещающими, спасибо. Кто-нибудь из вас достаточно знаком, Rчтобы показать, как это можно запрограммировать?
Бен
@seaneaster - спасибо за добавление ссылки. @ben, эти вычисления просты в R. Однако я не уверен, в какой форме находятся ваши сэмплы. Вы должны быть в состоянии использовать в sd ()сочетании с одной из функций «apply». Что касается коробочных диаграмм, то с ними просто получить основные boxplot ().
вероятностная
Спасибо, вы можете продемонстрировать, используя пример данных и кода в моем вопросе?
Бен
Короче говоря, нет, потому что я не понимаю код, который вы разместили - я не вижу, как организованы данные. И, как я уже сказал, это не сложный анализ, чтобы сделать самостоятельно. Этот подход рассчитывает простую меру (стандартное отклонение). Кроме того, кодирование R не является частью вашего вопроса - вы спрашивали о том, как обобщить анализ таблицы сопряженности.
вероятностная