Байесовский анализ таблиц сопряженности: как описать величину эффекта

Я работаю с примерами из анализа Крушке « Байесовский анализ данных» , в частности, с использованием экспоненциального ANOVA Пуассона в гл. 22, который он представляет в качестве альтернативы частым тестам хи-квадрат независимости для таблиц непредвиденных обстоятельств.

Я вижу, как мы получаем информацию о взаимодействиях, которые происходят более или менее часто, чем можно было бы ожидать, если бы переменные были независимыми (т. Е. Когда ИЧР исключает ноль).

Мой вопрос: как я могу вычислить или интерпретировать величину эффекта в этой структуре? Например, Крушке пишет, что «сочетание голубых глаз с черными волосами происходит реже, чем можно было бы ожидать, если бы цвет глаз и цвет волос были независимыми», но как мы можем описать силу этой ассоциации? Как я могу сказать, какие взаимодействия являются более экстремальными, чем другие? Если бы мы провели тест хи-квадрат этих данных, мы могли бы вычислить V Крамера как меру общей величины эффекта. Как выразить размер эффекта в этом байесовском контексте?

Вот отдельный пример из книги (в коде R), на случай, если ответ скрыт от меня на виду ...

df <- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15, 
10, 54, 14), .Dim = c(4L, 4L), .Dimnames = list(c("Black", "Blond", 
"Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel")))

df

         Blue Brown Green Hazel
Black      20    68     5    15
Blond      94     7    16    10
Brunette   84   119    29    54
Red        17    26    14    14

Вот частый вывод с показателями размера эффекта (не в книге):

vcd::assocstats(df)
                    X^2 df P(> X^2)
Likelihood Ratio 146.44  9        0
Pearson          138.29  9        0

Phi-Coefficient   : 0.483 
Contingency Coeff.: 0.435 
Cramer's V        : 0.279

Вот байесовский вывод с ИЧР и вероятностями клеток (прямо из книги):

# prepare to get Krushkes' R codes from his web site
Krushkes_codes <- c(
  "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/openGraphSaveGraph.R", 
  "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/PoissonExponentialJagsSTZ.R")

# download Krushkes' scripts to working directory
lapply(Krushkes_codes, function(i) download.file(i, destfile = basename(i)))

# run the code to analyse the data and generate output
lapply(Krushkes_codes, function(i) source(basename(i)))

А вот графики апостериорной модели Пуассона, примененной к данным:

введите описание изображения здесь

А графики апостериорного распределения по оценкам вероятностей клеток:

введите описание изображения здесь

r bayesian effect-size contingency-tables Бен
источник

Ответы:

Согласно индексу, Крушке только дважды упоминает величину эффекта, и оба раза находятся в контексте метрической предсказанной переменной. Но это немного на р. 601:

Если исследователь заинтересован в нарушениях независимости, то интерес вызывает величина . Модель особенно удобна для этой цели, потому что произвольные контрасты взаимодействия могут быть исследованы, чтобы определить, где возникает независимость. $\beta_{rc}$

Итак, я понял, что - это параметр для интерпретации. Пусть равно сумме произведений всех коэффициентов и соответствующих им элементов x, исключая и . Поскольку и . Когда = 1, то увеличивается или уменьшается в размере , нет? $\beta_{1,2}$ $S$ $\beta_{1,2}$ $x_{1,2}$ $y_i {\raise.17ex\hbox{$\scriptstyle\sim$}} Pois(\lambda_i)$ $\lambda_i = e^{\beta_{1,2} x_{1,2} + S} = e^{\beta_{1,2} x_{1,2}} e^S$ $x_{1,2}$ $\lambda_i$ $e^{\beta_{1,2}}$

Шон Пасха
источник

Одним из способов изучения величины эффекта в модели ANOVA является рассмотрение стандартных отклонений "супернасе" и "конечного населения". У вас есть двухсторонняя таблица, так что это 3 компонента дисперсии (2 основных эффекта и 1 взаимодействие). Это основано на анализе mcmc. Вы рассчитываете стандартное отклонение для каждого эффекта для каждого образца mcmc.

s_{k} = \sqrt{\frac{1}{d_{k} - 1} \sum_{j = 1}^{d_{k}} (β_{k, j} - {\bar{β}}_{k})^{2}}

$s_k=\sqrt{\frac{1}{d_k-1}\sum_{j=1}^{d_k}(\beta_{k, j}-\overline {\beta}_k)^2}$

Где индексирует «строку» таблицы ANOVA. Простые коробочные графики образцов mcmc vs весьма поучительны в отношении размеров эффекта. $k$ $s_k$ $k$

Эндрю Гельман выступал за такой подход. См. Его статью 2005 года «Анализ отклонений: почему это важнее, чем когда-либо»

probabilityislogic
источник

Эта статья доступна здесь .

Шон Пасха

Оба эти ответа кажутся очень многообещающими, спасибо. Кто-нибудь из вас достаточно знаком, Rчтобы показать, как это можно запрограммировать?

Бен

@seaneaster - спасибо за добавление ссылки. @ben, эти вычисления просты в R. Однако я не уверен, в какой форме находятся ваши сэмплы. Вы должны быть в состоянии использовать в sd ()сочетании с одной из функций «apply». Что касается коробочных диаграмм, то с ними просто получить основные boxplot ().

вероятностная

Спасибо, вы можете продемонстрировать, используя пример данных и кода в моем вопросе?

Бен

Короче говоря, нет, потому что я не понимаю код, который вы разместили - я не вижу, как организованы данные. И, как я уже сказал, это не сложный анализ, чтобы сделать самостоятельно. Этот подход рассчитывает простую меру (стандартное отклонение). Кроме того, кодирование R не является частью вашего вопроса - вы спрашивали о том, как обобщить анализ таблицы сопряженности.

вероятностная