Как лучше всего визуализировать эффекты категорий и их распространенность в логистической регрессии?

11

Мне нужно представить информацию об основных предикторах голосов кандидата, используя данные опроса общественного мнения. Я выполнил логистическую регрессию, используя все переменные, которые меня интересуют, но я не могу найти хороший способ представить эту информацию.

Мой клиент заботится не только о размере эффекта, но и о взаимодействии между размером эффекта и размером популяции с таким атрибутом.

Как я могу справиться с этим на графике? Какие-либо предложения?

Вот пример:

переменной пол (мужской = 1) , когда в качестве зависимой переменной является ГОЛОСУЕМ / Не в качестве кандидата составляет 2,3, что большое число после того , как экспоненцируется и обрабатывали как отношение шансов или вероятности. Однако в обществе, в котором проводилось это исследование, было только 30% мужчин. Поэтому, хотя человек поддерживал этого кандидата довольно много, их число незначительно для кандидата, пытающегося победить на мажоритарных выборах.β

user1172558
источник
FWIW, использование термина «взаимодействие» является неправильным (см., Например, здесь или здесь ). Я бы сказал что-то вроде: «... но об определении ситуаций, когда размер эффекта велик, а размер населения с таким атрибутом также велик».
gung - Восстановить Монику

Ответы:

10

Я согласен с @PeterFlom, что пример странный, но, оставив его в стороне, я замечаю, что пояснительная переменная является категориальной. Если это неизменно верно, это значительно упрощает это. Я бы использовал мозаичные графики для представления этих эффектов. Мозаичный график отображает условные пропорции по вертикали, но ширина каждой категории масштабируется относительно ее предельной (т.е. безусловной) пропорции в образце.

Вот пример с данными из катастрофы Титаника, созданной с использованием R:

data(Titanic)

sex.table   = margin.table(Titanic, margin=c(2,4))
class.table = margin.table(Titanic, margin=c(1,4))
round(prop.table(t(sex.table), margin=2), digits=3)
#          Sex
# Survived  Male Female
#      No  0.788  0.268
#      Yes 0.212  0.732
round(prop.table(t(class.table), margin=2), digits=3)
#           Class
# Survived   1st   2nd   3rd  Crew
#      No  0.375 0.586 0.748 0.760
#      Yes 0.625 0.414 0.252 0.240

windows(height=3, width=6)
  par(mai=c(.5,.4,.1,0), mfrow=c(1,2))
  mosaicplot(sex.table,   main="")
  mosaicplot(class.table, main="")

введите описание изображения здесь

Слева мы видим, что женщины выжили гораздо чаще, но мужчины составляли около 80% людей на борту. Таким образом, увеличение процента выживших мужчин означало бы спасение гораздо большего числа жизней, чем даже большее увеличение доли выживших женщин. Это несколько аналогично вашему примеру. Справа есть еще один пример, когда экипаж и рулевое управление составляли наибольшую долю людей, но вероятность выживания была наименьшей. (Для чего это стоит, это не полный анализ этих данных, потому что класс и пол также не были независимы от Титаника, но этого достаточно, чтобы проиллюстрировать идеи для этого вопроса.)

Gung - Восстановить Монику
источник
5

Мне немного любопытно, в каком обществе было всего 10% мужчин ... но ...

Одна вещь, которую вы могли бы сделать, это построить соотношение шансов и пометить каждое из них размером образца.

Если вы хотите, чтобы обе переменные были представлены графически, вы можете создать пузырьковую диаграмму, в которой положение каждого пузырька на оси y соответствует размеру отношения шансов и площади пузырька, пропорциональной размеру выборки.

Питер Флом - Восстановить Монику
источник
7
Может быть, этот .
Андре Сильва