Такая вещь, как взвешенная корреляция?

14

У меня есть некоторые интересные данные о самых популярных музыкальных артистах, разделенных по местоположению на 200 избирательных округов. Я хочу посмотреть, возможно ли опросить человека по его или ее музыкальным предпочтениям и определить, «слушает ли он как демократ» или «слушает ли как республиканец». (Естественно, это легкомысленный, но в данных есть реальная энтропия!)

У меня есть данные о 100 художниках плюс средний процент голосов за республиканцев и демократов в каждом округе за последние три избирательных цикла. Таким образом, я установил соотношение для каждого художника, чтобы увидеть, каких из них слушали наиболее непропорционально, как функцию доли голосов для демократов. Эти корреляции варьируются от -0,3 до 0,3 для каждого художника, с большим количеством посередине, которые имеют небольшую или нулевую предсказательную силу.

У меня есть два вопроса: во-первых, общее количество потоков в районе сильно варьируется. Прямо сейчас я сопоставляю процент всех потоков в округе, принадлежащих, скажем, Бейонсе, с процентом голосов, отданных за демократов. Но общее количество потоков в одном районе может исчисляться миллионами, а в другом - 100 000 человек. Нужно ли как-то взвесить корреляцию, чтобы учесть это?

Во-вторых, мне любопытно, как объединить эти корреляции в сложное предположение относительно политики пользователя. Допустим, я беру 20 художников с самыми высокими абсолютными корреляционными значениями (положительными и отрицательными), по десять в каждом направлении, и опрашиваю пользователя о том, насколько он или она любит каждого художника. Таким образом, у меня есть голоса «за» или «против» каждого художника плюс соотношение к политике для всех 20 ценностей. Есть ли стандартный способ объединить эти корреляции в одну оценку? (Я думаю, что-то вроде знаменитой викторины NYTimes на диалекте , где она объединила региональные вероятности для 25 вопросов в тепловую карту. Но в этом случае мне просто нужно одно значение того, насколько демократичен или республиканец вкус в музыке.

Спасибо!

Крис Уилсон
источник

Ответы:

25

Формулу для взвешенной корреляции Пирсона можно легко найти в Интернете , в StackOverflow и в Википедии, и она реализована в нескольких R-пакетах, например psych или weights, и в пакете statsmodels в Python . Он рассчитывается как обычная корреляция, но с использованием взвешенных средних ,

мИксзнак равноΣявесяИксяΣявеся,    мYзнак равноΣявесяYяΣявеся

взвешенные отклонения ,

sИксзнак равноΣявеся(Икся-мИкс)2Σявеся,    sYзнак равноΣявеся(Yя-мY)2Σявеся

и взвешенная ковариация

sИксYзнак равноΣявеся(Икся-мИкс)(Yя-мY)Σявеся

имея все это, вы можете легко вычислить взвешенную корреляцию

ρИксYзнак равноsИксYsИксsY

Что касается вашего второго вопроса, насколько я понимаю, у вас будут данные о корреляции между политической ориентацией и предпочтениями для двадцати артистов и пользователей, бинарные ответы о его / ее предпочтениях, и вы хотите получить какую-то совокупную меру этого.

Давайте начнем с усреднения корреляций. Существует несколько методов усреднения вероятностей , но, похоже, не так много подходов к усреднению корреляций. Единственное , что можно было бы сделать , это использовать Фишера -преобразованиеZ , как описано на MathOverflow , т.е.

ρ¯знак равноTANH-1(ΣJзнак равно1КTANH(ρJ)К)

В основном, взятие касательных коэффициентов корреляции «выравнивает» экстремальные значения (см. Ниже), поэтому они оказывают меньшее влияние на окончательную оценку и приближают их распределение к нормальному. Эта процедура была также описана Бушманом и Вангом (1995) и Кори, Данлэпом и Бёрком (1998).

введите описание изображения здесь

рзнак равносор(Икс,Y)-рзнак равносор(-Икс,Y)знак равносор(Икс,-Y)

рJJИксяJяJИксяJзнак равно1ИксяJзнак равно-1

р¯язнак равноTANH-1(ΣJзнак равно1КTANH(рJИксяJ)К)

-11

Но...

Не думаете ли вы, что все это является излишним для чего-то, что в основном является проблемой множественной регрессии? Вместо всего взвешивания и усреднения вы можете просто использовать взвешенную множественную регрессию (линейную или логистическую в зависимости от того, прогнозируете ли вы двоичное предпочтение или отклонение от степени в любом направлении), где веса основаны на размерах подвыборок. Вы должны использовать музыкальные предпочтения для каждого художника в качестве предиктора. В конце вы будете использовать предпочтения пользователя, чтобы делать прогнозы. Этот подход проще и статистически элегантнее. Это также относится к относительнымAВ


Bushman, BJ & Wang, MC (1995). Процедура объединения выборочных коэффициентов корреляции и подсчета голосов для получения оценки и доверительного интервала для коэффициента корреляции населения. Психологический вестник, 117 (3), 530.

Кори Д.М., Данлэп В.П. и Берк М.Дж. (1998). Усредняющие корреляции: ожидаемые значения и отклонения в комбинированных преобразованиях Пирсона и Фишера, Журнал общей психологии, 125 (3), 245-261.

Тим
источник
Спасибо! Это очень помогает. Присудит награду, когда она станет доступной позже сегодня.
Крис Уилсон
ИксяYя
1
@Kagaratsch Я никогда не видел такой формулы. Это квалифицируется как хороший вопрос.
Тим