Является ли использование децилей для нахождения корреляции статистически обоснованным подходом?

10

У меня есть выборка из 1449 точек данных, которые не коррелированы (r-квадрат 0,006).

Анализируя данные, я обнаружил, что путем разделения значений независимых переменных на положительные и отрицательные группы, как представляется, существует значительная разница в среднем зависимой переменной для каждой группы.

Разбивая точки на 10 бинов (децилей) с использованием значений независимых переменных, представляется, что существует более сильная корреляция между числом децилей и средними значениями зависимых переменных (r-квадрат 0,27).

Я не знаю много о статистике, поэтому вот несколько вопросов:

  1. Это достоверный статистический подход?
  2. Есть ли способ найти лучшее количество бинов?
  3. Каков правильный термин для этого подхода, чтобы я мог использовать его в Google?
  4. Какие вводные ресурсы можно узнать об этом подходе?
  5. Какие еще подходы я могу использовать, чтобы найти отношения в этих данных?

Вот данные дециля для справки: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90

РЕДАКТИРОВАТЬ: Вот изображение данных: Отраслевой импульс является независимой переменной, качество точки входа зависит

Отраслевой импульс является независимой переменной, качество точки входа зависит

Б Семь
источник
Надеюсь, мой ответ (в частности ответы 2-4) понят в том смысле, в котором он был задуман.
Glen_b
Если ваша цель состоит в том, чтобы исследовать форму отношений между независимым и зависимым, это прекрасный метод исследования. Это может обидеть статистиков, но используется в промышленности постоянно (например, кредитный риск). Если вы строите прогностическую модель, то опять-таки разработка конструктивных элементов в порядке - если это делается на обучающем наборе, должным образом проверенном.
B_Miner
Можете ли вы предоставить какие-либо ресурсы о том, как убедиться, что результат «правильно подтвержден»?
B 7
«не коррелированный (r-квадрат 0,006)» означает, что они не являются линейно коррелированными. Возможно, существует какая-то другая взаимосвязь. Вы подготовили исходные данные (зависимые или независимые)?
Эмиль Фридман
Я подготовил данные, но не подумал добавить их к вопросу. Какая прекрасная идея! Пожалуйста, смотрите обновленный вопрос.
B Семь

Ответы:

9

0. Корреляция (0,0775) невелика, но (статистически) значительно отличается от 0. То есть, похоже, что корреляция действительно существует, она очень мала / слаба (что эквивалентно, в отношениях много шума).

1. Усреднение по бинам - это уменьшение разброса данных ( эффект для стандартной ошибки среднего), что означает, что вы искусственно завышаете слабую корреляцию. Также посмотритеэту (несколько) связанную проблему.σ/N

2. Конечно, меньшее количество бункеров означает, что больше данных усредняется, что снижает уровень шума, но чем они шире, тем «размытее» становится среднее значение в каждом бине, поскольку среднее значение не является постоянным - существует компромисс. Хотя можно было бы получить формулу для оптимизации корреляции в предположении о линейности и распределении , в ней не будет полностью учтено какое -то эксплуатируемое влияние шума в данных. Самый простой способ - просто попробовать множество различных границ корзины, пока не получите то, что вам нравится. Не забудьте попробовать изменить ширину корзины и происхождение корзины. Эта стратегия может иногда оказаться удивительно полезной с плотностями,Икс , и такого рода случайное преимущество может быть перенесено на функциональные отношения - возможно, позволяя вам получитьименно тот результат, на который вы рассчитывали .

3. Да. Возможно, начните с этого поиска , затем, возможно, попробуйте синонимы.

4. Это хорошее место для начала; Это очень популярная книга, рассчитанная на не статистиков.

5. (более серьезно :) Я бы предложил сглаживание (например, с помощью локальной полиномиальной регрессии / сглаживания ядра), как один из способов исследования отношений. Точно, это зависит от того, что вы хотите, но это может быть правильным подходом, когда вы не знаете форму отношений, если вы избегаете проблемы с углублением данных.


Есть популярная цитата, автор которой, кажется, Рональд Коуз :

«Если вы пытаете данные достаточно, природа всегда признается».

Glen_b - Восстановить Монику
источник
Пункты 1 и 2 являются хорошим объяснением того, почему подход OP не является достоверным статистическим подходом, хотя это полезная эвристика, чтобы убедить в отношении пункта 0 (слабая корреляция).
Асад Эбрахим
9

Возможно, вы бы выиграли от исследовательского инструмента. Разделение данных на децили с координатой х, по-видимому, было выполнено в этом духе. С модификациями, описанными ниже, это идеальный подход.

Многие двумерные поисковые методы были изобретены. Простым, предложенным Джоном Тьюки ( EDA , Addison-Wesley 1977), является его «блуждающий схематический сюжет». Вы нарезаете x-координату на ячейки, устанавливаете вертикальный блок-график соответствующих данных y на медиане каждого лотка и соединяете ключевые части блок-графиков (медианы, шарниры и т. Д.) В кривые (при желании сглаживая их). Эти "блуждающие следы" обеспечивают картину двумерного распределения данных и позволяют немедленно визуально оценить корреляцию, линейность отношений, выбросы и предельные распределения, а также надежную оценку и оценку соответствия всех нелинейных функций регрессии. ,

2-К1-2-ККзнак равно1,2,3,...

Чтобы отобразить различные популяции ящиков, мы можем сделать ширину каждого коробочного графика пропорциональной количеству данных, которые оно представляет.

Получившийся блуждающий схематический график будет выглядеть примерно так. Данные, полученные на основе сводных данных, отображаются серыми точками на заднем плане. Над этим нарисован блуждающий схематический график с пятью кривыми в цвете и коробочными диаграммами (включая любые показанные выбросы) в черном и белом цветах.

фигура

Иксзнак равно-4Иксзнак равно4-0,074для этих данных) близко к нулю. Однако настаивать на том, чтобы интерпретировать, что «почти нет корреляции» или «значимо, но мало корреляции», будет та же самая ошибка, подделанная в старой шутке о статистике, который был доволен своей головой в духовке и ногами в холодильнике, потому что в среднем температура была комфортной. Иногда одно число просто не подходит для описания ситуации.

Альтернативные поисковые инструменты с аналогичными целями включают надежные сглаживания оконных квантилей данных и подгонки квантильных регрессий с использованием диапазона квантилей. Благодаря доступности программного обеспечения для выполнения этих вычислений их, возможно, стало легче выполнять, чем блуждающих схематических трасс, но они не обладают той же простотой конструкции, простотой интерпретации и широкой применимостью.


Следующий Rкод создал рисунок и может быть применен к исходным данным практически без изменений. (Не обращайте внимания на предупреждения, вызванные bplt(вызванные bxp): он жалуется, когда у него нет выбросов.)

#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
            xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010", 
     main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
  invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
                     n=b$n[i],
                     conf=b$conf[,i, drop=FALSE],
                     out=b$out[b$group==i],
                     group=1,
                     names=b$names[i]), add=TRUE, 
                boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins, 
                at=x.binmed[i]))
}

colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,], 
                                             method="natural"), col=colors[i], lwd=2))
whuber
источник
@EngrStudent Пожалуйста, прочитайте текст этого поста, прежде чем запускать код. Это предупреждение упоминается и объясняется.
whuber
Я не понимаю, откуда этот вектор c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6), генерируется ли он и зависит ли он от данных ( x)? Вы упоминаете, 2^*(-k)но это не связано.
Максимилиан
@Max Этот вектор генерирует этот конкретный пример.
whuber
хорошо, но как вы обрабатывали цифры? Это явно неправильно:k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Максимилиан
@ Макс Я не могу понять, что вы могли бы сказать, что "явно неправильно". Вы не можете ссылаться на мой код: в качестве проверки я перезапустил его, и он воспроизвел рисунок во всех деталях.
whuber
6

Я не верю, что биннинг - это научный подход к проблеме. Это потеря информации и произвольность. Ранговые (порядковые; полупараметрические) методы намного лучше и не теряют информацию. Даже если принять решение о бинировании децилей, этот метод все еще произвольный и не воспроизводится другими просто из-за большого числа определений, которые используются для квантилей в случае связей в данных. И, как упоминалось в прекрасном комментарии к пытке данных выше, у Говарда Вайнера есть хорошая статья, показывающая, как найти ячейки, которые могут создавать положительную ассоциацию, и найти ячейки, которые могут создать отрицательную ассоциацию, из того же набора данных:

 @Article{wai06fin,
   author =          {Wainer, Howard},
   title =       {Finding what is not there through the unfortunate
    binning of results: {The} {Mendel} effect},
   journal =     {Chance},
   year =        2006,
   volume =      19,
   number =      1,
   pages =       {49-56},
   annote =      {can find bins that yield either positive or negative
    association;especially pertinent when effects are small;``With four
    parameters, I can fit an elephant; with five, I can make it wiggle its
    trunk.'' - John von Neumann}
 }
Фрэнк Харрелл
источник
Это то, что я подозревал. Если вы выберете разное количество корзин, вы можете найти наилучшую корреляцию, чтобы показать то, что ищете. Но результаты не будут воспроизводимыми или научно обоснованными. Знаете ли вы какие-нибудь вводные ресурсы о рейтинге?
B Семь
3
Это похоже на чрезмерную крайнюю позицию. Конечно, методы, основанные на рангах, тоже теряют информацию: они отбрасывают всю информацию о реальных значениях. Таким образом, вопрос о том, является ли потеря информации проблемой, сводится к тому, почему проводится анализ? Если это для обнаружения и исследования, различные управляемые формы биннинга могут хорошо работать, тогда как замена всего на ранги, вероятно, затенила бы и исказила отношения. Если это для подтверждения или проверки гипотез, то ваши замечания будут более применимыми и оправданными.
whuber
2
π-3πY|Икс
2

Разделение данных на децили на основе наблюдаемого X («Качество точки входа»), по-видимому, является обобщением старого метода, впервые предложенного Уолдом, а затем другими для ситуаций, когда X и Y подвержены ошибкам. (Уолд разделил данные на две группы. Наир и Шривастава и Бартлетт разделили их на три.) Это описано в разделе 5C « Понимание надежного и разведочного анализа данных» , под редакцией Hoaglin, Mosteller and Tukey (Wiley, 1983). Однако с тех пор была проделана большая работа над такими «Ошибка измерения» или «Ошибка в моделях переменных». Учебники, на которые я смотрел - « Ошибка измерения: модели, методы и приложения » Джона Буонаккорси (CRC Press, 2010) и

Ваша ситуация может несколько отличаться, потому что ваша диаграмма рассеяния заставляет меня подозревать, что оба наблюдения являются случайными переменными, и я не знаю, содержат ли они каждое ошибку измерения. Что представляют собой переменные?

Эмиль Фридман
источник
Качество точки входа - это то, насколько быстро растет или падает акция в данный момент времени. Отраслевой импульс - это показатель «импульса» в отрасли для акций в тот же момент времени. Гипотеза состоит в том, что существует корреляция между динамикой отрасли и будущей ценой акций.
B Семь
1
Мы обычно помещаем ответ на вертикальной оси. Визуальный осмотр показывает, что, даже если существует реальная корреляция, различия в качестве точки входа делают ее довольно бесполезной. Но так как вы имеете дело с ценами на акции, все становится еще сложнее, потому что временные ряды вовлечены.
Эмиль Фридман
2

Я нашел пакет localgauss очень полезным для этого. https://cran.r-project.org/web/packages/localgauss/index.html

Пакет содержит

Вычислительные процедуры для оценки и визуализации локальных гауссовых параметров. Локальные гауссовские параметры полезны для характеристики и проверки нелинейной зависимости в двумерных данных.

Пример:

library(localgauss)
x=rnorm(n=1000)
y=x^2 + rnorm(n=1000)
lgobj = localgauss(x,y)
plot(lgobj)

Результат:

введите описание изображения здесь

SunWuKung
источник