У меня есть выборка из 1449 точек данных, которые не коррелированы (r-квадрат 0,006).
Анализируя данные, я обнаружил, что путем разделения значений независимых переменных на положительные и отрицательные группы, как представляется, существует значительная разница в среднем зависимой переменной для каждой группы.
Разбивая точки на 10 бинов (децилей) с использованием значений независимых переменных, представляется, что существует более сильная корреляция между числом децилей и средними значениями зависимых переменных (r-квадрат 0,27).
Я не знаю много о статистике, поэтому вот несколько вопросов:
- Это достоверный статистический подход?
- Есть ли способ найти лучшее количество бинов?
- Каков правильный термин для этого подхода, чтобы я мог использовать его в Google?
- Какие вводные ресурсы можно узнать об этом подходе?
- Какие еще подходы я могу использовать, чтобы найти отношения в этих данных?
Вот данные дециля для справки: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90
РЕДАКТИРОВАТЬ: Вот изображение данных:
Отраслевой импульс является независимой переменной, качество точки входа зависит
Ответы:
0. Корреляция (0,0775) невелика, но (статистически) значительно отличается от 0. То есть, похоже, что корреляция действительно существует, она очень мала / слаба (что эквивалентно, в отношениях много шума).
1. Усреднение по бинам - это уменьшение разброса данных ( эффект для стандартной ошибки среднего), что означает, что вы искусственно завышаете слабую корреляцию. Также посмотритеэту (несколько) связанную проблему.σ/ н--√
2. Конечно, меньшее количество бункеров означает, что больше данных усредняется, что снижает уровень шума, но чем они шире, тем «размытее» становится среднее значение в каждом бине, поскольку среднее значение не является постоянным - существует компромисс. Хотя можно было бы получить формулу для оптимизации корреляции в предположении о линейности и распределении , в ней не будет полностью учтено какое -то эксплуатируемое влияние шума в данных. Самый простой способ - просто попробовать множество различных границ корзины, пока не получите то, что вам нравится. Не забудьте попробовать изменить ширину корзины и происхождение корзины. Эта стратегия может иногда оказаться удивительно полезной с плотностями,Икс , и такого рода случайное преимущество может быть перенесено на функциональные отношения - возможно, позволяя вам получитьименно тот результат, на который вы рассчитывали .
3. Да. Возможно, начните с этого поиска , затем, возможно, попробуйте синонимы.
4. Это хорошее место для начала; Это очень популярная книга, рассчитанная на не статистиков.
5. (более серьезно :) Я бы предложил сглаживание (например, с помощью локальной полиномиальной регрессии / сглаживания ядра), как один из способов исследования отношений. Точно, это зависит от того, что вы хотите, но это может быть правильным подходом, когда вы не знаете форму отношений, если вы избегаете проблемы с углублением данных.
Есть популярная цитата, автор которой, кажется, Рональд Коуз :
источник
Возможно, вы бы выиграли от исследовательского инструмента. Разделение данных на децили с координатой х, по-видимому, было выполнено в этом духе. С модификациями, описанными ниже, это идеальный подход.
Многие двумерные поисковые методы были изобретены. Простым, предложенным Джоном Тьюки ( EDA , Addison-Wesley 1977), является его «блуждающий схематический сюжет». Вы нарезаете x-координату на ячейки, устанавливаете вертикальный блок-график соответствующих данных y на медиане каждого лотка и соединяете ключевые части блок-графиков (медианы, шарниры и т. Д.) В кривые (при желании сглаживая их). Эти "блуждающие следы" обеспечивают картину двумерного распределения данных и позволяют немедленно визуально оценить корреляцию, линейность отношений, выбросы и предельные распределения, а также надежную оценку и оценку соответствия всех нелинейных функций регрессии. ,
Чтобы отобразить различные популяции ящиков, мы можем сделать ширину каждого коробочного графика пропорциональной количеству данных, которые оно представляет.
Получившийся блуждающий схематический график будет выглядеть примерно так. Данные, полученные на основе сводных данных, отображаются серыми точками на заднем плане. Над этим нарисован блуждающий схематический график с пятью кривыми в цвете и коробочными диаграммами (включая любые показанные выбросы) в черном и белом цветах.
Альтернативные поисковые инструменты с аналогичными целями включают надежные сглаживания оконных квантилей данных и подгонки квантильных регрессий с использованием диапазона квантилей. Благодаря доступности программного обеспечения для выполнения этих вычислений их, возможно, стало легче выполнять, чем блуждающих схематических трасс, но они не обладают той же простотой конструкции, простотой интерпретации и широкой применимостью.
Следующий
R
код создал рисунок и может быть применен к исходным данным практически без изменений. (Не обращайте внимания на предупреждения, вызванныеbplt
(вызванныеbxp
): он жалуется, когда у него нет выбросов.)источник
c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6)
, генерируется ли он и зависит ли он от данных (x
)? Вы упоминаете,2^*(-k)
но это не связано.k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Я не верю, что биннинг - это научный подход к проблеме. Это потеря информации и произвольность. Ранговые (порядковые; полупараметрические) методы намного лучше и не теряют информацию. Даже если принять решение о бинировании децилей, этот метод все еще произвольный и не воспроизводится другими просто из-за большого числа определений, которые используются для квантилей в случае связей в данных. И, как упоминалось в прекрасном комментарии к пытке данных выше, у Говарда Вайнера есть хорошая статья, показывающая, как найти ячейки, которые могут создавать положительную ассоциацию, и найти ячейки, которые могут создать отрицательную ассоциацию, из того же набора данных:
источник
Разделение данных на децили на основе наблюдаемого X («Качество точки входа»), по-видимому, является обобщением старого метода, впервые предложенного Уолдом, а затем другими для ситуаций, когда X и Y подвержены ошибкам. (Уолд разделил данные на две группы. Наир и Шривастава и Бартлетт разделили их на три.) Это описано в разделе 5C « Понимание надежного и разведочного анализа данных» , под редакцией Hoaglin, Mosteller and Tukey (Wiley, 1983). Однако с тех пор была проделана большая работа над такими «Ошибка измерения» или «Ошибка в моделях переменных». Учебники, на которые я смотрел - « Ошибка измерения: модели, методы и приложения » Джона Буонаккорси (CRC Press, 2010) и
Ваша ситуация может несколько отличаться, потому что ваша диаграмма рассеяния заставляет меня подозревать, что оба наблюдения являются случайными переменными, и я не знаю, содержат ли они каждое ошибку измерения. Что представляют собой переменные?
источник
Я нашел пакет localgauss очень полезным для этого. https://cran.r-project.org/web/packages/localgauss/index.html
Пакет содержит
Пример:
Результат:
источник