Совсем недавно я прочитал две статьи. Первый - об истории корреляции, а второй - о новом методе, названном максимальным информационным коэффициентом (MIC). Мне нужна ваша помощь, чтобы понять метод MIC для оценки нелинейных корреляций между переменными.
Более того, инструкции по его использованию в R можно найти на сайте автора (в разделе « Загрузки» ):
Я надеюсь, что это будет хорошей платформой для обсуждения и понимания этого метода. Мой интерес к обсуждению интуиции за этим методом и как его можно расширить, как сказал автор.
« ... нам нужны расширения MIC (X, Y) для MIC (X, Y | Z). Мы хотим знать, сколько данных необходимо для получения стабильных оценок MIC, насколько они восприимчивы к выбросам, какие три - или отношения более высокого измерения, которые он пропустит, и многое другое. MIC - это большой шаг вперед, но есть еще много шагов, которые нужно предпринять ".
Ответы:
Разве это не говорит о том, что это было опубликовано в нестатистическом журнале, в статистической рецензии которого мы не уверены? Эта проблема была решена Хоффдингом в 1948 г. (Анналы математической статистики 19: 546), который разработал простой алгоритм, не требующий ни биннинга, ни нескольких шагов. На работу Хеффдинга даже не ссылались в статье «Наука». Это было в
hoeffd
функции R вHmisc
пакете в течение многих лет. Вот пример (введитеexample(hoeffd)
R):hoeffd
использует довольно эффективную реализацию метода Хеффдинга на Фортране. Основная идея его теста состоит в том, чтобы рассмотреть различие между объединенными рангами X и Y и произведением маргинального ранга X и маргинального ранга Y, соответственно масштабированных.Обновить
В следующем выпускеD | F( х , у) - G ( x ) H( у) | D
Hmisc
пакета R я добавил два дополнительных вывода, связанных с , а именно среднее и максимальное | F ( x , y ) - G ( x ) H ( y ) | которые являются полезными мерами зависимости. Однако эти меры, как и D , не обладают тем свойством, которое искали создатели MIC.источник
Основная идея авторов - дискретизировать данные по многим различным двумерным сеткам и рассчитать нормализованные оценки, которые представляют взаимную информацию двух переменных в каждой сетке. Баллы нормализованы для обеспечения справедливого сравнения между различными сетками и варьируются от 0 (некоррелированные) до 1 (высокие корреляции).
источник
Я нашел две хорошие статьи, более четко объясняющие идею MIC, в частности, эту ; здесь второе .
Как я понял из этих прочтений, вы можете увеличить различные сложности и масштабы отношений между двумя переменными, изучая различные комбинации сеток; Эти сетки используются для разделения двухмерного пространства на ячейки. Выбирая сетку, которая содержит наибольшую информацию о том, как ячейки делят пространство, вы выбираете MIC.
Я хотел бы спросить @mbq, может ли он расширить то, что он назвал «plot-all-scatterplots-and-peak-те-с-самой большой-белой-областью» и нереальной сложностью O (M2).
источник