Можно ли интуитивно объяснить алгоритм MIC для обнаружения нелинейных корреляций?

20

Совсем недавно я прочитал две статьи. Первый - об истории корреляции, а второй - о новом методе, названном максимальным информационным коэффициентом (MIC). Мне нужна ваша помощь, чтобы понять метод MIC для оценки нелинейных корреляций между переменными.

Более того, инструкции по его использованию в R можно найти на сайте автора (в разделе « Загрузки» ):

Я надеюсь, что это будет хорошей платформой для обсуждения и понимания этого метода. Мой интерес к обсуждению интуиции за этим методом и как его можно расширить, как сказал автор.

« ... нам нужны расширения MIC (X, Y) для MIC (X, Y | Z). Мы хотим знать, сколько данных необходимо для получения стабильных оценок MIC, насколько они восприимчивы к выбросам, какие три - или отношения более высокого измерения, которые он пропустит, и многое другое. MIC - это большой шаг вперед, но есть еще много шагов, которые нужно предпринять ".

Биостат
источник
Вопрос интересный, но я думаю, что он не отвечает. Можете ли вы сделать это более конкретным?
mpiktas
3
Обсуждению будет мешать тот факт, что статья в Science не имеет открытого доступа.
Итамар
7
Вот копия статьи, выпущенной одним из авторов.
10
Короче говоря, MIC - это раскопки старой идеи «заговор-все-рассеянные-и-пик-те-с-самой большой-белой-областью», поэтому он в основном производит ложные срабатывания, имеет нереальную сложность (которые авторы прячут за эвристической оценкой «только некоторые случайно выбранные пары»), и по замыслу упускают все три и более переменные взаимодействия. O(M2)
4
Для получения технической информации о MIC вспомогательные онлайн-материалы более информативны, чем сама статья.
Res

Ответы:

22

Разве это не говорит о том, что это было опубликовано в нестатистическом журнале, в статистической рецензии которого мы не уверены? Эта проблема была решена Хоффдингом в 1948 г. (Анналы математической статистики 19: 546), который разработал простой алгоритм, не требующий ни биннинга, ни нескольких шагов. На работу Хеффдинга даже не ссылались в статье «Наука». Это было в hoeffdфункции R в Hmiscпакете в течение многих лет. Вот пример (введите example(hoeffd)R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdиспользует довольно эффективную реализацию метода Хеффдинга на Фортране. Основная идея его теста состоит в том, чтобы рассмотреть различие между объединенными рангами X и Y и произведением маргинального ранга X и маргинального ранга Y, соответственно масштабированных.

Обновить

D

В следующем выпуске Hmiscпакета R я добавил два дополнительных вывода, связанных с , а именно среднее и максимальное | F ( x , y ) - G ( x ) H ( y ) | которые являются полезными мерами зависимости. Однако эти меры, как и D , не обладают тем свойством, которое искали создатели MIC.D|F(Икс,Y)-грамм(Икс)ЧАС(Y)|D

Фрэнк Харрелл
источник
6
(+1) Бумага Хоффдинга доступна онлайн.
Res
1
Хорошая находка. Может быть стоит короткой заметки для Науки, сравнивающей производительность Хеффдинга с их. Жаль, что многие хорошие исследования (во многих областях) 50-х годов были забыты за эти годы.
Итамар
6

Mязнак равноЧАС(Икс)+ЧАС(Y)-ЧАС(Икс,Y)
ЧАС(Икс)знак равно-Σяп(Zя)журналп(Zя)
ЧАС(Икс,Y)знак равно-Σя,Jп(Икся,YJ)журналп(Икся,YJ)

Основная идея авторов - дискретизировать данные по многим различным двумерным сеткам и рассчитать нормализованные оценки, которые представляют взаимную информацию двух переменных в каждой сетке. Баллы нормализованы для обеспечения справедливого сравнения между различными сетками и варьируются от 0 (некоррелированные) до 1 (высокие корреляции).

р2

Итамар
источник
3

Я нашел две хорошие статьи, более четко объясняющие идею MIC, в частности, эту ; здесь второе .

Как я понял из этих прочтений, вы можете увеличить различные сложности и масштабы отношений между двумя переменными, изучая различные комбинации сеток; Эти сетки используются для разделения двухмерного пространства на ячейки. Выбирая сетку, которая содержит наибольшую информацию о том, как ячейки делят пространство, вы выбираете MIC.

Я хотел бы спросить @mbq, может ли он расширить то, что он назвал «plot-all-scatterplots-and-peak-те-с-самой большой-белой-областью» и нереальной сложностью O (M2).

pedrosaurio
источник
4
Я беспокоюсь о любом статистическом методе, который использует биннинг.
Фрэнк Харрелл
@FrankHarrell Можете ли вы предоставить ссылки или некоторую интуицию, которые подробно объясняют, почему биннинг плох? Интуитивно я вижу, что вы по сути выбрасываете информацию из-за биннинга, но должно быть больше причин, почему?
Киран К.
Слишком много ссылок, чтобы знать, с чего начать. Никакой статистический метод, основанный на биннинге, в конечном итоге не выжил. Произвол является одной из многих проблем.
Фрэнк Харрелл
@FrankHarrell Цените комментарий. Причина, по которой я попросил ссылки, заключается в том, что я учусь в аспирантуре и сейчас изучаю понятия зависимости и многовариантной зависимости, и хотел бы прочитать эти статьи и процитировать их в своих собственных работах в будущем. Если бы вы могли упомянуть одного или двух выдающихся, я уверен, что смогу найти остальные, о которых вы упомянули. Я также покопаюсь здесь и выложу ссылки, если найду хорошие.
Киран К.
Начните с citeulike.org/user/harrelfe/article/13265458, а затем посмотрите другую информацию о дихотомизации на biostat.mc.vanderbilt.edu/CatContinuous . Для общей меры зависимости, не требующей биннинга, не пропустите citeulike.org/user/harrelfe/article/13264312
Фрэнк Харрелл,