Автоматизированная процедура выбора подмножества точек данных с сильнейшей корреляцией?

15

Существует ли какая-либо стандартная процедура (такая, чтобы ее можно было назвать в качестве справочной) для выбора подмножества точек данных из большего пула с самой сильной корреляцией (только по двум измерениям)?

Например, скажем, у вас есть 100 точек данных. Вам нужно подмножество из 40 точек с максимально возможной корреляцией по измерениям X и Y.

Я понимаю, что написание кода для этого было бы относительно просто, но мне интересно, есть ли источник, чтобы процитировать это?

Julie
источник
3
«Я понимаю, что написание кода для этого было бы относительно просто». А? И как бы ты это сделал?
user603
3
Я предполагаю, что она имела в виду что-то вроде «наилучшей подмножественной корреляции»; выберите подмножества ( в ее примере) точек данных из вашего ( в ее примере) и вычислите оценку корреляции (предполагая, что она хотела знать подмножество точки с лучшей линейной корреляцией). Однако этот процесс кажется вычислительно дорогим для больших , потому что вы должны вычислить \ binom {N} {k} раз коэффициент. kk=40NN=100ρ(X,Y)N(Nk)
Нестор
1
Если вы хотите взглянуть на линейные комбинации переменных X , вам нужны канонические корреляции . В противном случае выбор функции корреляции может представлять интерес.
MånsT
Я думаю, что некоторые могут неправильно понять меня. @ Нестор, похоже, правильно понял. Есть 100 пунктов, каждый со значением X и значением Y. Я хочу найти подмножество 40, которое имеет самую сильную возможную корреляцию (с линейной регрессией) между значениями X и Y. Я могу написать код, чтобы исследовать все пространство поиска, но что бы я назвал для поддержки такого метода? Как это называется, чтобы найти оптимальную корреляцию среди всех возможных подмножеств?
Джули
1
Вы заинтересованы в максимизации корреляции или получении регрессионной линии наилучшего соответствия, как, например, измеряемой минимальной остаточной дисперсией? Они не одинаковы, когда вы выбираете точки данных.
Jbowman

Ответы:

17

Я бы сказал, что ваш метод вписывается в общую категорию, описанную в этой статье в Википедии, которая также имеет другие ссылки, если вам нужно нечто большее, чем просто Википедия. Некоторые ссылки в этой статье также применимы.

Другие термины, которые могут применяться (если вы хотите выполнить дополнительный поиск), включают «Дноуглубление данных» и «Пытка данных до их исповедания».

Обратите внимание, что вы всегда можете получить корреляцию 1, если вы просто выберете 2 точки, которые не имеют одинаковых значений x или y. Несколько лет назад в журнале Chance была статья, в которой было показано, что, когда у вас есть переменные x и y, практически без корреляции, вы можете найти способ связать x и усреднить y в пределах корзин, чтобы показать либо растущий, либо убывающий тренд ( Шанс 2006, Визуальные Откровения: Поиск того, чего нет, через неудачное объединение результатов: Эффект Менделя, стр. 49-52). Также с полным набором данных, показывающим умеренную положительную корреляцию, можно выбрать подмножество, которое показывает отрицательную корреляцию. Учитывая это, даже если у вас есть законная причина для того, чтобы делать то, что вы предлагаете, вы даете скептикам множество аргументов, которые можно использовать против любых сделанных вами выводов.

Грег Сноу
источник
Как называется статья в «Американском статистике»?
предполагается нормальным
1
Я неправильно запомнил, где я увидел статью, она была на самом деле в журнале «Шанс», а не в «Американской статистике». Я исправил это выше и включил год, название и номера страниц, чтобы заинтересованные стороны могли легко находить копии.
Грег Сноу
4

Алгоритм RANSAC звучит так, как вы хотите. По сути, он предполагает, что ваши данные состоят из смеси внутренних и выбросов, и пытается идентифицировать эти значения путем многократной выборки подмножеств данных, подгонки модели к ней и последующей подгонки любой другой точки данных к модели. Вот статья в Википедии об этом .

В вашем случае вы можете просто продолжать повторять алгоритм, сохраняя при этом текущую наилучшую модель, которая соответствует как минимум 40 точкам, поэтому она не будет гарантировать вам абсолютную наилучшую корреляцию, но она должна приблизиться.

Джозеф
источник
1

Мне трудно представить себе контекст, в котором это будет хорошей практикой, но давайте на минутку предположим, что у вас действительно есть веская причина для этого.

Алгоритм грубой силы может выглядеть примерно так:

  1. Вы вычисляете все возможные подвыборки n из вашей общей выборки N. Большинство статистических пакетов имеют функции для вычисления комбинаций без замен, которые сделают это за вас.

  2. Вы оцениваете корреляцию между x и y для каждого из подвыборок и выбираете максимум из этого набора.

Я только что видел оригинальный комментарий автора относительно ссылки на эту процедуру. Я не уверен, что у кого-то есть конкретное имя для этой процедуры, ведь вы просто генерируете эмпирическое распределение всех возможных корреляций в своем наборе данных и выбираете максимум. Подобные подходы используются при выполнении начальной загрузки, но в этом случае вы заинтересованы в эмпирической изменчивости, вы НЕ ИСПОЛЬЗУЕТЕ их, чтобы выбрать конкретный подвыборку, связанную с макс.

Дэвид
источник
2
Я предполагаю, что у вас есть доступ к или около того циклам ЦП, необходимым для решения проблемы для и ? (Это было бы всего около миллиона лет, если бы вы могли использовать каждый ПК в мире полный рабочий день. :-)1032N=100n=40
whuber
Не надо суетиться по этому поводу :-р. Честная оценка.
Дэвид
Извините ... Мне нравятся эти цифры, потому что они дают нам много возможностей для улучшенного алгоритма :-).
whuber