Существует ли какая-либо стандартная процедура (такая, чтобы ее можно было назвать в качестве справочной) для выбора подмножества точек данных из большего пула с самой сильной корреляцией (только по двум измерениям)?
Например, скажем, у вас есть 100 точек данных. Вам нужно подмножество из 40 точек с максимально возможной корреляцией по измерениям X и Y.
Я понимаю, что написание кода для этого было бы относительно просто, но мне интересно, есть ли источник, чтобы процитировать это?
Ответы:
Я бы сказал, что ваш метод вписывается в общую категорию, описанную в этой статье в Википедии, которая также имеет другие ссылки, если вам нужно нечто большее, чем просто Википедия. Некоторые ссылки в этой статье также применимы.
Другие термины, которые могут применяться (если вы хотите выполнить дополнительный поиск), включают «Дноуглубление данных» и «Пытка данных до их исповедания».
Обратите внимание, что вы всегда можете получить корреляцию 1, если вы просто выберете 2 точки, которые не имеют одинаковых значений x или y. Несколько лет назад в журнале Chance была статья, в которой было показано, что, когда у вас есть переменные x и y, практически без корреляции, вы можете найти способ связать x и усреднить y в пределах корзин, чтобы показать либо растущий, либо убывающий тренд ( Шанс 2006, Визуальные Откровения: Поиск того, чего нет, через неудачное объединение результатов: Эффект Менделя, стр. 49-52). Также с полным набором данных, показывающим умеренную положительную корреляцию, можно выбрать подмножество, которое показывает отрицательную корреляцию. Учитывая это, даже если у вас есть законная причина для того, чтобы делать то, что вы предлагаете, вы даете скептикам множество аргументов, которые можно использовать против любых сделанных вами выводов.
источник
Алгоритм RANSAC звучит так, как вы хотите. По сути, он предполагает, что ваши данные состоят из смеси внутренних и выбросов, и пытается идентифицировать эти значения путем многократной выборки подмножеств данных, подгонки модели к ней и последующей подгонки любой другой точки данных к модели. Вот статья в Википедии об этом .
В вашем случае вы можете просто продолжать повторять алгоритм, сохраняя при этом текущую наилучшую модель, которая соответствует как минимум 40 точкам, поэтому она не будет гарантировать вам абсолютную наилучшую корреляцию, но она должна приблизиться.
источник
Мне трудно представить себе контекст, в котором это будет хорошей практикой, но давайте на минутку предположим, что у вас действительно есть веская причина для этого.
Алгоритм грубой силы может выглядеть примерно так:
Вы вычисляете все возможные подвыборки n из вашей общей выборки N. Большинство статистических пакетов имеют функции для вычисления комбинаций без замен, которые сделают это за вас.
Вы оцениваете корреляцию между x и y для каждого из подвыборок и выбираете максимум из этого набора.
Я только что видел оригинальный комментарий автора относительно ссылки на эту процедуру. Я не уверен, что у кого-то есть конкретное имя для этой процедуры, ведь вы просто генерируете эмпирическое распределение всех возможных корреляций в своем наборе данных и выбираете максимум. Подобные подходы используются при выполнении начальной загрузки, но в этом случае вы заинтересованы в эмпирической изменчивости, вы НЕ ИСПОЛЬЗУЕТЕ их, чтобы выбрать конкретный подвыборку, связанную с макс.
источник