Скажем, у нас есть выборка из двух групп населения: A
и B
. Давайте предположим, что эти группы состоят из отдельных лиц, и мы решили описать людей с точки зрения особенностей. Некоторые из этих функций являются категориальными (например, они ездят на работу?), А некоторые являются числовыми (например, их высота). Давайте назовем эти функции: . Мы собираем сотни этих функций (например, n = 200), допустим для простоты, без ошибок и шумов для всех людей.
Мы предполагаем, что две популяции разные. Наша цель - ответить на следующие два вопроса:
- Они на самом деле значительно отличаются?
- Что существенно отличается между ними?
Могут помочь такие методы, как деревья решений (например, случайные леса) и анализ линейной регрессии. Например, можно посмотреть на важность признаков в случайных лесах или на соответствующие коэффициенты в линейной регрессии, чтобы понять, что может отличать эти группы, и исследовать отношения между признаками и популяциями.
Прежде чем я пойду по этому пути, я хочу понять, какие у меня есть варианты: что хорошо и современно, а что плохо. Обратите внимание, что моя цель - не предсказание как таковое, а тестирование и выявление каких-либо существенных различий между группами.
Каковы некоторые принципиальные подходы к решению этой проблемы?
Вот некоторые проблемы, которые у меня есть:
Такие методы, как линейный регрессионный анализ, могут не полностью отвечать (2), верно? Например, одно совпадение может помочь найти некоторые различия, но не все существенные различия. Например, мультиколлинеарность может помешать нам выяснить, как все функции варьируются в разных группах (по крайней мере, для одного соответствия). По той же причине, я ожидаю, что ANOVA также не может дать полный ответ на (2).
Не совсем ясно, как прогнозирующий подход будет отвечать (1). Например, какую функцию классификации / прогнозирования потерь мы должны минимизировать? И как мы можем проверить, значительно ли отличаются группы, когда мы подходим? Наконец, я беспокоюсь, что ответ, который я получу (1), может зависеть от конкретного набора моделей классификации, которые я использую.
источник
Вы не говорите, сколько функций доступно в данных. Мало, много, массивно? Можем ли мы предположить, что они являются одинаковыми характеристиками в разных популяциях, и все они измеряются с использованием одних и тех же инструментов, методов и методов? Если нет, то у вас есть большая проблема, когда модель измерения ошибок в переменных может работать.
@benoitsanchez, кажется, ответил на вопрос № 1).
Wrt # 2), я не уверен, что РФ могут помочь. Используя более формальную модель, такую как односторонний ANOVA, примененный к одному признаку за раз, можно разработать тест различий между популяциями по признакам. Суммируя результаты этих тестов, основываясь на значении теста и его значимости, становится возможным описательный профиль того, как популяции различаются по признакам. Это, по общему признанию, специальное и эвристическое решение, которое может быть недостаточно строгим для ваших вкусов, предпочтений и обучения.
Я не очень хорошо разбираюсь в нотации латексного типа. Позвольте мне просто описать, как эти тесты могут работать: во-первых, создать некий макрос-цикл, который пропускает все функции, по одной функции за раз. С каждым проходом цикла новая функция становится целью или DV с X, состоящим из фиктивной переменной для совокупности, а также любых соответствующих управляющих переменных. Убедитесь, что одни и те же элементы управления используются для каждой функции, а также что базовые данные абсолютно одинаковы для всех ANOVA, исключая вариации, связанные с превратностями конечных выборок данных. Агрегируйте значения F-критерия для фиктивной переменной для каждой функции. Это обеспечит стандартизированный показатель, позволяющий сравнивать функции. F-тесты предпочтительнее встроенных бета-версий, так как бета-версиине стандартизированы, выражаются в единицах и стандартных разработках каждой отдельной функции.
Ваш последний комментарий: «Я волнуюсь, что ответ, который я получу (1), может зависеть от конкретного набора моделей классификации / регрессии, который я использую», всегда верен. Ответы могут варьироваться в зависимости от используемой модели. Это также является выражением обычно наблюдаемого недомогания среди более строго теоретических и классически подготовленных статистиков, которые не удовлетворены или испытывают трудности с признанием недетерминированной природы прикладного статистического моделирования. Отличным противоядием от этих симптомов является недавняя книга Эфрона и Хэсти, посвященная статистическому анализу компьютерного века . Они привносят статистическое моделирование в XXI век, в науку о данных и машинное обучение, откровенно признавая итеративную, приближенную, эвристическую природу всехмодели, имеющие погрешность. Не нужно быть байесовским, чтобы признать истину, присущую этому наблюдению. Они представляют собой освежающую перспективу, которая отличается от жесткого детерминизма классической статистической практики 20-го века, которая вскинула руки, когда, например, матрица перекрестных продуктов не инвертировалась и / или не было выполнено некоторое педантичное предположение модели.
источник