Я только что просмотрел эту замечательную книгу: « Прикладной многомерный статистический анализ» Джонсона и Вихерна . Ирония в том, что я до сих пор не могу понять мотивацию использования многомерных (регрессионных) моделей вместо отдельных одномерных (регрессионных) моделей. Я просмотрел статьи 1 и 2 stats.statexchange , в которых объясняется (а) различие между множественной и многомерной регрессией и (б) интерпретация результатов многомерной регрессии, но я не могу настроить использование многомерных статистических моделей из всей информации, которую я получить онлайн о них.
Мои вопросы:
- Зачем нам нужна многомерная регрессия? В чем преимущество рассмотрения результатов одновременно, а не индивидуально, чтобы сделать выводы.
- Когда использовать многомерные модели, а когда использовать несколько одномерных моделей (для нескольких результатов).
- Возьмите пример, приведенный на сайте UCLA, с тремя результатами: локус контроля, самооценка и мотивация. Что касается 1. и 2., можем ли мы сравнить анализ, когда мы делаем три одномерной множественной регрессии против одной многомерной множественной регрессии? Как оправдать одно над другим?
- Я не встречал много научных работ, в которых используются многомерные статистические модели. Это из-за многомерного предположения нормальности, сложности подбора / интерпретации модели или какой-либо другой конкретной причины?
Ответы:
Вы читали полный пример на сайте UCLA, на который вы ссылались?
Относительно 1:
Использование многомерной модели помогает вам (формально, выводно) сравнивать коэффициенты по результатам.
В этом связанном примере они используют многомерную модель, чтобы проверить,
write
существенно ли отличается коэффициент дляlocus_of_control
результата по сравнению сself_concept
результатом. Я не психолог, но, вероятно, интересно спросить, влияет ли ваша способность к письму / предсказывает две разные психические переменные одинаково. (Или, если мы не верим в нулевое значение, все равно интересно спросить, собрали ли вы достаточно данных, чтобы убедительно продемонстрировать, что эффекты действительно различаются.)Если бы вы проводили отдельный одномерный анализ, было бы сложнее сравнить
write
Коэффициент по двум моделям. Обе оценки будут взяты из одного набора данных, поэтому они будут коррелированы. Многомерная модель учитывает эту корреляцию.Кроме того , в отношении 4:
Там являются некоторые очень часто используемые многофакторные модели, такие как повторные измерения ANOVA . При соответствующем дизайне исследования представьте, что вы даете каждому пациенту несколько препаратов, и измеряете здоровье каждого пациента после каждого препарата. Или представьте, что вы измеряете тот же результат во времени, что и с помощью продольных данных, скажем, высоты детей во времени. Затем у вас есть несколько результатов для каждой единицы (даже если они просто повторяют «одинаковый» тип измерения). Вы, вероятно, захотите сделать хотя бы несколько простых контрастов: сравнивая эффекты препарата А с препаратом В или средние эффекты препаратов А и В с плацебо. Для этого ANOVA с повторными измерениями является подходящей многомерной статистической моделью / анализом.
источник
write
коэффициента) будет коррелирован, а многовариантная модель учитывает одно и то же. Вот где я хотел бы получить больше понимания. locus_of_control и self_concept могут быть объединены в одну меру с использованием факторного анализа или других методов, и результирующая мера может быть смоделирована, если есть подходящая мотивация. Если оба измеряют два разных психа. явления, что мы получаем, моделируя их одновременно?Подумайте обо всех ложных, а иногда и опасных выводах, которые приходят из простого умножения вероятностей, думая, что события независимы. Из-за всех встроенных избыточных гарантий мы внедрили в наши атомные электростанции экспертов, используя предположение о независимости, сказав нам, что вероятность крупной ядерной аварии была ничтожно мала. Но, как мы видели на Три-Майл-Айленде, люди совершают коррелированные ошибки, особенно когда они в панике, из-за одной первоначальной ошибки, которая может быстро сраститься. Может быть трудно построить реалистичную многомерную модель, которая характеризует поведение человека, но понимание эффекта ужасной модели (независимых ошибок) очевидно.
Есть много других возможных примеров. Я возьму катастрофу Челленджер Шаттл в качестве другого возможного примера. Вопрос заключался в том, запускать ли в условиях низкой температуры. Были некоторые данные, позволяющие предположить, что уплотнительные кольца могут выходить из строя при низких температурах. Но данных о пройденных миссиях было немного, чтобы понять, насколько велик риск. НАСА всегда заботилось о безопасности космонавтов, и многие космические аппараты были спроектированы для обеспечения безопасности миссий.
Тем не менее, до 1986 года имелись некоторые системные сбои и почти сбои, вероятно, из-за не определения всех возможных режимов сбоев (трудная задача). Надежное моделирование - сложное дело. Но это уже другая история. В случае челнока производитель уплотнительных колец (Morton Thiokol) провел некоторые испытания уплотнительных колец, которые указали на возможность выхода из строя при низкой температуре.
Но данные по ограниченному количеству миссий действительно показали некоторую связь между температурой и отказом, но поскольку избыточность заставила некоторых администраторов думать, что многократных отказов уплотнительного кольца не произойдет, они оказали давление на НАСА для запуска.
Конечно, было много других факторов, которые привели к решению. Вспомните, как президент Рейган так старался отправить учителя в космос, чтобы продемонстрировать, что теперь стало достаточно безопасно, чтобы обычные люди , которые не были космонавтами, могли безопасно путешествовать на шаттле. Таким образом, политическое давление было еще одним важным фактором, влияющим на решение. В этом случае при наличии достаточного количества данных и многомерной модели риск можно было бы лучше продемонстрировать. НАСА использовать, чтобы попытаться ошибиться на стороне осторожности. В этом случае было бы разумным отложить запуск на несколько дней, пока погода во Флориде не прогреется.
После катастрофы комиссии, инженеры, ученые и статистики сделали большой анализ, и были опубликованы статьи. Их взгляды могут отличаться от моих. Эдвард Туфте показал в одной из своих серий книг по графике, что хорошая графика могла бы быть более убедительной. Но в конце концов, хотя все эти анализы имеют свои достоинства, я думаю, что политика все равно победила бы.
Мораль этих историй заключается не в том, что эти бедствия мотивировали использование многомерных методов, а в том, что плохой анализ, игнорирующий зависимость, иногда приводит к серьезным недооценкам риска. Это может привести к самоуверенности, которая может быть опасной. Как указал jwimberley в первом комментарии к этой теме, «Отдельные одномерные модели игнорируют корреляции».
источник
Рассмотрим эту цитату из р. 36 из книги Дарси Олсен « Право попробовать» [1]:
Мать Макса Дженн строит целостную картину своего улучшения, собирая доказательства из множества результатов, которые по отдельности могут быть отклонены как «шум», но вместе они довольно убедительны. (Этот принцип синтеза доказательств является частью причины, по которой педиатры, как правило, никогда не игнорируют инстинктивные выводы родителей о том, что «что-то не так с моим ребенком». Родители имеют доступ к «многомерному продольному анализу» своих детей, который гораздо богаче, чем «олиговариат»). перекрестный анализ, доступный для клинициста во время одной краткой клинической встречи.)
Достижение такого синтеза доказательств является основным обоснованием для многомерного анализа результатов в клинических испытаниях. Несколько лет назад у статистических методов в медицинских исследованиях был специальный выпуск [2], посвященный «Совместному моделированию» многомерных результатов.
источник
Давайте сделаем простую аналогию, так как это все, что я действительно могу попытаться внести. Вместо одномерной и многомерной регрессии давайте рассмотрим одномерные (предельные) и многомерные (объединенные) распределения. Допустим, у меня есть следующие данные, и я хочу найти «выбросы». В качестве первого подхода я мог бы использовать два маргинальных («одномерных») распределения и рисовать линии на нижних 2,5% и верхних 2,5% каждого независимо. Точки, выходящие за пределы результирующих линий, считаются выбросами.
Но две вещи: 1) что мы думаем о точках, которые находятся за пределами линий для одной оси, но внутри линий для другой оси? Они "частичные выбросы" или что-то? И 2) полученная коробка не выглядит так, как будто она действительно делает то, что мы хотим. Причина, конечно, в том, что эти две переменные коррелируют, и что мы интуитивно хотим, чтобы найти необычные выбросы, рассматривая переменные в комбинации.
В этом случае мы смотрим на совместное распределение, и я помечаю цвета точками в зависимости от того, находится ли расстояние махаланобиса от центра в пределах верхних 5% или нет. Черные точки больше похожи на выбросы, хотя некоторые выбросы лежат в обоих наборах зеленых линий, а некоторые не выбросы (красные) лежат вне обоих наборов зеленых линий.
В обоих случаях мы разграничиваем 95% против 5%, но второй метод учитывает совместное распределение. Я полагаю, что многомерная регрессия похожа на это, где вы заменяете «регрессию» на «распределение». Я не совсем понимаю, и мне не нужно (как я понимаю) самостоятельно проводить многомерную регрессию, но я так думаю об этом.
[Аналогия имеет проблемы: расстояние Махаланобиса сводит две переменные к одному числу - что-то вроде того, как одномерная регрессия принимает набор независимых переменных и может при правильных методах учитывать ковариации между независимыми переменными и результаты в одной зависимой переменной - в то время как многомерная регрессия приводит к нескольким зависимым переменным. Так что это как бы назад, но, надеюсь, вперед - достаточно, чтобы дать некоторую интуицию.]
источник
1) Природа не всегда проста. Фактически, большинство явлений (результатов), которые мы изучаем, зависят от множества переменных и сложным образом. Логическая модель, основанная на одной переменной за раз, скорее всего, будет иметь большую предвзятость.
2) Однофакторные модели - это самая простая модель, которую вы можете построить по определению. Хорошо, если вы впервые исследуете проблему и хотите понять ее единственную, самую важную функцию. Но если вы хотите получить более глубокое понимание, понимание, которое вы можете использовать, потому что доверяете тому, что делаете, вы должны использовать многомерный анализ. И среди многовариантных, вы должны предпочесть те, которые понимают паттерны корреляции, если вы заботитесь о точности модели.
3) Извините, нет времени читать это.
4) Бумаги, использующие многовариантные методы, очень распространены в наши дни - даже чрезвычайно распространены в некоторых областях. В экспериментах CERN с использованием данных Большого адронного коллайдера (на примере физики элементарных частиц) более половины сотен статей, публикуемых каждый год, так или иначе используют многомерные методы.
https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0
источник
Мой ответ зависит от того, что вы хотите сделать с регрессией. Если вы пытаетесь сравнить влияние различных коэффициентов, регрессия может оказаться не лучшим инструментом для вас. Если вы пытаетесь делать прогнозы, используя разные коэффициенты, которые, как вы доказали, являются независимыми, то, возможно, вам следует использовать множественную регрессию.
Связаны ли факторы? Если это так, многомерная регрессия может дать вам плохую модель, и вы должны использовать такой метод, как VIFs или ребристая регрессия, чтобы урезать взаимные корреляции. Вы не должны сравнивать коэффициенты, пока взаимно коррелированные факторы не будут устранены. Это приведет к катастрофе. Если они не взаимно коррелированы, то многовариантные коэффициенты должны быть сопоставимы с однофакторными коэффициентами, и это не должно удивлять.
Результат также может зависеть от программного пакета, который вы используете. Я не шучу. Различные пакеты программного обеспечения имеют разные методы для расчета многомерной регрессии. (Не верьте мне? Посмотрите, как стандартный пакет регрессии R рассчитывает R 2 с и без принудительного начала координат в качестве перехвата. Ваша челюсть должна упасть на пол.) Вам необходимо понять, как программный пакет выполняет регрессию. Как это компенсирует взаимные корреляции? Это выполняет последовательное или матричное решение? Я был разочарован этим в прошлом. Я предлагаю выполнить вашу множественную регрессию на разных программных пакетах и посмотреть, что вы получите.
Еще один хороший пример здесь:
Есть много ловушек, использующих множественную регрессию, поэтому я стараюсь избегать ее использования. Если вы будете использовать его, будьте очень осторожны с результатами и перепроверьте их. Вы должны всегда наносить данные на график визуально, чтобы проверить корреляцию. (То, что в вашей программе сказано, что корреляции не было, не означает, что ее нет. Интересные корреляции ) Всегда сверяйте свои результаты со здравым смыслом. Если один фактор показывает сильную корреляцию в одномерной регрессии, но не в многомерной, вам необходимо понять, почему, прежде чем делиться результатами (хороший пример приведен выше, гендерный фактор).
источник