Зачем нам нужна многомерная регрессия (в отличие от группы одномерных регрессий)?

28

Я только что просмотрел эту замечательную книгу: « Прикладной многомерный статистический анализ» Джонсона и Вихерна . Ирония в том, что я до сих пор не могу понять мотивацию использования многомерных (регрессионных) моделей вместо отдельных одномерных (регрессионных) моделей. Я просмотрел статьи 1 и 2 stats.statexchange , в которых объясняется (а) различие между множественной и многомерной регрессией и (б) интерпретация результатов многомерной регрессии, но я не могу настроить использование многомерных статистических моделей из всей информации, которую я получить онлайн о них.

Мои вопросы:

  1. Зачем нам нужна многомерная регрессия? В чем преимущество рассмотрения результатов одновременно, а не индивидуально, чтобы сделать выводы.
  2. Когда использовать многомерные модели, а когда использовать несколько одномерных моделей (для нескольких результатов).
  3. Возьмите пример, приведенный на сайте UCLA, с тремя результатами: локус контроля, самооценка и мотивация. Что касается 1. и 2., можем ли мы сравнить анализ, когда мы делаем три одномерной множественной регрессии против одной многомерной множественной регрессии? Как оправдать одно над другим?
  4. Я не встречал много научных работ, в которых используются многомерные статистические модели. Это из-за многомерного предположения нормальности, сложности подбора / интерпретации модели или какой-либо другой конкретной причины?
KarthikS
источник
18
Отдельные одномерные модели игнорируют корреляции.
17
3
Да, в мире есть много явлений, которые не могут быть смоделированы независимыми случайными величинами.
Майкл Р. Черник
2
@jwimberley Не могли бы вы рассказать о последствиях игнорирования этих корреляций в ответе?
Джейк Уэстфолл,
2
Просто примечание к заголовку: уменьшение размерности (PCA, факторный анализ, любой нелинейный метод и т. Д.) И кластеризация обычно также считаются «многомерными» методами. Похоже, ваш вопрос сфокусирован именно на многовариантной регрессии (в сравнении с кучей одномерных регрессий), поэтому я предлагаю вам включить ее прямо в заголовок. +1 между прочим
говорит амеба, восстанови Монику
2
Простой пример того, как MANOVA может быть полезен в отличие от ANOVA: stats.stackexchange.com/questions/129123 . Противоположная ситуация, когда MANOVA по-прежнему выгоден, но по другой причине: stats.stackexchange.com/questions/61921 . Таким образом, MANOVA может: (i) дать больше мощности, (ii) контролировать общую частоту ошибок.
говорит амеба, восстанови Монику

Ответы:

22

Вы читали полный пример на сайте UCLA, на который вы ссылались?

Относительно 1:
Использование многомерной модели помогает вам (формально, выводно) сравнивать коэффициенты по результатам.
В этом связанном примере они используют многомерную модель, чтобы проверить, writeсущественно ли отличается коэффициент для locus_of_controlрезультата по сравнению с self_conceptрезультатом. Я не психолог, но, вероятно, интересно спросить, влияет ли ваша способность к письму / предсказывает две разные психические переменные одинаково. (Или, если мы не верим в нулевое значение, все равно интересно спросить, собрали ли вы достаточно данных, чтобы убедительно продемонстрировать, что эффекты действительно различаются.)
Если бы вы проводили отдельный одномерный анализ, было бы сложнее сравнитьwriteКоэффициент по двум моделям. Обе оценки будут взяты из одного набора данных, поэтому они будут коррелированы. Многомерная модель учитывает эту корреляцию.

Кроме того , в отношении 4:
Там являются некоторые очень часто используемые многофакторные модели, такие как повторные измерения ANOVA . При соответствующем дизайне исследования представьте, что вы даете каждому пациенту несколько препаратов, и измеряете здоровье каждого пациента после каждого препарата. Или представьте, что вы измеряете тот же результат во времени, что и с помощью продольных данных, скажем, высоты детей во времени. Затем у вас есть несколько результатов для каждой единицы (даже если они просто повторяют «одинаковый» тип измерения). Вы, вероятно, захотите сделать хотя бы несколько простых контрастов: сравнивая эффекты препарата А с препаратом В или средние эффекты препаратов А и В с плацебо. Для этого ANOVA с повторными измерениями является подходящей многомерной статистической моделью / анализом.

civilstat
источник
1
Вы дали отличный ответ. Я определенно знал, что существует множество других примеров и аргументов, которые можно привести. Мне нравится, что вы взяли информацию по ссылке UCLA, чтобы показать ОП. Честно говоря, я был изначально обижен этим вопросом, но я решил дать ответ, когда понял, что ФП искренне хотел привести хорошие аргументы и не выдвигал идею игнорирования многомерных методов. Мой выбор состоял в том, чтобы показать примеры, когда игнорирование корреляции имело реальные разрушительные и фатальные результаты.
Майкл Р. Черник
1
Я приветствую ваш ответ и, надеюсь, более хорошо продуманные ответы, которые сделают это ценной веткой.
Майкл Р. Черник
Спасибо за отличный ответ, @civilstat. В пункте 1, если мы запустим две независимые одномерные модели, вы упомянули, что коэффициент входной переменной (например, для writeкоэффициента) будет коррелирован, а многовариантная модель учитывает одно и то же. Вот где я хотел бы получить больше понимания. locus_of_control и self_concept могут быть объединены в одну меру с использованием факторного анализа или других методов, и результирующая мера может быть смоделирована, если есть подходящая мотивация. Если оба измеряют два разных психа. явления, что мы получаем, моделируя их одновременно?
KarthikS
2
@ManuelFazio Смотрите следующее предложение на сайте UCLA: «Так зачем проводить многовариантную регрессию? Как мы упоминали ранее, одним из преимуществ использования mvreg является то, что вы можете проводить тесты коэффициентов для различных выходных переменных». Если бы вы запустили отдельные регрессии, вы получили бы один и тот же коэффициент и SE для каждого результата , но вы не получили бы оценку корреляции между коэффициентами по результатам . Эта корреляция понадобится вам, если, например, вы хотите получить КИ для разницы в коэффициентах чтения для результата мотивации и результата self_concept.
Civilstat
1
@ civilstat Ах, позор мне, предположение о независимости было настолько укоренившимся в моей памяти, что даже после того, как я прочитал это предложение, оно не щелкнуло. Спасибо за подробное объяснение!
zipzapboing
11

Подумайте обо всех ложных, а иногда и опасных выводах, которые приходят из простого умножения вероятностей, думая, что события независимы. Из-за всех встроенных избыточных гарантий мы внедрили в наши атомные электростанции экспертов, используя предположение о независимости, сказав нам, что вероятность крупной ядерной аварии была ничтожно мала. Но, как мы видели на Три-Майл-Айленде, люди совершают коррелированные ошибки, особенно когда они в панике, из-за одной первоначальной ошибки, которая может быстро сраститься. Может быть трудно построить реалистичную многомерную модель, которая характеризует поведение человека, но понимание эффекта ужасной модели (независимых ошибок) очевидно.

Есть много других возможных примеров. Я возьму катастрофу Челленджер Шаттл в качестве другого возможного примера. Вопрос заключался в том, запускать ли в условиях низкой температуры. Были некоторые данные, позволяющие предположить, что уплотнительные кольца могут выходить из строя при низких температурах. Но данных о пройденных миссиях было немного, чтобы понять, насколько велик риск. НАСА всегда заботилось о безопасности космонавтов, и многие космические аппараты были спроектированы для обеспечения безопасности миссий.

Тем не менее, до 1986 года имелись некоторые системные сбои и почти сбои, вероятно, из-за не определения всех возможных режимов сбоев (трудная задача). Надежное моделирование - сложное дело. Но это уже другая история. В случае челнока производитель уплотнительных колец (Morton Thiokol) провел некоторые испытания уплотнительных колец, которые указали на возможность выхода из строя при низкой температуре.

Но данные по ограниченному количеству миссий действительно показали некоторую связь между температурой и отказом, но поскольку избыточность заставила некоторых администраторов думать, что многократных отказов уплотнительного кольца не произойдет, они оказали давление на НАСА для запуска.

Конечно, было много других факторов, которые привели к решению. Вспомните, как президент Рейган так старался отправить учителя в космос, чтобы продемонстрировать, что теперь стало достаточно безопасно, чтобы обычные люди , которые не были космонавтами, могли безопасно путешествовать на шаттле. Таким образом, политическое давление было еще одним важным фактором, влияющим на решение. В этом случае при наличии достаточного количества данных и многомерной модели риск можно было бы лучше продемонстрировать. НАСА использовать, чтобы попытаться ошибиться на стороне осторожности. В этом случае было бы разумным отложить запуск на несколько дней, пока погода во Флориде не прогреется.

После катастрофы комиссии, инженеры, ученые и статистики сделали большой анализ, и были опубликованы статьи. Их взгляды могут отличаться от моих. Эдвард Туфте показал в одной из своих серий книг по графике, что хорошая графика могла бы быть более убедительной. Но в конце концов, хотя все эти анализы имеют свои достоинства, я думаю, что политика все равно победила бы.

Мораль этих историй заключается не в том, что эти бедствия мотивировали использование многомерных методов, а в том, что плохой анализ, игнорирующий зависимость, иногда приводит к серьезным недооценкам риска. Это может привести к самоуверенности, которая может быть опасной. Как указал jwimberley в первом комментарии к этой теме, «Отдельные одномерные модели игнорируют корреляции».

Майкл Р. Черник
источник
Спасибо за ваш замечательный пример, @MichaelChernick. Предположение о независимости вызывает беспокойство, я понимаю. Я больше интересуюсь взаимосвязью между результатами и необходимостью их одновременного моделирования.
KarthikS
Давайте возьмем сам пример катастрофы челнока Challenger. Здесь одномерный результат является двоичным - безопасно ли запускать космический челнок или нет. Рассмотрим модель, пытающуюся сделать много вещей, таких как прогнозирование безопасности, измерение отклонений траектории и прогнозирование давления в помещении для челнока. Один из подходов может заключаться в создании отдельных моделей для каждой из них, а другой может заключаться в рассмотрении единой для всех модели, которая не только пытается отразить влияние входных данных (температура, влажность и т. Д.), Но также проверяет одновременность влияние на результаты.
KarthikS
1
Спасибо @MichaelChernick. Я не уверен, полностью ли я понимаю ваши аргументы. Я понимаю, что многие из нас используют одномерную и многомерную регрессию для простой линейной регрессии с одним входом и несколькими входными переменными (где в одном случае рассматриваются одновременные эффекты более чем одного входа). Но я сформулировал этот вопрос для моделей с одним результатом (одномерным) или более чем одним результатом (многомерным). Если случай Challenger не ссылается на многовариантный вариант использования результата, можете ли вы сослаться на действительный вариант. Спасибо за продолжение обсуждения.
KarthikS
Я удивлен, что вы положили награду за этот вопрос. Заработные платы чаще делаются, когда он получил мало комментариев, и если он содержит ответы, они не охватывают какой-то важный аспект вопросов. В этой теме было три хороших ответа и куча комментариев (действительно хороших тоже, как и первый от jwimberley.
Майкл Р. Черник,
Я не уверен, что еще вы хотите. Вопрос очень широкий и кажется скорее дискуссионным, чем техническим. Мне кажется, что вы пытаетесь заставить кого-то сказать, что одномерный анализ - это хорошо в сложных ситуациях. Я не собираюсь пытаться получить награду, и будет интересно увидеть, что в ближайшие семь дней кто-нибудь попытается сделать это, и если они это сделают, вы примете это. Бедствие Челленджер можно рассматривать как одномерный результат, но я не думаю, что какой-либо степени воображения можно было бы полностью ответить только одномерными методами.
Михаил Р. Черник
7

Рассмотрим эту цитату из р. 36 из книги Дарси Олсен « Право попробовать» [1]:

Но примерно через шестнадцать недель после начала инфузии [eteplirsen] Дженн начала замечать изменения в [ее сыне] Максе. «Ребенок перестал хотеть пользоваться своей инвалидной коляской», - говорит она. Несколько недель спустя он просил играть на улице - то, чего он не делал годами. Затем Макс начал восстанавливать свои мелкие моторики. Он смог снова открыть контейнеры - навык, который он потерял по мере того, как прогрессировала его [мышечная дистрофия Дюшенна].

Мать Макса Дженн строит целостную картину своего улучшения, собирая доказательства из множества результатов, которые по отдельности могут быть отклонены как «шум», но вместе они довольно убедительны. (Этот принцип синтеза доказательств является частью причины, по которой педиатры, как правило, никогда не игнорируют инстинктивные выводы родителей о том, что «что-то не так с моим ребенком». Родители имеют доступ к «многомерному продольному анализу» своих детей, который гораздо богаче, чем «олиговариат»). перекрестный анализ, доступный для клинициста во время одной краткой клинической встречи.)

п>0,05

Достижение такого синтеза доказательств является основным обоснованием для многомерного анализа результатов в клинических испытаниях. Несколько лет назад у статистических методов в медицинских исследованиях был специальный выпуск [2], посвященный «Совместному моделированию» многомерных результатов.

  1. Олсен, Дарси. Право судить: как федеральное правительство препятствует американцам получать спасительное лечение, в котором они нуждаются. Первое издание. Нью-Йорк, Нью-Йорк: Harper, отпечаток издательства HarperCollins, 2015.
  2. Ризопулос, Димитрис и Эммануил Лесаффр. «Введение в специальный выпуск по методам моделирования суставов». Статистические методы в медицинских исследованиях 23, нет. 1 (1 февраля 2014 г.): 3–10. DOI: 10.1177 / 0962280212445800.
Дэвид С. Норрис
источник
6

Давайте сделаем простую аналогию, так как это все, что я действительно могу попытаться внести. Вместо одномерной и многомерной регрессии давайте рассмотрим одномерные (предельные) и многомерные (объединенные) распределения. Допустим, у меня есть следующие данные, и я хочу найти «выбросы». В качестве первого подхода я мог бы использовать два маргинальных («одномерных») распределения и рисовать линии на нижних 2,5% и верхних 2,5% каждого независимо. Точки, выходящие за пределы результирующих линий, считаются выбросами.

Но две вещи: 1) что мы думаем о точках, которые находятся за пределами линий для одной оси, но внутри линий для другой оси? Они "частичные выбросы" или что-то? И 2) полученная коробка не выглядит так, как будто она действительно делает то, что мы хотим. Причина, конечно, в том, что эти две переменные коррелируют, и что мы интуитивно хотим, чтобы найти необычные выбросы, рассматривая переменные в комбинации.

В этом случае мы смотрим на совместное распределение, и я помечаю цвета точками в зависимости от того, находится ли расстояние махаланобиса от центра в пределах верхних 5% или нет. Черные точки больше похожи на выбросы, хотя некоторые выбросы лежат в обоих наборах зеленых линий, а некоторые не выбросы (красные) лежат вне обоих наборов зеленых линий.

В обоих случаях мы разграничиваем 95% против 5%, но второй метод учитывает совместное распределение. Я полагаю, что многомерная регрессия похожа на это, где вы заменяете «регрессию» на «распределение». Я не совсем понимаю, и мне не нужно (как я понимаю) самостоятельно проводить многомерную регрессию, но я так думаю об этом.

[Аналогия имеет проблемы: расстояние Махаланобиса сводит две переменные к одному числу - что-то вроде того, как одномерная регрессия принимает набор независимых переменных и может при правильных методах учитывать ковариации между независимыми переменными и результаты в одной зависимой переменной - в то время как многомерная регрессия приводит к нескольким зависимым переменным. Так что это как бы назад, но, надеюсь, вперед - достаточно, чтобы дать некоторую интуицию.]

введите описание изображения здесь

Wayne
источник
1
Мне это нравится. Я бы использовал внешние эллипсы для определения выбросов. Как я вижу на вашей иллюстрации, точка может быть далека от среднего значения в направлении x или y, но все еще находиться в эллипсе, который находится недалеко от линии регрессии.
Майкл Р. Черник
3

1) Природа не всегда проста. Фактически, большинство явлений (результатов), которые мы изучаем, зависят от множества переменных и сложным образом. Логическая модель, основанная на одной переменной за раз, скорее всего, будет иметь большую предвзятость.

2) Однофакторные модели - это самая простая модель, которую вы можете построить по определению. Хорошо, если вы впервые исследуете проблему и хотите понять ее единственную, самую важную функцию. Но если вы хотите получить более глубокое понимание, понимание, которое вы можете использовать, потому что доверяете тому, что делаете, вы должны использовать многомерный анализ. И среди многовариантных, вы должны предпочесть те, которые понимают паттерны корреляции, если вы заботитесь о точности модели.

3) Извините, нет времени читать это.

4) Бумаги, использующие многовариантные методы, очень распространены в наши дни - даже чрезвычайно распространены в некоторых областях. В экспериментах CERN с использованием данных Большого адронного коллайдера (на примере физики элементарных частиц) более половины сотен статей, публикуемых каждый год, так или иначе используют многомерные методы.

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0

famargar
источник
Я думаю, вы хотите сказать, что одномерная модель - это модель с одним входом, а многовариантная - модель с несколькими входами. Мой вопрос был о нескольких результатах, одновременно проанализированных в модели.
KarthikS
1
Вы смешали многомерную / одномерную регрессию с множественной / единственной регрессией.
Firebug
1

Мой ответ зависит от того, что вы хотите сделать с регрессией. Если вы пытаетесь сравнить влияние различных коэффициентов, регрессия может оказаться не лучшим инструментом для вас. Если вы пытаетесь делать прогнозы, используя разные коэффициенты, которые, как вы доказали, являются независимыми, то, возможно, вам следует использовать множественную регрессию.

Связаны ли факторы? Если это так, многомерная регрессия может дать вам плохую модель, и вы должны использовать такой метод, как VIFs или ребристая регрессия, чтобы урезать взаимные корреляции. Вы не должны сравнивать коэффициенты, пока взаимно коррелированные факторы не будут устранены. Это приведет к катастрофе. Если они не взаимно коррелированы, то многовариантные коэффициенты должны быть сопоставимы с однофакторными коэффициентами, и это не должно удивлять.

Результат также может зависеть от программного пакета, который вы используете. Я не шучу. Различные пакеты программного обеспечения имеют разные методы для расчета многомерной регрессии. (Не верьте мне? Посмотрите, как стандартный пакет регрессии R рассчитывает R 2 с и без принудительного начала координат в качестве перехвата. Ваша челюсть должна упасть на пол.) Вам необходимо понять, как программный пакет выполняет регрессию. Как это компенсирует взаимные корреляции? Это выполняет последовательное или матричное решение? Я был разочарован этим в прошлом. Я предлагаю выполнить вашу множественную регрессию на разных программных пакетах и ​​посмотреть, что вы получите.

Еще один хороший пример здесь:

Обратите внимание, что в этом уравнении коэффициенты регрессии (или B-коэффициенты) представляют независимые вклады каждой независимой переменной в прогноз зависимой переменной. Другой способ выразить этот факт - сказать, что, например, переменная X1 коррелируется с переменной Y после контроля всех других независимых переменных. Этот тип корреляции также упоминается как частичная корреляция (этот термин был впервые использован в Yule, 1907). Возможно, следующий пример прояснит эту проблему. Вы, вероятно, найдете существенную отрицательную корреляцию между длиной и ростом волос в популяции (то есть, у коротких людей волосы длиннее). Сначала это может показаться странным; однако, если бы мы добавили переменную Gender в уравнение множественной регрессии, эта корреляция, вероятно, исчезла бы. Это потому, что женщины в среднем имеют более длинные волосы, чем мужчины; они также в среднем короче мужчин. Таким образом, после того как мы удалим это гендерное различие, введя в уравнение пол, соотношение между длиной и высотой волос исчезнет, ​​потому что длина волос не вносит какого-либо уникального вклада в прогноз роста, превышающий и превышающий то, что он разделяет в прогнозе с переменной Пол , Другими словами, после учета переменной Пол, частичная корреляция между длиной волос и ростом равна нулю. связь между длиной и ростом волос исчезает, потому что длина волос не вносит какого-либо уникального вклада в предсказание роста, сверх того, что оно разделяет в предсказании с переменным полом. Другими словами, после учета переменной Пол, частичная корреляция между длиной волос и ростом равна нулю. связь между длиной и ростом волос исчезает, потому что длина волос не вносит какого-либо уникального вклада в предсказание роста, сверх того, что оно разделяет в предсказании с переменным полом. Другими словами, после учета переменной Пол, частичная корреляция между длиной волос и ростом равна нулю. http://www.statsoft.com/Textbook/Multiple-Regression

Есть много ловушек, использующих множественную регрессию, поэтому я стараюсь избегать ее использования. Если вы будете использовать его, будьте очень осторожны с результатами и перепроверьте их. Вы должны всегда наносить данные на график визуально, чтобы проверить корреляцию. (То, что в вашей программе сказано, что корреляции не было, не означает, что ее нет. Интересные корреляции ) Всегда сверяйте свои результаты со здравым смыслом. Если один фактор показывает сильную корреляцию в одномерной регрессии, но не в многомерной, вам необходимо понять, почему, прежде чем делиться результатами (хороший пример приведен выше, гендерный фактор).

Maddenker
источник
« Посмотрите, как стандартный регрессионный пакет R вычисляет R2 с и без принудительного определения источника в качестве перехвата». Хотя это потенциально сбивает с толку тех, кто этого не ожидает, в этой ситуации R делает стандартный подход, который реализуется буквально в каждом программном обеспечении статистики. пакет, где я проверил это.
Джейк Уэстфолл,
Интересный. Я видел опубликованные статьи аналитиков, которые не понимали этой разницы. Вы видели хорошее обсуждение в Интернете по этой теме? Должен ли я отправить новый вопрос в CV на него?
Maddenker