В чем смысл одномерной регрессии до многомерной регрессии?

13

В настоящее время я работаю над проблемой, в которой у нас небольшой набор данных, и меня интересует причинно-следственное влияние лечения на результат.

Мой консультант поручил мне выполнить одномерную регрессию для каждого предиктора с результатом в качестве ответа, а затем назначением лечения в качестве ответа. То есть меня просят согласовать регрессию с одной переменной за раз и составить таблицу результатов. Я спросил: «Зачем нам это делать?», И ответ был чем-то вроде «нас интересует, какие предикторы связаны с назначением лечения и результатом, так как это, вероятно, будет указывать на нарушителя». Мой советник - опытный статистик, а не ученый в другой области, поэтому я склонен доверять им.

Это имеет смысл, но не ясно, как использовать результат одномерного анализа. Не приведет ли выбор моделей из этого к значительному отклонению оценок и узким доверительным интервалам? Зачем кому-то делать это? Я в замешательстве, и мой советник довольно непрозрачен по этому вопросу, когда я поднял его. У кого-нибудь есть ресурсы по этой технике?

(NB: мой советник сказал, что мы НЕ используем p-значения как обрезание, но мы хотим рассмотреть «все».)

завивать волосы щипцами
источник
6
Если под «одномерной регрессией» ваш инструктор будет включать рисование диаграммы рассеяния, то это действительно мудрый совет. И поскольку ни одна регрессия, о которой вы заботитесь, не должна проводиться без составления графика, вы получите некоторую полезную информацию. Сделайте все это сразу, если можете, с матрицей диаграммы рассеяния, и покажите некоторые надежные сглаживания с ними. Преимущества станут очевидными, когда вы увидите, как ваши переменные могут отличаться от линейных отношений.
whuber
1
Что если данные ответов являются двоичными, и мы используем glm со ссылкой на логит? Ваше объяснение, безусловно, проясняет линейный случай, и теперь, когда я думаю об этом, использование диаграмм рассеяния было бы естественным
Марсель
5
Я волновался, ты можешь спросить это :-). На самом деле, хорошее сглаживание может обеспечить отличную проницательность. Это помогает дрожать ответ, чтобы вы могли разобрать его распределение. Вот пример такого сюжета: stats.stackexchange.com/a/14501/919 . Я иллюстрирую другое решение на stats.stackexchange.com/a/138660/919 .
whuber
3
Эта одномерная регрессия до техники многовариантной регрессии называется «целенаправленным выбором переменных» в книге Хосмера и Лемешоу «Прикладная логистическая регрессия»
Great38
7
Остерегайтесь - переменная может не иметь отношения в одномерной регрессии, но все же быть важной в многомерном отношении.
Glen_b

Ответы:

3

Причинный контекст вашего анализа является ключевым фактором в вашем вопросе. При прогнозировании запуск однофакторных регрессий перед множественными регрессиями в духе «целенаправленного метода отбора», предложенного Хосмером и Леменшоу, преследует одну цель. В вашем случае, когда вы строите причинную модель, запуск одномерной регрессии перед запуском множественной регрессии имеет совершенно другую цель. Позвольте мне остановиться на последнем.

Вы и ваш инструктор должны иметь в виду определенный причинный график. Причинные графики имеют проверяемые значения. Ваша миссия - начать с имеющегося у вас набора данных и вернуться к причинно-следственной модели, которая могла его сгенерировать. Одномерные регрессии, которые он предложил вам запустить, скорее всего, представляют собой первый шаг в процессе тестирования последствий причинного графика, который вы имеете в виду. Предположим, что вы считаете, что ваши данные были получены с помощью причинной модели, изображенной на графике ниже. Предположим, вы заинтересованы в причинном влиянии D на E. График ниже предлагает множество проверяемых значений, таких как:

  • E являются D, вероятно, зависят
  • Е и А, вероятно, зависят
  • Е и С, вероятно, зависят
  • Е и В, вероятно, зависят
  • Е и N скорее всего независимы

введите описание изображения здесь

Я упомянул, что это только первый шаг в процессе поиска причинно-следственных связей, потому что настоящее веселье начинается, когда вы запускаете несколько регрессий, кондиционирование различных переменных и тестирование, согласуется ли результат регрессии с импликацией графа. Например, приведенный выше график показывает, что E и A должны быть независимыми, если вы зададите условие D. Другими словами, если вы регрессируете E на D и A и обнаружите, что коэффициент на A не равен нулю, вы придете к выводу, что E зависит от A, после того, как вы поставите условие на D, и, следовательно, причинный график должен быть неверным. Он даже даст вам подсказки о том, как изменить ваш причинный график, потому что результат этой регрессии предполагает, что должен быть путь между A и E, который не разделен d на D.

ColorStatistics
источник
1

Прежде чем я попытаюсь ответить, я хотел бы указать, что тип данных и их распределение могут повлиять на то, как вы оцениваете / регрессируете / классифицируете их.

Также вы можете посмотреть здесь метод, который ваш консультант может использовать.

Немного фона. Несмотря на то, что использование инструмента выбора модели возможно, вы все равно должны иметь возможность сказать, почему предиктор был использован или опущен. Эти инструменты могут быть черным ящиком. Вы должны полностью понимать свои данные и быть в состоянии указать, почему был выбран конкретный предиктор. (Особенно, я предполагаю для дипломной работы / магистерского проекта.)

Например, посмотрите на цену дома и возраст. Цены на дома обычно снижаются с возрастом. Поэтому, когда вы видите старый дом с высокой ценой в ваших данных, это будет похоже на выброс, но это не так.

Что касается (NB: мой советник сказал, что мы НЕ используем p-значения в качестве отсечки, но мы хотим рассмотреть «все».) P-значения не являются положительными и заканчивают все, но они могут быть полезны , Алгоритмы / программы отзыва ограничены и не могут просматривать всю картину.

Относительно того, почему вы можете изменять регрессию в каждом предикторе / назначении лечения.

Это может помочь в выборе предикторов для включения в базовую многомерную модель. Исходя из этой базовой модели, вы можете посмотреть, являются ли эти предикторы значимыми и должны ли они оставаться или же их следует удалить с целью получения скупой модели.

Или это может быть для вас, чтобы лучше понять данные.

Апокриф
источник
1
Мы с женой купили старый дом, но не могли позволить себе исторический дом, поэтому у вашего примера есть простой контрпример.
Ник Кокс
Правда. Я имел в виду говорить о цене домов на самом деле. Как цены на дома обычно снижаются с возрастом. Поэтому, когда вы видите старый дом с высокой ценой, он будет выглядеть как выброс, который будет удален. Я отредактирую этот пункт. Спасибо.
Апокриф
0

Я думаю, что ваш супервайзер просит вас выполнить первый анализ данных с целью определения, может ли какая-либо из переменных объяснить значительную долю отклонений в данных.

Как только вы пришли к выводу, что любая из переменных может объяснить некоторую изменчивость, вы сможете оценить, как они работают вместе, коллинеарны ли они, или коррелированы между собой и т. Д. В чисто исследовательской фазе для проведения многомерного анализа может сделать первую оценку труднее, потому что, создавая каждую переменную, вы исключаете влияние других. Может быть сложнее оценить, может ли какая-либо из переменных объяснить какую-либо вариацию.

pedrofigueira
источник
0

Это может быть подходом для понимания данных, но опыт показывает, что прогнозы будут различаться, когда вы используете все предикторы вместе и каждый из них один за другим. Это просто то, что мы понимаем предсказуемость данных и понимаем, что нужно сделать для будущих шагов.
Я видел много раз, когда со всеми переменными p-значение говорит, что некоторые переменные не являются значимыми, но только с этими незначительными переменными они были достаточно значительными. Это связано со смешанным эффектом: дело не в том, что ваш руководитель неправ, а чтобы понять данные, которые мы должны сделать.

Джабер
источник