Вот статья, которая мотивировала этот вопрос: неужели нетерпение делает нас толстыми?
Мне понравилась эта статья, и она хорошо демонстрирует концепцию «контроля за другими переменными» (IQ, карьера, доход, возраст и т. Д.), Чтобы наилучшим образом выделить истинные отношения только между двумя рассматриваемыми переменными.
Можете ли вы объяснить мне, как вы фактически контролируете переменные в типичном наборе данных?
Например, если у вас есть 2 человека с одинаковым уровнем нетерпимости и ИМТ, но разными доходами, как вы относитесь к этим данным? Вы относите их к разным подгруппам с одинаковым доходом, терпением и ИМТ? Но, в конце концов, есть десятки переменных, которые нужно контролировать (IQ, карьера, доход, возраст и т. Д.). Как вы затем объединяете эти (потенциально) сотни подгрупп? На самом деле, я чувствую, что этот подход лает не на то дерево, теперь, когда я его озвучил.
Спасибо за то, что пролили свет на то, что я собирался докопаться до нескольких лет ...!
Ответы:
Есть много способов контролировать переменные.
Самый простой способ, который вы придумали, состоит в том, чтобы разделить ваши данные, чтобы у вас были подгруппы с похожими характеристиками - тогда есть методы объединения этих результатов, чтобы получить один «ответ». Это работает, если у вас есть очень небольшое количество переменных, которыми вы хотите управлять, но, как вы правильно поняли, это быстро разваливается, когда вы разбиваете свои данные на все более мелкие куски.
Более распространенный подход - включить переменные, которыми вы хотите управлять, в регрессионную модель. Например, если у вас есть модель регрессии, которая может быть концептуально описана как:
Оценка, которую вы получите для Нетерпения, будет эффектом Нетерпения на уровнях других ковариат - регрессия позволяет вам существенно сгладить места, где у вас мало данных (проблема с подходом стратификации), хотя это должно быть сделано с осторожностью.
Есть еще более изощренные способы контроля других переменных, но, скорее всего, когда кто-то говорит «контролируется другими переменными», это означает, что он включен в регрессионную модель.
Хорошо, вы попросили пример, над которым вы можете поработать, чтобы увидеть, как это происходит. Я проведу вас через это шаг за шагом. Все, что вам нужно, это копия R установлена.
Во-первых, нам нужны некоторые данные. Вырежьте и вставьте следующие фрагменты кода в R. Имейте в виду, что это надуманный пример, который я сделал на месте, но он показывает процесс.
Это твои данные. Обратите внимание, что мы уже знаем взаимосвязь между результатом, экспозицией и ковариатой - такова точка многих имитационных исследований (примером которых является чрезвычайно простой. Вы начинаете со структуры, которую знаете, и убедитесь, что ваш метод может получить правильный ответ.
Теперь, затем, на регрессионную модель. Введите следующее:
Вы получили Intercept = 2.0 и выдержку = 0.6766? Или что-то близкое к этому, учитывая, что в данных будут случайные изменения? Хорошо - этот ответ неверен. Мы знаем, что это неправильно. Почему это не так? Мы не смогли контролировать переменную, которая влияет на результат и воздействие. Это бинарная переменная, делайте все, что угодно - пол, курильщик / некурящий и т. Д.
Теперь запустите эту модель:
На этот раз вы должны получить коэффициенты Intercept = 2,00, экспозиции = 0,50 и ковариату 0,25. Это, как мы знаем, правильный ответ. Вы контролировали другие переменные.
Теперь, что происходит, когда мы не знаем, позаботились ли мы обо всех переменных, которые нам нужны (мы никогда этого не делаем)? Это называется остаточным смущением , и в большинстве наблюдательных исследований его беспокоит то, что мы плохо контролировали, и наш ответ, хотя и близкий к правильному, не точен. Это помогает больше?
источник
Введение
Мне нравится ответ @ EpiGrad (+1), но позвольте мне взглянуть иначе. Далее я имею в виду этот документ PDF: «Анализ множественной регрессии: оценка» , в котором есть раздел «Интерпретация множественной регрессии с« частичной регрессией »» (стр. 83f.). К сожалению, я не знаю, кто является автором этой главы, и я буду называть ее REGCHAPTER. Аналогичное объяснение можно найти в Kohler / Kreuter (2009) «Анализ данных с использованием Stata» , глава 8.2.3 «Что означает« под контролем »?».
Я буду использовать пример @ EpiGrad, чтобы объяснить этот подход. Код R и результаты можно найти в Приложении.
Также следует отметить, что «контроль других переменных» имеет смысл, только когда объясняющие переменные умеренно коррелированы (коллинеарность). В вышеупомянутом примере соотношение Продукт-Момент между
exposure
иcovariate
составляет 0,50, т.е.Остаточные
Я предполагаю, что у вас есть базовое понимание концепции остатков в регрессионном анализе. Вот объяснение из Википедии : «Если кто-то запускает регрессию по некоторым данным, то отклонения наблюдений зависимой переменной от подобранной функции являются остатками».
Что значит «под контролем»?
Управление переменного
covariate
, эффект (регрессия веса)exposure
наoutcome
может быть описана следующим образом (я неаккуратно и пропустить большинство индексов и все шляпы, пожалуйста , обратитесь к указанному выше тексту для точного описания):exposure
наcovariate
, т.е.«Остатки [..] являются частью которая не связана с . [...] Таким образом, измеряет пример отношения между и после того, как был частично "(REGCHAPTER 84). «Частично из» означает «контролируемый для».xi1 xi2 β^1 y x1 x2
Я продемонстрирую эту идею на примере данных @ EpiGrad. Во-первых, я буду регресс
exposure
наcovariate
. Поскольку меня интересуют только остаткиlmEC.resid
, я опускаю вывод.Следующим шагом является регрессия
outcome
на эти остатки (lmEC.resid
):Как вы можете видеть, вес регрессииβlmEC.resid=0.50 0.50
lmEC.resid
(см. Столбец Estimate, ) в этой простой регрессии равен весу множественной регрессии , который также равен (см. Ответ @ EpiGrad или вывод R ниже).covariate
аппендикс
Код R
R выход
источник
Конечно, будет задействована некоторая математика, но это не так уж много: Евклид хорошо бы это понял. Все, что вам действительно нужно знать, это как добавлять и масштабировать векторы. Хотя в наши дни это называется «линейная алгебра», вам нужно только визуализировать ее в двух измерениях. Это позволяет нам избежать матричного механизма линейной алгебры и сосредоточиться на понятиях.
Геометрическая история
На первом рисунке - это сумма и . (Вектор масштабированный с помощью числового коэффициента ; греческие буквы (альфа), (бета) и (гамма) будут ссылаться на такие числовые коэффициенты масштабирования.)y y⋅1 αx1 x1 α α β γ
Эта цифра фактически началась с исходных векторов (показаны сплошными линиями) и . «Совпадение» наименьших квадратов от до определяется путем взятия кратного которое находится ближе всего к в плоскости фигуры. Вот как была найдена. Отбирая это совпадение от осталось , остаток от относительно . (Точка « » будет последовательно указывать, какие векторы были «сопоставлены», «удалены» или «контролируются».)x1 y y x1 x1 y α y y⋅1 y x1 ⋅
Мы можем сопоставить другие векторы с . Вот рисунок, где сопоставлен с , выражая его как кратное от плюс его остаточный :x1 x2 x1 β x1 x2⋅1
(Неважно, что плоскость, содержащая и может отличаться от плоскости, содержащей и : эти две фигуры получены независимо друг от друга. Все, что они гарантированно имеют общее, - это вектор .) Аналогично, любое число векторов можно сопоставить с .x1 x2 x1 y x1 x3,x4,… x1
Теперь рассмотрим плоскость, содержащую два остатка и . Я сориентирую изображение так, чтобы горизонтальным, так же, как я ориентировал предыдущие изображения, чтобы сделать горизонтальным, потому что на этот раз будет играть роль сопоставителя:y⋅1 x2⋅1 x2⋅1 x1 x2⋅1
Обратите внимание, что в каждом из трех случаев остаток перпендикулярен совпадению. (Если бы это было не так, мы могли бы откорректировать совпадение, чтобы оно стало еще ближе к , или .)y x2 y⋅1
Основная идея состоит в том, что к тому времени, когда мы доберемся до последнего рисунка, оба задействованных вектора ( и ) уже перпендикулярны по построению. Таким образом, любая последующая корректировка включает в себя изменения, которые все перпендикулярны . В результате новое совпадение и новый остаток остаются перпендикулярными к .x2⋅1 y⋅1 x1 y⋅1 x1 γx2⋅1 y⋅12 x1
(Если задействованы другие векторы, мы поступим таким же образом, чтобы сопоставить их невязки с .)x3⋅1,x4⋅1,… x2
Есть еще один важный момент. Эта конструкция создала остаток перпендикулярный как и . Это означает , что является также остаточным в пространстве (трехмерное евклидово области действия ) , натянутое на и . То есть этот двухэтапный процесс сопоставления и получения остатков должен был найти местоположение в плоскости которое является наиболее близким к . Поскольку в этом геометрическом описании не имеет значения, какой из и был первым, мы заключаем, чтоy⋅12 x1 x2 y⋅12 x1,x2, y x1,x2 y x1 x2 если бы процесс был выполнен в другом порядке, начиная с в качестве сопоставителя и затем используя , результат был бы таким же.x2 x1
(Если есть дополнительные векторы, мы будем продолжать этот процесс «извлекать сопоставление» до тех пор, пока каждый из этих векторов не станет по очереди сопоставителем. В каждом случае операции будут такими же, как показано здесь, и всегда будут происходить в самолет .)
Приложение к множественной регрессии
Этот геометрический процесс имеет прямую интерпретацию множественной регрессии, потому что столбцы чисел действуют точно так же, как геометрические векторы. Они обладают всеми необходимыми нам свойствами в отношении векторов (аксиоматически), и поэтому их можно продумывать и манипулировать одинаково с идеальной математической точностью и строгостью. В заходящего с переменными множественной регрессии , , и , цель состоит в том, чтобы найти комбинацию и ( и т.д. ) , что ближе всего к . Геометрически, все такие комбинации и (и т. Д.X1 X2,… Y X1 X2 Y X1 X2 ) соответствуют точкам в пространстве . Подгонка коэффициентов множественной регрессии - не что иное, как проецирование («сопоставление») векторов. Геометрический аргумент показал, чтоX1,X2,…
Сопоставление может быть сделано последовательно и
Порядок, в котором выполняется сопоставление, не имеет значения.
Процесс «удаления» сопоставителя путем замены всех других векторов их остатками часто называют «управляющим» для сопоставителя. Как мы видели на рисунках, после того, как сопоставление было проверено, все последующие вычисления вносят корректировки, которые перпендикулярны этому сопоставителю. Если хотите, вы можете думать о «контроле» как о «учете (в смысле наименьших квадратов) вклада / влияния / эффекта / ассоциации сопоставителя по всем другим переменным».
Рекомендации
Вы можете увидеть все это в действии с данными и рабочим кодом в ответе на https://stats.stackexchange.com/a/46508 . Этот ответ может больше понравиться людям, которые предпочитают арифметику, а не изображения на самолете. (Тем не менее, арифметика по корректировке коэффициентов при последовательном вводе сопоставителей проста.) Язык сопоставления взят от Фреда Мостеллера и Джона Тьюки.
источник
До сих пор ведутся прекрасные дискуссии о ковариантной корректировке как способе «контроля других переменных». Но я думаю, что это только часть истории. На самом деле, существует множество (других) стратегий, основанных на разработке, модели и машинном обучении, для устранения влияния ряда возможных смешанных переменных. Это краткий обзор некоторых наиболее важных (не относящихся к теме) тем. Хотя корректировка является наиболее широко используемым средством «контроля» за другими переменными, я думаю, что хороший статистик должен понимать, что он делает (и не делает) в контексте других процессов и процедур.
Совпадение:
Сопоставление - это метод проектирования парного анализа, в котором наблюдения группируются в наборы по 2, которые в остальном схожи по своим наиболее важным аспектам. Например, вы можете выбрать двух человек, которые согласны в своем образовании, доходе, профессиональном пребывании, возрасте, семейном положении (и т. Д. И т. Д.), Но не согласны с точки зрения их нетерпения. Для бинарных экспозиций достаточно простого парного t-теста, чтобы проверить среднюю разницу в их ИМТ, контролируя все соответствующие функции. Если вы моделируете непрерывную экспозицию, аналогичным показателем будет модель регрессии через источник различий. Смотри Карлин 2005
утяжеление
Взвешивание - это еще один одномерный анализ, который моделирует связь между непрерывным или двоичным предиктором и результатом так, чтобы распределение уровней воздействия было однородным между группами. Эти результаты обычно сообщаются как стандартизированные, такие как стандартизированная по возрасту смертность для двух стран или нескольких больниц. Косвенная стандартизация вычисляет ожидаемое распределение результатов по показателям, полученным в «контрольной» или «здоровой» популяции, которые прогнозируются по распределению страт в референтной популяции. Прямая стандартизация идет другим путем. Эти методы обычно используются для двоичного результата. Взвешивание баллов склонностиX Y учет вероятности бинарного воздействия и контроль этих переменных в этом отношении. Это похоже на прямую стандартизацию для воздействия. См. Ротман, Современная Эпидемиология, 3-е издание.
Рандомизация и квазирандомизация
Это тонкий момент, но если вы действительно можете рандомизировать людей до определенного экспериментального условия, то влияние других переменных смягчается. Это замечательно более сильное условие, потому что вам даже не нужно знать, каковы эти другие переменные. В этом смысле вы «контролировали» их влияние. Это невозможно в наблюдательных исследованиях, но оказывается, что методы оценки предрасположенности создают простую вероятностную меру воздействия, которая позволяет взвешивать, корректировать или сопоставлять участников, чтобы их можно было анализировать так же, как квази-рандомизированное исследование , См. Розенбаум, Рубин 1983 .
Микросимуляционный
Другим способом моделирования данных, которые могли быть получены в результате рандомизированного исследования, является проведение микросимуляции. Здесь можно фактически обратить их внимание на более крупные и более сложные модели машинного обучения. Термин, который Иудея Перл изобрел, который мне нравится, это « Модели Oracle »: сложные сети, способные генерировать прогнозы и прогнозы для ряда особенностей и результатов. Оказывается, можно «свернуть» информацию о такой модели оракула, чтобы имитировать результаты в сбалансированной когорте людей, представляющих рандомизированную когорту, сбалансированных по распределению «контрольной переменной», и используя простые процедуры t-теста для оценки Величина и точность возможных различий. См. Раттер, Заславский и Фейер 2012
Сопоставление, взвешивание и ковариатная корректировка в регрессионной модели все оценивают одни и те же ассоциации, и, таким образом, можно утверждать, что все они являются способами «контроля» за другими переменными .
источник
Программное обеспечение не контролирует буквально переменные. Если вы знакомы с матричным обозначением регрессии , то, возможно, помните, что решение для наименьших квадратов - это . Таким образом, программное обеспечение оценивает это выражение численно с использованием методов вычислительной линейной алгебры.Y=Xβ+ε b=(XTX)−1XTY
источник