Фон
Я занимаюсь клиническими исследованиями в области медицины и прошел несколько курсов по статистике. Я никогда не публиковал статью с использованием линейной / логистической регрессии и хотел бы правильно выбирать переменные. Интерпретируемость важна, поэтому нет причудливых методов машинного обучения. Я суммировал мое понимание выбора переменных - кто-то возражал бы пролить свет на какие-то заблуждения? Я нашел два (1) похожих (2) поста с CV на этот, но они не совсем отвечали на мои вопросы. Любые мысли будут высоко ценится! У меня есть 3 основных вопроса в конце.
Проблема и обсуждение
Моя типичная проблема регрессии / классификации имеет 200-300 наблюдений, частоту нежелательных событий 15% (если классификация) и информацию о 25 из 40 переменных, которые, как утверждается, оказывают "статистически значимый" эффект в литературе или делают правдоподобными смысл знания предметной области.
Я поместил «статистически значимый» в кавычки, потому что кажется, что все и их мать используют ступенчатую регрессию, но Harrell (3) и Flom (4), похоже, не нравятся по ряду веских причин. Это также подтверждается обсуждением в блоге Гельмана (5). Кажется, что единственное реальное время, которое является поэтапным, приемлемо, если это действительно исследовательский анализ или кто-то заинтересован в прогнозировании и использует схему перекрестной проверки. Тем более, что многие медицинские сопутствующие заболевания страдают от коллинеарности, а исследования страдают от небольшого размера выборки, я понимаю, что в литературе будет много ложных срабатываний; это также снижает вероятность того, что я буду доверять литературе в отношении потенциальных переменных для включения.
Другим популярным подходом является использование ряда одномерных регрессий / ассоциаций между предикторами и независимой переменной в качестве отправной точки. ниже определенного порога (скажем, р <0,2). Это кажется неправильным или, по крайней мере, вводящим в заблуждение по причинам, изложенным в этом сообщении StackExchange (6).
Наконец, автоматизированный подход, который кажется популярным в машинном обучении, заключается в использовании штрафов, таких как L1 (Лассо), L2 (Ридж) или L1 + L2 комбо (Elastic Net). Насколько я понимаю, они не имеют такой простой интерпретации, как OLS или логистическая регрессия.
Гельман + Хилл предлагает следующее:
В моем курсе статистики я также вспоминаю использование F-тестов или Analysis of Deviance для сравнения полных и вложенных моделей для выбора переменной модели / переменной по переменной. Это кажется разумным, но систематическая подгонка последовательных вложенных моделей для поиска переменных, вызывающих наибольшее падение отклонения на единицу измерения, кажется, что это может быть легко автоматизировано (поэтому я немного обеспокоен), а также, похоже, что она страдает от проблем порядка, в котором Вы проверяете включение переменной. Насколько я понимаю, это должно быть дополнено исследованием мультиколлинеарности и остаточных графиков (остаточные и прогнозируемые).
Вопросов:
Сводка Гельмана - путь? Что бы вы добавили или изменили в предложенной им стратегии?
Кроме того, чтобы думать о потенциальных взаимодействиях и трансформациях (которые кажутся предвзятыми / подверженными ошибкам / упущениям), есть ли другой способ обнаружить потенциальные? Мне был рекомендован многомерный адаптивный сплайн регрессии (MARS) , но мне сообщили, что нелинейности / преобразования не переводятся в одни и те же переменные в стандартной регрессионной модели.
Предположим, что моя цель очень проста: скажем: «Я хотел бы оценить связь X1 с Y, учитывая только X2». Достаточно ли просто регрессировать Y ~ X1 + X2, сообщить результат, без ссылки на фактическую прогностическую способность (как может быть измерено с помощью RMSE перекрестной проверки или мер точности)? Изменится ли это в зависимости от частоты событий или размера выборки или если R ^ 2 очень низок (я знаю, что R ^ 2 не годится, потому что вы всегда можете увеличить его путем переоснащения)? Как правило, меня больше интересует вывод / интерпретация, чем оптимизация предсказательной силы.
Пример заключения:
- «Контролируя X2, X1 не был статистически значимо связан с Y относительно контрольного уровня X1». (коэффициент логистической регрессии)
- «X1 не был статистически значимым предиктором Y, так как в модели падение отклонения было недостаточно относительно изменения df». (Анализ отклонений)
Всегда ли необходима перекрестная проверка? В этом случае можно также выполнить балансировку классов с помощью SMOTE, выборки и т. Д.
источник
Ответы:
Эндрю Гельман - определенно уважаемое имя в мире статистики. Его принципы тесно связаны с некоторыми исследованиями причинно-следственной модели, которые были сделаны другими "громкими именами" в этой области. Но я думаю, что учитывая ваш интерес к клиническим исследованиям, вам следует обратиться к другим источникам.
Я свободно использую слово «причинно-следственная» (как и другие), потому что есть тонкая грань, которую мы должны провести между выполнением «причинно-следственного вывода» из данных наблюдений и утверждением причинно-следственных связей между переменными. Мы все согласны с тем, что РКИ являются основным способом оценки причинности. Мы редко приспосабливаемся к чему-либо в таких испытаниях в соответствии с предположением о рандомизации, за небольшим исключением ( Senn, 2004 ). Наблюдательные исследования имеют свою важность и полезность ( Weiss, 1989 ), и основанный на контрафакте подход к выводу данных наблюдений принимается как философски обоснованный подход к этому ( Höfler, 2005 ). Он часто очень близко приближает эффективность использования, измеренную в РКИ ( Anglemyer, 2014 ).
Поэтому я сосредоточусь на исследованиях по данным наблюдений. Моя точка зрения в отношении рекомендаций Гельмана такова: все предикторы в модели и их предполагаемые причинно-следственные связи между единичным проявлением интереса и единичным интересующим результатом должны быть указаны априори . Добавление и исключение ковариат, основанных на их взаимосвязи между набором основных результатов, фактически вызывает особый случай «статистической сетки Мюнхгаузена» ( Martin, 1984 ). Некоторые журналы (и эта тенденция завоевывает популярность ) будут в целом отклонять любую статью, которая использует ступенчатую регрессию для определения окончательной модели ( Babyak, 2004 ), и я думаю, что проблема рассматривается здесь аналогичным образом.
Обоснование включения и исключения ковариат в модели обсуждается в статье: Причинность Иудеи Перла ( Pearl, 2002 ). Это, пожалуй, один из лучших текстов для понимания принципов статистического вывода, регрессии и многомерной корректировки. Сандерс и Гренландия также освещают практически все, в частности их дискуссию о путанице, которая, к сожалению, исключена из этого списка рекомендаций ( Гренландия и др., 1999 г.).). Определенным ковариатам могут быть назначены метки на основе графической связи с причинно-следственной моделью. Такие обозначения, как прогностические переменные или точные переменные, требуют включения в качестве ковариат в статистических моделях. Медиаторы, коллайдеры или переменные за пределами причинно-следственной связи должны быть опущены. Определения этих терминов сделаны строгими с множеством примеров в Причинности.
Учитывая эту небольшую предысторию, я расскажу о пунктах один за другим.
Как правило, это разумный подход с одним ОСНОВНЫМ предупреждением: эти переменные НЕ должны быть посредниками результата. Если, например, вы проверяете взаимосвязь между курением и физической подготовкой и настраиваетесь на функцию легких, то это ослабляет эффект курения, потому что это напрямую влияет на физическую форму - это снижение функции легких. Это должно НЕпутать с путаницей, где третья переменная является причиной предиктора интереса И результата интереса. Confounders должны быть включены в модели. Кроме того, перенастройка может вызвать множественные формы смещения в анализах. Посредники и собеседники считаются таковыми НЕ из-за того, что найдено в анализах, а из-за того, что ВЫ СЧИТАЕТЕ, что ВЫ - предмет-эксперт (МСП). Если у вас есть 20 наблюдений на переменную или меньше, или 20 наблюдений на событие в периодическом событии или логистическом анализе, вы должны вместо этого рассмотреть условные методы.
Это отличный подход к энергосбережению, который не так сложен, как корректировка показателя склонности, SEM или факторный анализ. Я определенно рекомендую делать это, когда это возможно.
Я не согласен от всего сердца. Точка корректировки других переменных в анализе заключается в создании страт, для которых возможно сравнение. Неправильная спецификация отношений с собеседником, как правило, не приводит к чрезмерному анализу, поэтому остаточное смешение с пропущенными терминами взаимодействия, по моему опыту, не является большой проблемой. Тем не менее, вы можете рассмотреть условия взаимодействия между предиктором интереса и другими переменными в качестве последующего анализа. Это процедура генерирования гипотез, которая предназначена для уточнения любых возможных результатов (или их отсутствия) как. потенциально принадлежащие к подгруппе или б. включая механистическое взаимодействие между двумя экологическими и / или генетическими факторами.
Я также не согласен с этим от всего сердца. Это не совпадает с подтверждающим анализом на основе подхода к регрессии. Вы МСП. Анализ должен быть основан ВОПРОСОМ, а не ДАННЫМИ. С уверенностью укажите, что, по вашему мнению, происходит, на основе графического описания причинно-следственной модели (используя DAG и связанные с ней принципы из Pearl et al.), Затем выберите предикторы для вашей модели интереса, соответствия и обсуждения. Только в качестве вторичного анализа вы должны рассмотреть этот подход, даже вообще.
Роль машинного обучения во всем этом весьма спорна. В целом, машинное обучение ориентировано на прогнозирование, а не на умозаключения, которые являются различными подходами к анализу данных. Вы правы в том, что интерпретация эффектов от наказанной регрессии нелегко интерпретируется для нестатистического сообщества, в отличие от оценок из OLS, где 95% ДИ и оценки коэффициентов обеспечивают меру связи.
Интерпретация коэффициента из модели OLS Y ~ X проста: это уклон, ожидаемая разница в Y при сравнении групп, отличающихся на 1 единицу в X. В многомерной скорректированной модели Y ~ X1 + X2 мы изменяем это как условное Наклон: это ожидаемая разница в Y, сравнивая группы, отличающиеся на 1 единицу в X1, которые имеют одинаковое значение X2. Геометрически, корректировка на X2 приводит к различным слоям или «поперечным сечениям» трех пространств, где мы сравниваем X1 с Y, затем мы усредняем результаты по каждой из этих страт. В R
coplot
функция очень полезна для визуализации таких отношений.источник
Этот великолепный вопрос и исчерпывающий ответ @ AdamO - яркий пример того, как CV регулярно обновляет мою веру в человечество. Здесь я буду стремиться предложить несколько способов оценить этот ответ (и вопрос ОП) в более широком контексте.
Во - первых, я осмелюсь утверждать , что все надежные рекомендации относительно статистической практики является предостережением в природе - про scriptive , а не до scriptive. Например, пункт 3 Гельмана и Хилла, хотя он поверхностно читается как совет активно что-то делать («обдумывать»), действительно лучше понимать как предостережение от отказа рассматривать взаимодействия с мощными эффектами. Интуитивно понятый как обращение к интуиции, связанной с выбором наиболее важных терминов в (многомерном) разложении в ряд Тейлора , мне кажется бесспорным.
Во-вторых, в то время как ОП занята получением лучшего образования, чем большинство докторов наук-биостатистов (следуя цитатам АдамО), ОП также может взять статистические модели Дэвида А. Фридмана и причинно-следственные связи [1], где здоровый вызов будет предположил, что регрессия должна быть нашим основным инструментом в клинических исследованиях. Я особенно рекомендую главу 3 «Статистические модели и кожаная обувь», которая также доступна в ранее опубликованной форме [2] здесь . (Не позволяйте названию журнала выключить вас; ключевые уроки извлечены из исследований Джона Сноу по холере. См. Также этот ответ , где эти уроки изложены в некоторых деталях.)
Наконец, и, возможно, это действительно является следствием для Фридмана, следует упомянуть, что пример «выводов», предложенный ФП, на самом деле относится к разделу « Результаты ». Было бы наиболее целесообразно как можно раньше рассмотреть вопрос о том, как сформулировать реальные разделы « Выводы и обсуждения» , чтобы они были доступны для врачей, средств массовой информации и даже для растущего числа пациентов и их сторонников, которые героически труд читать медицинскую литературу. Сосредоточение внимания на этой конечной точке будет полезно формировать техническую работу статистического анализа, и оно будет основываться на реальности мира, который он стремится описать, и потребностях, которые он намеревается обслуживать.
Фридман, Дэвид, Дэвид Кольер, Джасджит Сингх Сехон и Филипп Б. Старк. Статистические модели и причинно-следственные связи: диалог с общественными науками. Кембридж; Нью-Йорк: издательство Кембриджского университета, 2010.
Фридман, Дэвид А. «Статистические модели и кожаная обувь». Социологическая методология 21 (1991): 291–313. DOI: 10.2307 / 270939.
источник