Предположим, что вы - исследователь в области социальных наук / эконометрик и пытаетесь найти соответствующие предикторы спроса на услугу. У вас есть 2 итоговые / зависимые переменные, описывающие спрос (используя сервис да / нет и количество случаев). У вас есть 10 предикторов / независимых переменных, которые теоретически могут объяснить спрос (например, возраст, пол, доход, цена, раса и т. Д.). Выполнение двух отдельных множественных регрессий даст 20 оценок коэффициентов и их p-значения. С достаточным количеством независимых переменных в ваших регрессиях вы рано или поздно найдете хотя бы одну переменную со статистически значимой корреляцией между зависимыми и независимыми переменными.
Мой вопрос: это хорошая идея, чтобы исправить p-значения для нескольких тестов, если я хочу включить все независимые переменные в регрессию? Любые ссылки на предыдущую работу высоко ценится.
Ответы:
Похоже, ваш вопрос в более общем плане касается проблемы определения хороших предикторов. В этом случае вам следует рассмотреть возможность использования какой-либо наказанной регрессии (методы , относящиеся к выбору переменных или признаков , также актуальны), например, с штрафами L1, L2 (или их комбинацией, так называемой эластичной сетью ) (ищите связанные вопросы на этот сайт, или R нарушает и elasticnet пакет, среди прочих).
Теперь о корректировке p-значений для ваших коэффициентов регрессии (или, что то же самое, ваших коэффициентов частичной корреляции) для защиты от чрезмерного оптимизма (например, с помощью Bonferroni или, что лучше, методов понижения), это будет иметь значение только в том случае, если вы рассматриваете одну модель и ищите те предикторы, которые вносят значительный вклад в объясненную дисперсию, то есть, если вы не выполняете выбор модели (с пошаговым выбором или иерархическим тестированием). Эта статья может стать хорошим началом: корректировки Бонферрони в тестах для коэффициентов регрессии . Имейте в виду, что такая коррекция не защитит вас от проблемы мультиколлинеарности, которая влияет на сообщаемые значения p.
stepAIC
Следует отметить, что ступенчатые подходы также имеют свои недостатки (например, тесты Вальда не адаптированы к условной гипотезе, индуцированной пошаговой процедурой) или, как указано Фрэнком Харреллом в рассылке R , «пошаговый выбор переменных на основе AIC имеет все проблемы пошагового выбора переменных на основе значений P. AIC - это просто повторение значения P "(но AIC остается полезным, если набор предикторов уже определен); связанный вопрос - Является ли переменная значимой в модели линейной регрессии? - поднял интересные комментарии ( @Rob , среди прочих) об использовании AIC для выбора переменных. В конце я добавляю несколько ссылок (включая статьи, любезно предоставленные @Stephan); есть также много других ссылок на P.Mean .
Фрэнк Харрелл написал книгу о стратегии регрессионного моделирования, в которой много обсуждений и советов по этой проблеме (§4.3, с. 56-60). Он также разработал эффективные подпрограммы R для работы с обобщенными линейными моделями (см. Пакеты Design или rms ). Итак, я думаю, что вы обязательно должны взглянуть на это (его раздаточные материалы доступны на его домашней странице).
Рекомендации
step.adj()
в пакете R someMTP .источник
В значительной степени вы можете делать все, что вам нравится, при условии, что вы держите достаточно данных случайным образом, чтобы протестировать любую модель, которую вы придумали, на основе сохраненных данных. Разделение на 50% может быть хорошей идеей. Да, вы теряете некоторую способность обнаруживать отношения, но то, что вы получаете, огромно; а именно, возможность тиражировать вашу работу до ее публикации. Независимо от того, насколько сложны статистические методы, которые вы применяете, вы будете шокированы тем, как много «значимых» предикторов оказываются совершенно бесполезными при применении к данным подтверждения.
Помните также, что «релевантность» для предсказания означает больше, чем низкое значение p. В конце концов, это только означает, что, вероятно, отношения, обнаруженные в этом конкретном наборе данных, не являются случайными. Для прогнозирования на самом деле более важно найти переменные, которые оказывают существенное влияние на прогноз (без чрезмерного соответствия модели); то есть, чтобы найти переменные, которые, вероятно, являются «реальными» и, когда они варьируются в пределах разумного диапазона значений (а не только значений, которые могут встречаться в вашей выборке!), приводят к значительному изменению предсказания. Если у вас есть данные для подтверждения модели, вам будет удобнее временно сохранять незначительные «значимые» переменные, которые могут не иметь низких значений p.
По этим причинам (и основываясь на точном ответе chl), хотя я нашел ступенчатые модели, сравнения AIC и поправки Бонферрони весьма полезными (особенно с сотнями или тысячами возможных предикторов в игре), они не должны быть единственными определяющими, какие переменные введите вашу модель. Также не следует упускать из виду руководство, данное теорией: переменные, имеющие сильное теоретическое обоснование для того, чтобы быть в модели, обычно должны храниться, даже если они незначительны, при условии, что они не создают плохо обусловленных уравнений ( например, коллинеарность) ,
NB . После того, как вы определились с моделью и подтвердили ее полезность с помощью данных об удержании, можно объединить оставшиеся данные с данными об удержании для окончательной оценки. Таким образом, ничего не теряется с точки зрения точности, с которой вы можете оценить коэффициенты модели.
источник
Я думаю, что это очень хороший вопрос; он попадет в сердце спорных множественного тестирования «проблемы» , которая отравляет поля в диапазоне от эпидемиологии до эконометрики. В конце концов, как можно нам знать , если значение мы находим поддельный или нет? Насколько верна наша многомерная модель?
С точки зрения технических подходов для компенсации вероятности публикации шумовых переменных, я бы от всей души согласился с тем, что использование части вашего образца в качестве обучающих данных, а остальных - в качестве тестовых данных - хорошая идея. Этот подход обсуждается в технической литературе, поэтому, если вы потратите время, вы, вероятно, сможете найти некоторые хорошие рекомендации относительно того, когда и как его использовать.
Но чтобы более прямо взглянуть на философию множественного тестирования, я предлагаю вам прочитать статьи, на которые я ссылаюсь ниже, некоторые из которых подтверждают позицию, согласно которой корректировка множественного тестирования часто вредна (стоит затрат), ненужна и даже может быть логической ошибкой. , Я, например, не принимаю автоматически утверждение о том, что наша способность расследовать одного потенциального предиктора неумолимо снижается в результате расследования другого. Семьи мудры Тип 1 частота ошибок может возрастать по мере включать больше предсказателей в данной модели, но до тех пор , пока мы не выходим за пределы нашего образца размера, вероятность ошибки типа 1 для каждого человекапредиктор постоянен; и контроль за семейной ошибкой не показывает, какая конкретная переменная является шумом, а какая нет. Конечно, есть и убедительные контраргументы.
Таким образом, до тех пор, пока вы ограничиваете свой список потенциальных переменных теми, которые являются правдоподобными (т. Е. Имели бы известные пути к результату), тогда риск ложности уже достаточно хорошо обрабатывается.
Однако я хотел бы добавить, что прогнозирующая модель не столько связана с «истинностью-ценностью» своих предикторов, сколько причинная модель; в модели может быть много путаницы, но пока мы объясняем большую степень отклонения, мы не слишком обеспокоены. Это облегчает работу, по крайней мере, в одном смысле.
Ура,
Бренден, биостатистический консультант
PS: вы можете захотеть сделать регрессию Пуассона с нулевым раздуванием для данных, которые вы описываете, вместо двух отдельных регрессий.
источник
Здесь есть хорошие ответы. Позвольте мне добавить пару небольших моментов, которые я не вижу в другом месте.
Во-первых, какова природа ваших переменных ответа? Более конкретно, понимаются ли они как связанные друг с другом? Вы должны делать только две отдельные множественные регрессии, если они считаются независимыми (теоретически) / если остатки от двух моделей независимы (эмпирически). В противном случае вы должны рассмотреть многомерную регрессию. («Многомерный» означает> 1 переменную ответа; «множественный» означает> 1 переменную предиктора.)
источник
Вы можете сделать, по-видимому, не связанную регрессию и использовать F-тест. Поместите ваши данные в такую форму:
так что предикторы для вашего первого результата имеют свои значения, когда этот результат является переменной y и 0 в противном случае и наоборот. Таким образом, у вас есть список обоих результатов. P11 и P12 являются двумя предикторами для первого результата, а P21 и P22 являются двумя предикторами для второго результата. Если секс, скажем, является предиктором для обоих результатов, его использование для прогнозирования результата 1 должно быть в отдельной переменной / столбце при прогнозировании результата 2. Это позволяет вашей регрессии иметь разные наклоны / воздействия для пола для каждого результата.
В этой структуре вы можете использовать стандартные процедуры тестирования F.
источник