Я рассмотрел множество наборов данных R, публикаций в DASL и других местах и не нахожу очень много хороших примеров интересных наборов данных, иллюстрирующих анализ ковариации для экспериментальных данных. В статистических учебниках есть множество «игрушечных» наборов данных с надуманными данными.
Я хотел бы иметь пример, где:
- Данные реальные, с интересной историей
- Существует по крайней мере один фактор лечения и два ковариат
- По крайней мере один ковариат зависит от одного или нескольких факторов лечения, и один не зависит от лечения.
- Экспериментальный, а не наблюдательный, желательно
Фон
Моя настоящая цель - найти хороший пример, чтобы положить в виньетку мой пакет R. Но более важной целью является то, что люди должны видеть хорошие примеры, чтобы проиллюстрировать некоторые важные проблемы в ковариационном анализе. Рассмотрим следующий сценарий (и, пожалуйста, поймите, что мои знания о сельском хозяйстве в лучшем случае поверхностны).
- Мы проводим эксперимент, в котором удобрения рандомизируются на участки и высаживается урожай. После подходящего периода выращивания мы собираем урожай и измеряем некоторые качественные характеристики - это переменная отклика. Но мы также регистрируем общее количество осадков в течение вегетационного периода и кислотность почвы во время сбора урожая - и, конечно же, какое удобрение использовалось. Таким образом, у нас есть два ковариата и лечение.
Обычный способ анализа полученных данных состоит в том, чтобы согласовать линейную модель с обработкой как фактором и аддитивными эффектами для ковариат. Затем, чтобы суммировать результаты, вычисляются «скорректированные средние» (средние значения наименьших квадратов АКА), которые являются прогнозами из модели для каждого удобрения, для среднего количества осадков и 3 средней кислотности почвы. Это ставит все в равные условия, потому что тогда, когда мы сравниваем эти результаты, мы держим уровень осадков и постоянную кислотность.
Но это, вероятно, неправильно, потому что удобрение, вероятно, влияет на кислотность почвы, а также на реакцию. Это вводит корректирующие средства в заблуждение, поскольку эффект лечения включает их влияние на кислотность. Одним из способов справиться с этим было бы исключить кислотность из модели, а затем скорректированные на количество осадков средства обеспечили бы справедливое сравнение. Но если важна кислотность, эта справедливость дорого обходится, увеличивая остаточную вариацию.
Есть способы обойти это, используя скорректированную версию кислотности в модели вместо ее исходных значений. Предстоящее обновление моего пакета R lsmeans сделает это совершенно простым. Но я хочу иметь хороший пример, чтобы проиллюстрировать это. Я буду очень благодарен и буду должным образом признателен всем, кто может указать мне несколько хороших иллюстративных наборов данных.
Ответы:
Вы можете проверить
mediation
пакет R. Он включает экспериментальные данные, такие какjobs
иframing
где переменная лечения влияет как на переменную ответа, так и на ковариаты (т. Е. Медиаторы эффекта лечения), а также на ковариаты, на которые лечение не влияло.Я заглянул в литературу по медиации, потому что, хотя вы точно описали исследование медиации: влияние удобрений на качество урожая опосредовано его влиянием на кислотность почвы. Даже если наборы данных в
mediation
пакете не удовлетворяют вас, вы можете найти их, если загляните в литературу по медиации.источник
framing
данные, графики взаимодействия LSmeans (на основе логистической модели), когда посредническая переменная удерживается фиксированной, резко отличаются от тех, где для нее установлены значения, предсказанные обработками и другими ковариатами, что показывает, насколько важно взять посредническую переменную. переменная во внимание.Я думал, что покажу, как получается анализ с одним из наборов данных в пакете посредничества . В
framing
этом эксперименте проводится, когда субъекты имеют возможность отправить сообщение в Конгресс по поводу иммиграции. Однако некоторым субъектам (treat=1
) впервые показали новость, в которой латиноамериканцы изображены негативно. Помимо бинарного ответа (независимо от того, отправляли ли они сообщение), мы также измерялиemp
эмоциональное состояние испытуемых после применения лечения. Существуют также различные демографические переменные.Во-первых, давайте загрузим необходимые пакеты в R и изменим метки для
educ
более коротких строк.Теперь подойдет модель логистической регрессии
Вот отображение обычных средств, скорректированной , где предсказания сделаны с ковариатами
age
,income
иemo
установленных на их средних значений:Это любопытный результат, потому что показанные эффекты лечения противоположны для женщин и для мужчин, и эффект образования не монотонен, как можно было бы ожидать.
Обратите внимание, однако,
emo
это измерение после лечения. Это означает, что лечение могло повлиять на него, тоemo
есть является посредническим ковариатом; и поэтому может не иметь смысла сравнивать прогнозы переменной отклика, оставаясьemo
неизменным. Вместо этого давайте посмотрим на прогнозы, гдеemo
установлены его прогнозируемые значенияtreat
и демографические переменные.Этот результат совершенно другой, предполагая, что
emo
играет сильную посредническую роль. (У посреднического пакета есть функции для оценки силы этих эффектов.) Приведенные выше прогнозы предполагают, что, принимая во внимание эмоциональный отклик, мужчины, подверженные негативным новостям, с большей вероятностью отправят сообщение, чем женщины или те, кто не видит негативная новость. Кроме того, эффектeduc
является (почти) монотонным.Еще раз спасибо @MasatoNakagawa за указание на этот интересный пример и настройку на недавнее исследование причинности.
источник
Посмотрите исследования взаимодействия GWAS между генами и средой. Статистический анализ, который они выполняют по сути, это то, что вы описали. Вопрос в том, имеет ли ваша среда значение для фенотипа (наблюдаемая особенность)? Одна школа мысли обычно игнорирует всю информацию об окружающей среде и говорит, что ваша генетическая структура описывает ваш фенотип. Это находится в полном контрасте с экологическими исследованиями, где история - окружающая среда, это все, и они игнорируют гены. Поскольку обе стороны пытаются понять одну и ту же проблему, в последнее время предпринимались попытки объединить их.
Скажем, мы изучаем ИМТ. В качестве фиксированных эффектов, обусловленных генами, мы берем первые несколько основных компонентов генетической матрицы. Мы фиксируем образование с индексом 1 для хорошо образованных и 0 для плохо образованных как фиксированный эффект. Существует достаточно сильная корреляция между индексом образования и уровнем благосостояния общества, из которого он состоит. Таким образом, можно утверждать, что у сообществ с низким доходом, скорее всего, будет больше ресторанов быстрого питания. Фаст-фуд действует как ожирение. «Запускает что-то в вашей генетической структуре, которая способствует накоплению жира», так что он будет отображаться в генетической структуре в той или иной форме.
Моделирование таких данных не является проблемой. Погляди
http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml
Это позволяет вам моделировать данные GWAS (представленные как генетические единицы), ответственные за симптом. Если не указано иное, он сгенерирует 1000 с симптомом и 1000 контролей. Нормой в этих симуляциях, которую я использую, является 9990 SNP, которые не вызывают симптом, и 10 SNP. Прочитайте инструкции о том, как они моделируются.
Выход будет 1, если человек страдает ожирением и 0, если он не. Смоделируйте факторы образования (законченное образование в колледже / незаконченное образование в колледже), основываясь на некоторой разумной взаимосвязи с уровнями ожирения.
Надеюсь это поможет!!!
источник
Я бы порекомендовал прочитать Freakonomics, найти документы, на которых основана их работа, и посмотреть, сможете ли вы получить эти данные. У них есть действительно интересная работа над действительно интересными наборами данных, и в некоторых случаях они находят очень умные способы проверки гипотез, несмотря на ограничения в данных.
источник