Необходим хороший пример данных с ковариатами, на которые влияют обработки

19

Я рассмотрел множество наборов данных R, публикаций в DASL и других местах и ​​не нахожу очень много хороших примеров интересных наборов данных, иллюстрирующих анализ ковариации для экспериментальных данных. В статистических учебниках есть множество «игрушечных» наборов данных с надуманными данными.

Я хотел бы иметь пример, где:

  • Данные реальные, с интересной историей
  • Существует по крайней мере один фактор лечения и два ковариат
  • По крайней мере один ковариат зависит от одного или нескольких факторов лечения, и один не зависит от лечения.
  • Экспериментальный, а не наблюдательный, желательно

Фон

Моя настоящая цель - найти хороший пример, чтобы положить в виньетку мой пакет R. Но более важной целью является то, что люди должны видеть хорошие примеры, чтобы проиллюстрировать некоторые важные проблемы в ковариационном анализе. Рассмотрим следующий сценарий (и, пожалуйста, поймите, что мои знания о сельском хозяйстве в лучшем случае поверхностны).

  • Мы проводим эксперимент, в котором удобрения рандомизируются на участки и высаживается урожай. После подходящего периода выращивания мы собираем урожай и измеряем некоторые качественные характеристики - это переменная отклика. Но мы также регистрируем общее количество осадков в течение вегетационного периода и кислотность почвы во время сбора урожая - и, конечно же, какое удобрение использовалось. Таким образом, у нас есть два ковариата и лечение.

Обычный способ анализа полученных данных состоит в том, чтобы согласовать линейную модель с обработкой как фактором и аддитивными эффектами для ковариат. Затем, чтобы суммировать результаты, вычисляются «скорректированные средние» (средние значения наименьших квадратов АКА), которые являются прогнозами из модели для каждого удобрения, для среднего количества осадков и 3 средней кислотности почвы. Это ставит все в равные условия, потому что тогда, когда мы сравниваем эти результаты, мы держим уровень осадков и постоянную кислотность.

Но это, вероятно, неправильно, потому что удобрение, вероятно, влияет на кислотность почвы, а также на реакцию. Это вводит корректирующие средства в заблуждение, поскольку эффект лечения включает их влияние на кислотность. Одним из способов справиться с этим было бы исключить кислотность из модели, а затем скорректированные на количество осадков средства обеспечили бы справедливое сравнение. Но если важна кислотность, эта справедливость дорого обходится, увеличивая остаточную вариацию.

Есть способы обойти это, используя скорректированную версию кислотности в модели вместо ее исходных значений. Предстоящее обновление моего пакета R lsmeans сделает это совершенно простым. Но я хочу иметь хороший пример, чтобы проиллюстрировать это. Я буду очень благодарен и буду должным образом признателен всем, кто может указать мне несколько хороших иллюстративных наборов данных.

RVL
источник
1
Хотя это, несомненно , как важный и интересный вопрос, кажется , как будто он может упасть фол правил о том , что на тему : « Вопросы о получении конкретных наборов данных вне темы (они слишком специализированы). »
Glen_b -Reinstate Моника
1
У меня сложилось впечатление, что ответы пока таковы, что мы осторожны, чтобы дать другим вопросам, таким как этот, незаполненный чек, твердо решив в его пользу, но мы в основном поддерживаем этот конкретный вопрос и даже немного стремимся увидеть, что виды ответов, которые вы можете получить (может быть, это только я). То , что мы не хотели бы плохо написаны подделки этого вопроса просящего для наборов данных , с помощью которых доказать точки с статистикой , но не о статистике. То есть одно дело - попросить помощи в демонстрации статистического принципа, но другое - попросить доменные наборы данных ...
Ник Стаунер,
3
ОК, звучит как хорошая идея. В прошлом я делал гораздо худшие вещи, чтобы понизить свою репутацию ...
rvl
2
@ SteveS Я согласен, что это хороший кандидат на награду; на самом деле я просто пришел сюда, чтобы надеть его сам , только чтобы обнаружить, что Расс уже сделал это. Если за неделю нет хороших ответов, я мог бы рассмотреть вопрос о назначении второй награды. Расс: щедрость по интересным вопросам, как правило, привлекает достаточно внимания, так что последующие отрицательные голоса часто почти все равно за них платят, поэтому потеря репутации зачастую намного менее крута, чем кажется на первый взгляд.
Glen_b

Ответы:

6

Вы можете проверить mediationпакет R. Он включает экспериментальные данные, такие как jobsи framingгде переменная лечения влияет как на переменную ответа, так и на ковариаты (т. Е. Медиаторы эффекта лечения), а также на ковариаты, на которые лечение не влияло.

Я заглянул в литературу по медиации, потому что, хотя вы точно описали исследование медиации: влияние удобрений на качество урожая опосредовано его влиянием на кислотность почвы. Даже если наборы данных в mediationпакете не удовлетворяют вас, вы можете найти их, если загляните в литературу по медиации.

Масато Наказава
источник
Благодарю. Я установил пакет и посмотрю на него. И возможность узнать что-то новое.
rvl
Интересно, что данные о
вакансиях
1
Ну, я хотел бы как-нибудь разделить награду. Но у этого пакета есть готовые наборы данных, которые очень подходят для того, что я спросил, поэтому @MasatoNakazawa получает награду. Спасибо. Используя framingданные, графики взаимодействия LSmeans (на основе логистической модели), когда посредническая переменная удерживается фиксированной, резко отличаются от тех, где для нее установлены значения, предсказанные обработками и другими ковариатами, что показывает, насколько важно взять посредническую переменную. переменная во внимание.
rvl
1
Спасибо доктор Лент. На самом деле я процитировал ваши статьи в моей диссертации. Для меня большая честь, что я смог помочь авторитетному статистику, подобному вам.
Масато Накадзава
4

Я думал, что покажу, как получается анализ с одним из наборов данных в пакете посредничества . В framingэтом эксперименте проводится, когда субъекты имеют возможность отправить сообщение в Конгресс по поводу иммиграции. Однако некоторым субъектам ( treat=1) впервые показали новость, в которой латиноамериканцы изображены негативно. Помимо бинарного ответа (независимо от того, отправляли ли они сообщение), мы также измеряли empэмоциональное состояние испытуемых после применения лечения. Существуют также различные демографические переменные.

Во-первых, давайте загрузим необходимые пакеты в R и изменим метки для educболее коротких строк.

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

Теперь подойдет модель логистической регрессии

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

Вот отображение обычных средств, скорректированной , где предсказания сделаны с ковариатами age, incomeи emoустановленных на их средних значений:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(Участок взаимодействия обычных «скорректированных средств», преобразованный в шкалу ответов)

Это любопытный результат, потому что показанные эффекты лечения противоположны для женщин и для мужчин, и эффект образования не монотонен, как можно было бы ожидать.

Обратите внимание, однако, emoэто измерение после лечения. Это означает, что лечение могло повлиять на него, то emoесть является посредническим ковариатом; и поэтому может не иметь смысла сравнивать прогнозы переменной отклика, оставаясь emoнеизменным. Вместо этого давайте посмотрим на прогнозы, где emoустановлены его прогнозируемые значения treatи демографические переменные.

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(Взаимодействие сюжета предсказаний с учетом опосредующих эффектов)

Этот результат совершенно другой, предполагая, что emoиграет сильную посредническую роль. (У посреднического пакета есть функции для оценки силы этих эффектов.) Приведенные выше прогнозы предполагают, что, принимая во внимание эмоциональный отклик, мужчины, подверженные негативным новостям, с большей вероятностью отправят сообщение, чем женщины или те, кто не видит негативная новость. Кроме того, эффект educявляется (почти) монотонным.

Еще раз спасибо @MasatoNakagawa за указание на этот интересный пример и настройку на недавнее исследование причинности.

RVL
источник
3

Посмотрите исследования взаимодействия GWAS между генами и средой. Статистический анализ, который они выполняют по сути, это то, что вы описали. Вопрос в том, имеет ли ваша среда значение для фенотипа (наблюдаемая особенность)? Одна школа мысли обычно игнорирует всю информацию об окружающей среде и говорит, что ваша генетическая структура описывает ваш фенотип. Это находится в полном контрасте с экологическими исследованиями, где история - окружающая среда, это все, и они игнорируют гены. Поскольку обе стороны пытаются понять одну и ту же проблему, в последнее время предпринимались попытки объединить их.

Скажем, мы изучаем ИМТ. В качестве фиксированных эффектов, обусловленных генами, мы берем первые несколько основных компонентов генетической матрицы. Мы фиксируем образование с индексом 1 для хорошо образованных и 0 для плохо образованных как фиксированный эффект. Существует достаточно сильная корреляция между индексом образования и уровнем благосостояния общества, из которого он состоит. Таким образом, можно утверждать, что у сообществ с низким доходом, скорее всего, будет больше ресторанов быстрого питания. Фаст-фуд действует как ожирение. «Запускает что-то в вашей генетической структуре, которая способствует накоплению жира», так что он будет отображаться в генетической структуре в той или иной форме.

Моделирование таких данных не является проблемой. Погляди

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

Это позволяет вам моделировать данные GWAS (представленные как генетические единицы), ответственные за симптом. Если не указано иное, он сгенерирует 1000 с симптомом и 1000 контролей. Нормой в этих симуляциях, которую я использую, является 9990 SNP, которые не вызывают симптом, и 10 SNP. Прочитайте инструкции о том, как они моделируются.

Выход будет 1, если человек страдает ожирением и 0, если он не. Смоделируйте факторы образования (законченное образование в колледже / незаконченное образование в колледже), основываясь на некоторой разумной взаимосвязи с уровнями ожирения.

Надеюсь это поможет!!!

Sid
источник
Благодарю. Тем не менее, все еще требую реальных данных ... Плюс я не уверен, что такое исследование GWAS. Дух, только что узнал, перейдя по ссылке.
rvl
Несмотря на то, что я передал вознаграждение другому респонденту, я ценю это предложение и намерен выполнить его. Благодарю.
rvl
1

Я бы порекомендовал прочитать Freakonomics, найти документы, на которых основана их работа, и посмотреть, сможете ли вы получить эти данные. У них есть действительно интересная работа над действительно интересными наборами данных, и в некоторых случаях они находят очень умные способы проверки гипотез, несмотря на ограничения в данных.

Нир Фридман
источник