Моделирование продольных данных, где влияние времени варьируется в функциональной форме между людьми

32

Контекст :

Представьте, что у вас было продольное исследование, в котором измеряли зависимую переменную (DV) один раз в неделю в течение 20 недель на 200 участниках. Хотя в целом я интересуюсь, типичные DV, о которых я думаю, включают в себя выполнение работы после найма или различные меры по улучшению благосостояния после вмешательства клинической психологии.

Я знаю, что многоуровневое моделирование может использоваться для моделирования отношений между временем и DV. Вы также можете позволить коэффициентам (например, перехватам, уклонам и т. Д.) Варьироваться между людьми и оценивать конкретные значения для участников. Но что, если при визуальной проверке данных вы обнаружите, что взаимосвязь между временем и DV является одной из следующих:

  • отличается по функциональной форме (возможно, некоторые являются линейными, а другие экспоненциальными или имеют разрыв)
  • отличается по дисперсии ошибок (некоторые люди более изменчивы от одного момента времени к другому)

Вопросы :

  • Что было бы хорошим способом приблизиться к таким данным моделирования?
  • В частности, какие подходы хороши для выявления различных типов отношений и классификации людей в зависимости от их типа?
  • Какие реализации существуют в R для таких анализов?
  • Есть ли ссылки на то, как это сделать: учебник или реальное приложение?
Джером англим
источник

Ответы:

20

Я бы предложил взглянуть на следующие три направления:

  • продольная кластеризация : это не контролируется, но вы используете подход k-средних, основанный на критерии Калинского для оценки качества разбиения (пакет kml и ссылки, включенные в онлайн-справку); так что, в основном, это не поможет определить конкретную форму для отдельного временного хода, а просто выделит однородный профиль эволюции
  • какая-то скрытая кривая роста, учитывающая гетероскедастичность: я бы предпочел взглянуть на обширные ссылки на программное обеспечение MPlus , особенно на часто задаваемые вопросы и рассылку. Я также слышал о мультипликативной гетероскедастической модели со случайным эффектом (попробуйте поискать эти ключевые слова). Я нахожу эти документы ( 1 , 2 ) интересными, но я не смотрел на них в деталях. Я обновлю со ссылками на нейропсихологическую оценку однажды назад в мой офис.
  • функциональный PCA ( пакет fpca ), но, возможно, стоит взглянуть на функциональный анализ данных

Другие ссылки (только что просмотренные на лету):

хл
источник
1
Спасибо. Идея использования процедуры кластеризации пришла мне в голову. Я полагаю, что задача состоит в том, чтобы адекватно отразить и взвесить возможные особенности кривой индивидуального уровня теоретически значимым образом. Я посмотрю, как это работает в кмл.
Jeromy Anglim
1
Ну, это работает довольно хорошо, хотя интерфейс ужасен (и я знаю парня, который его строит :) - я использовал его два месяца назад для разделения клинических групп на основе индивидуальных профилей измерения развития (Brunet-Lézine).
ЧЛ
1
Вот еще одно основное упоминание FDA: psych.mcgill.ca/misc/fda
Майк Лоуренс,
1
Я нашел это вступление к ссылке FDA от Ramsay (2008), особенно доступной gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
Jeromy Anglim
8

Я бы порекомендовал взглянуть на пару работ Хэпинга Чжана, использующих адаптивные сплайны для моделирования продольных данных:

Кроме того, см. Страницу MASAL для программного обеспечения, включая пакет R.

АРС
источник
6

Это выглядит как модели роста могут иметь потенциал, чтобы вы могли исследовать вашу дисперсию ошибок. ( PDF здесь). (Я не уверен, что такое мультипликативные гетероскедастические модели, но я обязательно должен их проверить).

Модели траектории на основе латентных групп стали очень популярными в последнее время в криминологии. Но многие люди просто считают само собой разумеющимся, что группы действительно существуют, а некоторые проницательные исследования указывают, что вы найдете группы даже в случайных данных. Также следует отметить, что подход к моделированию на основе групп, используемый Нагином, не позволяет вам оценить свою ошибку (и, честно говоря, я никогда не видел модели, которая выглядела бы как разрыв).

Хотя это будет трудно с 20 временными точками, для исследовательских целей может быть полезно создание простой эвристики для идентификации закономерностей (например, всегда низкий или всегда высокий коэффициент вариации). Я представляю себе спарклайны в виде электронных таблиц или параллельных координатных графиков, но я сомневаюсь, что они были бы полезны (я, честно говоря, никогда не видел параллельного координатного графика, который бы очень полезен).

Удачи

Энди У
источник
@chl, нет проблем, спасибо за все ресурсы, которые вы перечислили здесь.
Энди W
Хороший вопрос о скрытых группах. Я видел несколько приложений латентного анализа классов и кластерного анализа, где кажется, что это просто разделение непрерывных переменных на категории типа low и high ( jeromyanglim.blogspot.com/2009/09/… ). Тем не менее, у меня есть некоторые продольные данные индивидуального уровня, которые визуально выглядят так, как будто они поступают из совершенно разных процессов генерации данных (например, всегда высокий, всегда низкий, постепенный рост, низкий, а затем резкий рост и т. Д.) И внутри категорий есть более непрерывное изменение параметров.
Джером Энглим
@ Джероми, я не думаю, что работа, которую я цитировал, отговаривала бы людей от использования таких методов для выявления скрытых групп. Я бы сказал, что смысл этой работы в том, что вы не можете использовать такие методы, чтобы сделать вывод о существовании групп, потому что вы всегда найдете группы, даже в случайных данных. Это зависит от более субъективной интерпретации, являются ли эти группы реальными или просто артефактами метода. Вы можете определить некоторые логические теории, которые генерируют такие процессы, а затем посмотреть, соответствуют ли идентифицированные группы этим теориям.
Энди W
5

Через четыре года после того, как я задал этот вопрос, я узнал несколько вещей, поэтому, возможно, мне стоит добавить несколько идей.

Я думаю, что байесовское иерархическое моделирование обеспечивает гибкий подход к этой проблеме.

Software: Tools like jags, stan, WinBugs, and so on potentially combined with their respective R interface packages (e.g., rjags, rstan) make it easier to specify such models.

Varying within person error: Bayesian models make it easy to specify the within person error variance as a random factor that varies between people.

For example, you could model scores y on participants i=1,...,n at time points j=1,...J as

yijN(μi,σi2)
μi=γ
γN(μγ,σγ2)
σiGamma(α,β)

Thus the standard deviation of each person might be modelled as a gamma distribution. I have found this to be an important parameter in many psychological domains where people vary in how much they vary over time.

Latent classes of curves: I have not explored this idea as much yet, but it is relatively straight forward to specify two or more possible data generating functions for each individual and then let the Bayesian model choose the most likely model for a given individual. Thus, you would typically get posterior probabilities for each individual regarding which functional form describes the individuals data.

As a sketch of an idea for a model, you could have something like the following:

yijN(μij,σ2)
μij=γiλij(1)+(1γi)λij(2)
λij(1)=θ1i(1)+θ2i(1)exp(θ3i(1))
λij(2)=θ1i(2)+θ2i(2)xij+θ3i(2)xij2
γi=Bernoulli(πi)

Where xij is time and λij(1) represents expected values for a three parameter exponential model and λij(2) represents expected values for a quadratic model. πi represents the probability that model will choose λij(1).

Jeromy Anglim
источник
I've also been moving to the Bayesian framework, and have been reading on using Gaussian Processes for time series analysis of uncertain function forms. Still unclear how it can be applied to the case of hierarchical data (see my unanswered query here: groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ)
Mike Lawrence