У меня есть данные за два года, которые выглядят примерно так:
Дата _ __ Насилие Y / N? _ Количество пациентов
01.01.2008 _ ___ 0 __ _ __ _ ____ 11
01.02.2008 _ __ _ 0 _ __ _ __ _ __ 11
01.03.2008 _ ____ 1 __ _ __ _ ____ 12
01.04.2008 _ ____ 0 __ _ __ _ ____ 12
...
31/12 / 2009_ _ __ 0_ _ __ _ __ _ __ 14
то есть два года наблюдений, по одному в день, в психиатрическом отделении, которые указывают, имел ли место инцидент с насилием в этот день (1 - да, 0 - нет), а также количество пациентов в отделении. Гипотеза, которую мы хотим проверить, заключается в том, что большее количество пациентов в палате связано с повышенной вероятностью насилия в палате.
Мы, конечно, понимаем, что нам придется учесть тот факт, что, когда в палате больше пациентов, насилие более вероятно, потому что их просто больше - нас интересует, повышается ли вероятность насилия каждого человека, когда в палате больше пациентов.
Я видел несколько работ, которые просто используют логистическую регрессию, но я думаю, что это неправильно, потому что есть авторегрессионная структура (хотя, если смотреть на функцию автокорреляции, она не становится выше .1 при любом отставании, хотя это выше «Значимая» синяя пунктирная линия, которую R рисует для меня).
Просто, чтобы сделать вещи более сложными, я могу, если я хочу разбить результаты на отдельных пациентов, чтобы данные выглядели так же, как и выше, за исключением того, что у меня были бы данные для каждого пациента, 01.01.2008, 2 / 1/2008 и т. Д., А также идентификационный код, идущий вниз, чтобы данные отображали всю историю происшествий для каждого пациента в отдельности (хотя не все пациенты присутствуют во все дни, не уверен, имеет ли это значение)
Я хотел бы использовать lme4 в R для моделирования авторегрессионной структуры у каждого пациента, но некоторые прибегают к гуглингу с цитатой «lme4 не настроен для работы с авторегрессионными структурами». Даже если бы это было так, я не уверен, что все равно понимаю, как писать код.
На всякий случай, если кто-то заметит, я задал такой вопрос некоторое время назад, это разные наборы данных с разными проблемами, хотя на самом деле решение этой проблемы поможет с этим (кто-то предложил мне использовать смешанные методы ранее, но эта вещь авторегрессии заставила меня не знаете, как это сделать).
Так что я немного застрял и потерян, если честно. Любая помощь с благодарностью получена!
источник
pgmm
из Plm пакета , но , как переменная отклика двоичная я не знаю точно , как это сделать. Может быть, другие могут уточнить ... (И да, вы правы: мое понимание таково, что когда у вас есть эндогенная переменная, в этом случае значение с запаздыванием, вы не можете использовать REML для оценки, потому что оно смещено, поэтому вам нужно использовать GMM .)Ответы:
Вот идея, которая связывает вашу двоичную зависимую переменную с непрерывной ненаблюдаемой переменной; соединение, которое может позволить вам использовать возможности моделей временных рядов для непрерывных переменных.
Определение:
где,
где,
источник