Два года данных, описывающих возникновение ассоциации тестирования насилия с количеством пациентов в палате

11

У меня есть данные за два года, которые выглядят примерно так:

Дата _ __ Насилие Y / N? _ Количество пациентов

01.01.2008 _ ___ 0 __ _ __ _ ____ 11

01.02.2008 _ __ _ 0 _ __ _ __ _ __ 11

01.03.2008 _ ____ 1 __ _ __ _ ____ 12

01.04.2008 _ ____ 0 __ _ __ _ ____ 12

...

31/12 / 2009_ _ __ 0_ _ __ _ __ _ __ 14

то есть два года наблюдений, по одному в день, в психиатрическом отделении, которые указывают, имел ли место инцидент с насилием в этот день (1 - да, 0 - нет), а также количество пациентов в отделении. Гипотеза, которую мы хотим проверить, заключается в том, что большее количество пациентов в палате связано с повышенной вероятностью насилия в палате.

Мы, конечно, понимаем, что нам придется учесть тот факт, что, когда в палате больше пациентов, насилие более вероятно, потому что их просто больше - нас интересует, повышается ли вероятность насилия каждого человека, когда в палате больше пациентов.

Я видел несколько работ, которые просто используют логистическую регрессию, но я думаю, что это неправильно, потому что есть авторегрессионная структура (хотя, если смотреть на функцию автокорреляции, она не становится выше .1 при любом отставании, хотя это выше «Значимая» синяя пунктирная линия, которую R рисует для меня).

Просто, чтобы сделать вещи более сложными, я могу, если я хочу разбить результаты на отдельных пациентов, чтобы данные выглядели так же, как и выше, за исключением того, что у меня были бы данные для каждого пациента, 01.01.2008, 2 / 1/2008 и т. Д., А также идентификационный код, идущий вниз, чтобы данные отображали всю историю происшествий для каждого пациента в отдельности (хотя не все пациенты присутствуют во все дни, не уверен, имеет ли это значение)

Я хотел бы использовать lme4 в R для моделирования авторегрессионной структуры у каждого пациента, но некоторые прибегают к гуглингу с цитатой «lme4 не настроен для работы с авторегрессионными структурами». Даже если бы это было так, я не уверен, что все равно понимаю, как писать код.

На всякий случай, если кто-то заметит, я задал такой вопрос некоторое время назад, это разные наборы данных с разными проблемами, хотя на самом деле решение этой проблемы поможет с этим (кто-то предложил мне использовать смешанные методы ранее, но эта вещь авторегрессии заставила меня не знаете, как это сделать).

Так что я немного застрял и потерян, если честно. Любая помощь с благодарностью получена!

Крис Били
источник
Я имею дело с подобной проблемой, я думаю , вы можете использовать pgmmиз Plm пакета , но , как переменная отклика двоичная я не знаю точно , как это сделать. Может быть, другие могут уточнить ... (И да, вы правы: мое понимание таково, что когда у вас есть эндогенная переменная, в этом случае значение с запаздыванием, вы не можете использовать REML для оценки, потому что оно смещено, поэтому вам нужно использовать GMM .)
teucer

Ответы:

2

Вот идея, которая связывает вашу двоичную зависимую переменную с непрерывной ненаблюдаемой переменной; соединение, которое может позволить вам использовать возможности моделей временных рядов для непрерывных переменных.

Определение:

Ввес,Tзнак равно1весT

пвес,TвесT

пвес,T

Ввес,Tзнак равно{1если пвес,Tτ0в противном случае

где,

τ

пвес,Tпвес,T

пвес,Tзнак равноα0+α1пвес,T-1+,,,+αппвес,T-п+βNвес,T+εT

где,

Nвес,TвесT

β

пвес,T


источник