Я моделирую некоторые данные, где я думаю, что у меня есть два скрещенных случайных эффекта. Но набор данных не сбалансирован, и я не уверен, что нужно сделать, чтобы учесть это.
Мои данные - это набор событий. Событие происходит, когда клиент встречается с поставщиком для выполнения задачи, которая является успешной или нет. Существуют тысячи клиентов и поставщиков, и каждый клиент и поставщик участвует в разном количестве событий (примерно от 5 до 500). У каждого клиента и поставщика есть уровень квалификации, и вероятность того, что задание выполнено успешно, зависит от навыков обоих участников. Между клиентами и поставщиками нет совпадений.
Меня интересуют соответствующие различия в населении клиентов и поставщиков, чтобы мы могли знать, какой источник больше влияет на показатель успеха. Я также хочу знать конкретные значения навыков среди клиентов и поставщиков, для которых у нас есть данные, чтобы определить лучших / худших клиентов или поставщиков.
Изначально я хочу предположить, что вероятность успеха определяется исключительно уровнями навыков клиента и поставщика, без каких-либо других фиксированных эффектов. Итак, если предположить, что x является фактором для клиента, а y является фактором для поставщика, то в R (с использованием пакета lme4) у меня есть модель, указанная как:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
Одна из проблем заключается в том, что клиенты не равномерно распределены между поставщиками. Клиенты с более высокими навыками чаще сталкиваются с поставщиками более высоких навыков. Насколько я понимаю, случайный эффект должен быть не коррелирован с любыми другими предикторами в модели, но я не уверен, как это объяснить.
Кроме того, некоторые клиенты и поставщики имеют очень мало событий (менее 10), в то время как другие имеют много (до 500), поэтому существует большой разброс в количестве данных, которые мы имеем на каждого участника. В идеале это должно быть отражено в «доверительном интервале» вокруг оценки навыков каждого участника (хотя я думаю, что термин доверительный интервал здесь не совсем корректен).
Будут ли скрещенные случайные эффекты представлять проблему из-за несбалансированных данных? Если да, то какие еще подходы я должен рассмотреть?
источник