Я читаю A. Agresti (2007), Введение в категориальный анализ данных , 2-е. редакция, и я не уверен, правильно ли я понимаю этот параграф (с.106, 4.2.1) (хотя это должно быть легко):
В Таблице 3.1, посвященной храпу и сердечным заболеваниям в предыдущей главе, 254 пациента сообщали о храпе каждую ночь, из которых у 30 было сердечное заболевание. Если файл данных сгруппировал двоичные данные, строка в файле данных сообщает об этих данных как о 30 случаях сердечно-сосудистых заболеваний из размера выборки 254. Если файл данных имеет разгруппированные двоичные данные, каждая строка в файле данных относится к отдельный предмет, поэтому 30 строк содержат 1 для болезни сердца и 224 строки содержат 0 для болезни сердца. Оценки ML и значения SE одинаковы для любого типа файла данных.
Преобразование набора несгруппированных данных (1 зависимая, 1 независимая) потребует больше, чем «строка», чтобы включить всю информацию !?
В следующем примере (нереально!) Создается простой набор данных и строится модель логистической регрессии.
Как будут выглядеть сгруппированные данные (переменная вкладка?)? Как можно построить ту же модель, используя сгруппированные данные?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())
источник
tab <- table(x,y, dnn=c('snoring','disease')); glm(tab ~ as.numeric(rownames(tab)), family=binomial)
бы сработало (инверсия знака минус для коэффициентов, потому что «Да» кодируется 0 вместо 1).