Я делаю исследование по употреблению поликарбоната. У меня есть данные о 400 наркоманах, каждый из которых указал наркотики, которыми злоупотребляет. Существует более 10 лекарств и, следовательно, есть большие возможные комбинации. Я перекодировал большинство наркотиков, которые они потребляют, в двоичные переменные (т. Е. Героин равен 1, если наркоман злоупотребляет героином, иначе 0). Я хотел бы найти популярные или распространенные комбинации из 2 или 3 препаратов. Есть ли статистические методы, которые я могу использовать?
Моделирование латентного класса было бы одним, контролируемым обучающим подходом к поиску скрытых, «скрытых» разделов или групп наркотиков и потребителей наркотиков. LC - очень гибкий метод с двумя широкими подходами: репликации, основанные на повторных измерениях для одного субъекта, по сравнению с репликациями, основанными на перекрестной классификации набора категориальных переменных. Ваши данные будут соответствовать второму типу.
Гибкость LC является функцией его способности поглощать «смеси» переменных с различными масштабами (например, категориальными или непрерывными). Поскольку этот подход находит скрытые разделы, сегменты или кластеры в данных, его также можно рассматривать как метод уменьшения размеров.
Все модели LC имеют 2 этапа: на этапе 1 определяется зависимая или целевая переменная и строится регрессионная модель. На этапе 2 анализируется остаток (один «скрытый» вектор) из модели этапа 1, и создаются разделы, отражающие изменчивость (или неоднородность) - «скрытые классы» - в этом векторе.
Бесплатное программное обеспечение для загрузки, которое, вероятно, будет работать очень хорошо для вас. Одним из них является модуль R под названием polCA, доступный здесь:
http://www.jstatsoft.org/article/view/v042i10
Если у вас есть около 1000 долларов, чтобы потратить их на коммерческий продукт, Latent Gold можно найти на сайте www.statisticalinnovations.com. Я много лет использую Latent Gold , поэтому я большой поклонник этого продукта из-за его аналитической мощи и диапазона решений. Например, polCA полезна только для моделей LC с категориальной информацией, тогда как LG работает по всем направлениям ... плюс, их разработчики всегда добавляют новые модули. Самое последнее дополнение создает модели LC с использованием скрытых цепей Маркова. Но имейте в виду, что LG не является «сквозной» платформой данных, т. Е. Не подходит для тяжелых манипуляций с данными или их подъема.
В противном случае существует множество других подходов к анализу категориальной информации, которые широко поддерживаются статистическим программным обеспечением, таким как R, SPSS, SAS, Python и т. Д. К ним относятся анализ таблицы сопряженности, логарифмические модели, модели конечных смесей, байесовская тензорная регрессия, и так далее. Литература в этой области обширна и началась с Бишопа и др., Дискретного многомерного анализа в 1975 г., охватывает RC-модели Лео Гудмана, основанные на его работе, проделанной с 80-х годов, « Анализ категориальных данных Агрешти» , книги Стивена Файнберга и включает Томаса Виккенса. «Отличная книга« Анализ многопоточных таблиц непредвиденных обстоятельств »для социальных наук, опубликованная в 1989 году. Байесовская тензорная регрессия Это название статьи Дэвида Дансона из Duke, и он является своего рода «современным» в том, что он является очень недавним методом для моделирования многомерных таблиц непредвиденных обстоятельств.
источник
Что приходит на ум интуитивно? Вы хотите посчитать комбинации, а не просто найти все возможные комбинации и просто посчитать? Я предлагаю вам взглянуть на добычу частых предметов.
Википедия - Априори
Вот несколько реализаций одного и того же:
Частотный паттерн Майнинг
источник