Какие статистические методы я могу использовать, чтобы найти популярные или распространенные комбинации категориальных переменных?

10

Я делаю исследование по употреблению поликарбоната. У меня есть данные о 400 наркоманах, каждый из которых указал наркотики, которыми злоупотребляет. Существует более 10 лекарств и, следовательно, есть большие возможные комбинации. Я перекодировал большинство наркотиков, которые они потребляют, в двоичные переменные (т. Е. Героин равен 1, если наркоман злоупотребляет героином, иначе 0). Я хотел бы найти популярные или распространенные комбинации из 2 или 3 препаратов. Есть ли статистические методы, которые я могу использовать?

татами
источник

Ответы:

6

Существует только 1024 возможных комбинации препаратов для совместного использования (если было только 10 препаратов), при условии, что каждый пользователь использовал по крайней мере 1 препарат. Вы можете просто преобразовать переменные 0/1 в строку, объединить их и выполнить анализ частоты для строки, чтобы увидеть, какие комбинации чаще всего встречаются. Возьмем для примера игрушку, скажем, в вашем исследовании было только 3 препарата, A, B и C. Если участник использовал лекарство A и C, тогда переменная alldrugsмогла бы быть закодирована 101. Участник, который использует только наркотик B, был бы закодирован 010. Запустите частоты на них, чтобы найти наиболее часто выбираемый. Большинство программного обеспечения должно быть в состоянии обработать это в считанные секунды.

StatsStudent
источник
1
Согласовано. Есть только 400 наркоманов, поэтому эти 1024 не могут все возникнуть.
Ник Кокс
Ага. Это должен быть кусок пирога.
StatsStudent
5

Моделирование латентного класса было бы одним, контролируемым обучающим подходом к поиску скрытых, «скрытых» разделов или групп наркотиков и потребителей наркотиков. LC - очень гибкий метод с двумя широкими подходами: репликации, основанные на повторных измерениях для одного субъекта, по сравнению с репликациями, основанными на перекрестной классификации набора категориальных переменных. Ваши данные будут соответствовать второму типу.

Гибкость LC является функцией его способности поглощать «смеси» переменных с различными масштабами (например, категориальными или непрерывными). Поскольку этот подход находит скрытые разделы, сегменты или кластеры в данных, его также можно рассматривать как метод уменьшения размеров.

Все модели LC имеют 2 этапа: на этапе 1 определяется зависимая или целевая переменная и строится регрессионная модель. На этапе 2 анализируется остаток (один «скрытый» вектор) из модели этапа 1, и создаются разделы, отражающие изменчивость (или неоднородность) - «скрытые классы» - в этом векторе.

Бесплатное программное обеспечение для загрузки, которое, вероятно, будет работать очень хорошо для вас. Одним из них является модуль R под названием polCA, доступный здесь:

http://www.jstatsoft.org/article/view/v042i10

Если у вас есть около 1000 долларов, чтобы потратить их на коммерческий продукт, Latent Gold можно найти на сайте www.statisticalinnovations.com. Я много лет использую Latent Gold , поэтому я большой поклонник этого продукта из-за его аналитической мощи и диапазона решений. Например, polCA полезна только для моделей LC с категориальной информацией, тогда как LG работает по всем направлениям ... плюс, их разработчики всегда добавляют новые модули. Самое последнее дополнение создает модели LC с использованием скрытых цепей Маркова. Но имейте в виду, что LG не является «сквозной» платформой данных, т. Е. Не подходит для тяжелых манипуляций с данными или их подъема.

В противном случае существует множество других подходов к анализу категориальной информации, которые широко поддерживаются статистическим программным обеспечением, таким как R, SPSS, SAS, Python и т. Д. К ним относятся анализ таблицы сопряженности, логарифмические модели, модели конечных смесей, байесовская тензорная регрессия, и так далее. Литература в этой области обширна и началась с Бишопа и др., Дискретного многомерного анализа в 1975 г., охватывает RC-модели Лео Гудмана, основанные на его работе, проделанной с 80-х годов, « Анализ категориальных данных Агрешти» , книги Стивена Файнберга и включает Томаса Виккенса. «Отличная книга« Анализ многопоточных таблиц непредвиденных обстоятельств »для социальных наук, опубликованная в 1989 году. Байесовская тензорная регрессия Это название статьи Дэвида Дансона из Duke, и он является своего рода «современным» в том, что он является очень недавним методом для моделирования многомерных таблиц непредвиденных обстоятельств.

Майк Хантер
источник
люблю список литературы!
Крис
3

Что приходит на ум интуитивно? Вы хотите посчитать комбинации, а не просто найти все возможные комбинации и просто посчитать? Я предлагаю вам взглянуть на добычу частых предметов.

Википедия - Априори

Вот несколько реализаций одного и того же:

Частотный паттерн Майнинг

Суровый Нисар
источник