Изучение порядковой регрессии в R?

10

Я работаю над проектом и нуждаюсь в ресурсах, чтобы ускорить меня.

Набор данных составляет около 35000 наблюдений по 30 или около того переменным. Около половины переменных являются категориальными, в то время как некоторые имеют много разных возможных значений, то есть, если вы разделите категориальные переменные на фиктивные переменные, у вас будет намного больше 30 переменных. Но все же, вероятно, порядка пары сотен макс. (П> р).

Ответ, который мы хотим предсказать, является порядковым с 5 уровнями (1,2,3,4,5). Предикторы представляют собой смесь непрерывных и категоричных, около половины каждого. Это мои мысли / планы на данный момент: 1. Относитесь к ответу как к непрерывному и запускайте ванильную линейную регрессию. 2. Запустите номинальную и порядковую логистическую и пробитную регрессию. 3. Используйте MARS и / или другой вариант нелинейной регрессии.

Я знаком с линейной регрессией. МАРС достаточно хорошо описан Хасти и Тибширани. Но я в недоумении, когда дело доходит до порядкового логита / пробита, особенно с таким большим количеством переменных и большим набором данных.

Пока что мой лучший выбор - пакет r glmnetcr , но вряд ли мне хватит документации, чтобы найти меня там, где я должен быть.

Куда я могу пойти, чтобы узнать больше?

Мэтт Холл
источник
Я предлагаю вам также добавить тег R.
Кристофер Лоуден
1
Учитывая, что это вопрос о статистической модели, вы можете перейти на веб- сайт CrossValidated , но имейте в виду, что перекрестная публикация вопросов - это ужасная практика: вы либо захотите сформулировать ее, чтобы выделить методологические проблемы, которые вы сталкиваются или перенести весь вопрос.
StasK
Не объясняя почему, ISL отмечает (на стр. 137), что дискриминантный анализ (например, LDA, QDA) используется чаще, чем множественные расширения логистической регрессии. Поэтому пакеты, подобные штрафованным LDA, могут стоить изучения.
MattBagg

Ответы:

6

Я предлагаю этот учебник по заказанному логиту: http://www.ats.ucla.edu/stat/r/dae/ologit.htm

Это демонстрирует использование polrв MASSпакете, а также объясняет предположения и как интерпретировать результаты.

nassimhddd
источник
6

Одним из достаточно мощных R-пакетов для регрессии с порядковым категориальным ответом является VGAM на CRAN. Виньетка содержит несколько примеров порядковой регрессии, но по общему признанию я никогда не пробовал это на таком большом наборе данных, поэтому я не могу оценить, сколько времени это может занять. Вы можете найти дополнительные материалы о VGAM на странице автора . В качестве альтернативы вы можете взглянуть на спутницу Лоры Томпсон в книге Агрешти "Категориальный анализ данных". Глава 7 книги Томпсона описывает кумулятивные модели логита, которые часто используются с порядковыми ответами.

Надеюсь это поможет!

£ дА
источник
3

Если вы абсолютно не знакомы с порядковым регрессом, я постараюсь прочитать главу Tabachnick / Fidell ( http://www.pearsonhighed.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) по этой теме - хотя она и не написана для R, книга очень хорошо передает общую логику, а также слова «делай и делай».

Как вопрос: каковы ваши категории ответа? Если они представляют собой какую-то шкалу, такую ​​как «хорошо - плохо», было бы хорошо использовать линейную регрессию (исследования рынка делают это все время ...), но если элементы более разобщены, порядковая регрессия может быть лучше , Я смутно помню, что в некоторых книгах о структурном моделировании равновесия упоминалось, что линейная регрессия была лучше для хороших масштабов, чем пробит, но сейчас я не могу вспомнить книгу, извините!

Наиболее серьезной проблемой может быть количество фиктивных переменных - пара сотен фиктивных переменных сделает анализ медленным, трудным для интерпретации и, вероятно, нестабильным - достаточно ли случаев для каждой фиктивной / фиктивной комбинации?

Кристиан Зауэр
источник
3

Одной из стандартных ссылок, написанных с точки зрения социальных наук, является книга Дж. Скотта Лонга об ограниченных зависимых переменных . Это гораздо глубже, чем, как сказал Табачник, в другом ответе : Табачник - в лучшем случае кулинарная книга, почти без объяснений «почему», и, похоже, вам будет полезно выяснить это более подробно, что можно найти в книге Лонга. книга. Порядковый регресс должен быть охвачен в большинстве вводных эконометрических курсов («Учебное пособие Вулдриджа» и «Панельные данные» - отличная книга для выпускников), а также в количественных курсах по общественным наукам (социология, психология), хотя я полагаю, что последние вернутся назад к книге Лонга.

Учитывая, что количество ваших переменных на порядок меньше размера выборки, вероятно, вам следует искать пакет R, ordinalа не glmnetcr. В другом ответе упоминается, что вы можете найти эту функциональность в более широком MASSпакете.

Stask
источник