Я работаю над проектом и нуждаюсь в ресурсах, чтобы ускорить меня.
Набор данных составляет около 35000 наблюдений по 30 или около того переменным. Около половины переменных являются категориальными, в то время как некоторые имеют много разных возможных значений, то есть, если вы разделите категориальные переменные на фиктивные переменные, у вас будет намного больше 30 переменных. Но все же, вероятно, порядка пары сотен макс. (П> р).
Ответ, который мы хотим предсказать, является порядковым с 5 уровнями (1,2,3,4,5). Предикторы представляют собой смесь непрерывных и категоричных, около половины каждого. Это мои мысли / планы на данный момент: 1. Относитесь к ответу как к непрерывному и запускайте ванильную линейную регрессию. 2. Запустите номинальную и порядковую логистическую и пробитную регрессию. 3. Используйте MARS и / или другой вариант нелинейной регрессии.
Я знаком с линейной регрессией. МАРС достаточно хорошо описан Хасти и Тибширани. Но я в недоумении, когда дело доходит до порядкового логита / пробита, особенно с таким большим количеством переменных и большим набором данных.
Пока что мой лучший выбор - пакет r glmnetcr , но вряд ли мне хватит документации, чтобы найти меня там, где я должен быть.
Куда я могу пойти, чтобы узнать больше?
источник
Ответы:
Я предлагаю этот учебник по заказанному логиту: http://www.ats.ucla.edu/stat/r/dae/ologit.htm
Это демонстрирует использование
polr
вMASS
пакете, а также объясняет предположения и как интерпретировать результаты.источник
Одним из достаточно мощных R-пакетов для регрессии с порядковым категориальным ответом является VGAM на CRAN. Виньетка содержит несколько примеров порядковой регрессии, но по общему признанию я никогда не пробовал это на таком большом наборе данных, поэтому я не могу оценить, сколько времени это может занять. Вы можете найти дополнительные материалы о VGAM на странице автора . В качестве альтернативы вы можете взглянуть на спутницу Лоры Томпсон в книге Агрешти "Категориальный анализ данных". Глава 7 книги Томпсона описывает кумулятивные модели логита, которые часто используются с порядковыми ответами.
Надеюсь это поможет!
источник
Если вы абсолютно не знакомы с порядковым регрессом, я постараюсь прочитать главу Tabachnick / Fidell ( http://www.pearsonhighed.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) по этой теме - хотя она и не написана для R, книга очень хорошо передает общую логику, а также слова «делай и делай».
Как вопрос: каковы ваши категории ответа? Если они представляют собой какую-то шкалу, такую как «хорошо - плохо», было бы хорошо использовать линейную регрессию (исследования рынка делают это все время ...), но если элементы более разобщены, порядковая регрессия может быть лучше , Я смутно помню, что в некоторых книгах о структурном моделировании равновесия упоминалось, что линейная регрессия была лучше для хороших масштабов, чем пробит, но сейчас я не могу вспомнить книгу, извините!
Наиболее серьезной проблемой может быть количество фиктивных переменных - пара сотен фиктивных переменных сделает анализ медленным, трудным для интерпретации и, вероятно, нестабильным - достаточно ли случаев для каждой фиктивной / фиктивной комбинации?
источник
Одной из стандартных ссылок, написанных с точки зрения социальных наук, является книга Дж. Скотта Лонга об ограниченных зависимых переменных . Это гораздо глубже, чем, как сказал Табачник, в другом ответе : Табачник - в лучшем случае кулинарная книга, почти без объяснений «почему», и, похоже, вам будет полезно выяснить это более подробно, что можно найти в книге Лонга. книга. Порядковый регресс должен быть охвачен в большинстве вводных эконометрических курсов («Учебное пособие Вулдриджа» и «Панельные данные» - отличная книга для выпускников), а также в количественных курсах по общественным наукам (социология, психология), хотя я полагаю, что последние вернутся назад к книге Лонга.
Учитывая, что количество ваших переменных на порядок меньше размера выборки, вероятно, вам следует искать пакет R,
ordinal
а неglmnetcr
. В другом ответе упоминается, что вы можете найти эту функциональность в более широкомMASS
пакете.источник