Базовые данные : у меня ~ 1000 человек помечены оценками: «1», «хорошо», «2», «средний» или «3» [плохо »- это те значения, которые я пытаюсь предсказать для людей в будущем , В дополнение к этому, у меня есть некоторая демографическая информация: пол (категориальный: M / F), возраст (числовой: 17-80) и раса (категориальный: черный / кавказец / латиноамериканец).
У меня в основном четыре вопроса:
Первоначально я пытался запустить набор данных, описанный выше, как анализ множественной регрессии. Но недавно я узнал, что, поскольку мой иждивенец является упорядоченным фактором, а не непрерывной переменной, я должен использовать порядковую логистическую регрессию для чего-то подобного. Сначала я использовал что-то вроде
mod <- lm(assessment ~ age + gender + race, data = dataset)
: кто-нибудь может указать мне правильное направление?Оттуда, предполагая, что я получаю коэффициенты, с которыми мне комфортно, я понимаю, как подключать только числовые значения для x1, x2 и т. Д., Но как мне поступить с расой, например, когда есть несколько ответов: черный / кавказский / латино? Так что, если он говорит мне, что кавказский коэффициент равен 0,289, а кто-то, кого я пытаюсь предсказать, является кавказцем, как мне подключить это обратно, так как значение не числовое?
У меня также есть случайные значения, которые отсутствуют - некоторые для расы, некоторые для пола и т. Д. Нужно ли делать что-то дополнительное, чтобы убедиться, что это ничего не искажает? (Я заметил, когда мой набор данных загружается в R-Studio, когда недостающие данные загружаются как
NA
, R говорит что-то вроде(162 observations deleted due to missingness)
- но если они загружаются как пустые места, это ничего не делает.)Предполагая, что все это работает, и у меня есть новые данные с полом, возрастом и расой, на которых я хочу предсказать - есть ли в R более простой способ выполнить все это через то, что окажется моей формулой с новыми коэффициентами, а не делать это вручную? (Если этот вопрос здесь не подходит, я могу вернуть его на форум R.)
latino
, и макеты для двух других. Значение 1 дляcaucasian
манекена указывает на кавказского респондента, аналогичного дляblack
фиктивной переменной. Значение 0 для обоих указывает на латиноамериканского респондента. Есть смысл?