Предположим, я хочу построить модель, чтобы предсказать какое-то соотношение или процент. Например, скажем, я хочу предсказать количество мальчиков и девочек, которые будут присутствовать на вечеринке, и особенности вечеринки, которые я могу использовать в модели, такие как количество рекламы для вечеринки, размер места проведения, есть ли будет ли алкоголь на вечеринке и т. д. (Это всего лишь выдуманный пример; функции не очень важны.)
Мой вопрос: в чем разница между прогнозированием соотношения в процентах и как меняется моя модель в зависимости от того, какой выбор я выбрал? Один лучше другого? Является ли какая-то другая функция лучше одной (Меня не особо интересует конкретное соотношение отношения к проценту; я просто хочу иметь возможность определить, какие вечеринки с большей вероятностью будут «партией» по сравнению с «девичниками».) Например, я мышление:
- Если я хочу предсказать процент (скажем,
# boys / (# boys + # girls)
тогда, так как моя зависимая особенность ограничена между 0 и 1, я, вероятно, должен использовать что-то вроде логистической регрессии вместо линейной регрессии). - Если я хочу предсказать соотношение (скажем,
# boys / # girls
или# boys / (1 + # girls)
избежать ошибок деления на ноль), то моя зависимая особенность положительна, поэтому я должен применить какое-то преобразование (log?) Перед использованием линейной регрессии? (Или какая-то другая модель? Какие регрессионные модели используются для положительных данных без учета?) - Лучше ли вообще прогнозировать (скажем) процент вместо соотношения, и если да, то почему?
источник
Ответы:
источник
Повторяю первый ответ. Не пытайтесь конвертировать - просто смоделируйте число и ковариации напрямую.
Если вы сделаете это и подстроите биномиальную (или эквивалентно логистическую) регрессионную модель для подсчета числа мальчиков, то вы, если вы выберете обычную функцию связи для таких моделей, неявно уже подберете (сглаженное в ковариации) соотношение мальчиков и девочек. Это линейный предиктор.
Основная причина для модели рассчитывает непосредственно, а не пропорции или отношения заключается в том, что вы не теряете информацию. Интуитивно вы будете намного увереннее в выводах из наблюдаемого отношения 1 (мальчиков к девочкам), если оно будет происходить от наблюдения 100 мальчиков и 100 девочек, чем от просмотра 2 и 2. Следовательно, если у вас есть ковариаты, у вас будет больше информация об их эффектах и, возможно, лучшая прогностическая модель.
источник