Мне нужны некоторые советы относительно двух основных дилемм в моем исследовании, которое представляет собой исследование трех крупных фармацевтических препаратов и инноваций. Количество патентов в год является зависимой переменной.
Мои вопросы
Каковы наиболее важные критерии для хорошей модели? Что более / менее важно? Это то, что большинство или все переменные будут значимыми? Это проблема "F STATISTIC"? Это значение «Скорректированный R в квадрате»?
Во-вторых, как я могу выбрать наиболее подходящую модель для исследования? Помимо патентов, которые являются переменной подсчета (так что, может быть, счет Пуассона), у меня есть пояснительные переменные, такие как рентабельность активов, бюджет на исследования и разработки, повторный партнер (%, а не двоичная переменная), размер компании (сотрудники) и еще пара. Должен ли я сделать линейную регрессию или Пуассона?
Ответы:
Наиболее важной является логика, лежащая в основе модели. Ваша переменная «количество патентов в год» является переменной подсчета, поэтому указывается регрессия Пуассона. Это GLM (обобщенная линейная модель) с (обычно) функцией логарифмической связи, в то время как обычная линейная регрессия представляет собой гауссовскую GLM с тождественной связью. Здесь действительно важна функция лог-линка, более важная, чем распределение ошибок (Пуассона или Гаусса).
Переменная «Патенты» является обширной переменной: см. Интенсивные и расширенные свойства . Для интенсивных переменных, таких как температура, часто подходят линейные модели (с идентификационной связью). Но с обширной переменной это не так. Подумайте, что одна из ваших фармацевтических компаний разделена на две разные компании. Затем патенты пришлось разделить между двумя новыми компаниями. Что происходит с ковариабельными переменными, в вашей регрессии? Переменные, такие как количество сотрудников и бюджет RD также должны быть разделены.x
В широком смысле в этом контексте интенсивная переменная - это переменная, которая не зависит от размера компании, в то время как обширная переменная зависит (как правило, линейно) от размера компании. Таким образом, в некотором смысле, если в уравнении регрессии имеется много различных обширных переменных, мы неоднократно измеряем размерные эффекты . Это кажется излишним, поэтому мы должны стараться, когда это возможно, выражать переменные в интенсивной форме , например, бюджет RD на сотрудника (или в процентах от общего бюджета), аналогично доходу и т. Д. Переменная, такая как количество сотрудников, должна быть оставлена как обширна. См. Ответ @ onestop на « Работа с коррелированными регрессорами» для другого обсуждения этой обширной / интенсивной проблемы переменных.
Давайте посмотрим на это алгебраически: - Патенты, Бюджет (на сотрудника), Сотрудники в оригинальной компании, в то время как P 1 , B 1 , E 1 и P 2 , B 2 , E 2 - соответствующие переменные после Трещина. Предположим, как и выше, что E - единственная обширная ковариабельная переменная (с P , конечно, также обширная).P,B,E P1,B1,E1 P2,B2,E2 E P
Затем, перед разделением, мы имеем модель, тождественную связь со случайной частью: Пусть доли разделения будут α , 1 - α, поэтому для компании 1 после разделения мы получим α P
Теперь давайте посмотрим, может ли помочь использование функции ссылки на журнал. Опять же, мы пишем идеализированные модели без членов возмущения. Переменные, как указано выше.
Во-первых, модель до разделения: После разделения для первой компании получаем: P 1
Это значительно упрощает интерпретацию результатов, а также сравнение с исследованиями с использованием других данных, тенденций во времени и так далее. Вы не можете получить эту форму с параметрами с независимыми от размера интерпретациями с помощью идентификационной ссылки.
Вывод: используйте GLM с функцией логарифмической ссылки, возможно, регрессию Пуассона, или отрицательно-биномиальную, или ... Функция связи на несколько порядков важнее!
Подводя итог, при построении регрессионной модели для переменной ответа, которая является обширной , как переменная подсчета.
Попробуйте выразить ковариабельные в интенсивной форме.
Ковариабельные переменные, которые нужно оставить как можно более обширными: записать их в журнал (приведенная выше алгебра зависит от того, что существует не более одной расширенной ковариабельной переменной).
Используйте функцию связи журнала.
Затем другие критерии, такие как критерии, основанные на соответствии, могут использоваться для вторичных решений, таких как распределение члена нарушения.
источник