Я добился прочной линейной взаимосвязи между моей переменной и после двукратного преобразования ответа. Модель была но я преобразовал ее в улучшилс .19 до .76.
Очевидно, я сделал приличную операцию на этих отношениях. Может ли кто-нибудь обсудить подводные камни, связанные с этим, такие как опасность чрезмерных преобразований или возможные нарушения статистических принципов?
Ответы:
Вы не можете реально сравнить до и после, потому что основная изменчивость в Y отличается. Таким образом, вы буквально не можете получить никакого утешения от изменения в R 2 . Это не говорит вам ничего ценного в сравнении двух моделей.R2 Y R2
Эти две модели различаются по нескольким причинам, поэтому они означают разные вещи - они предполагают совершенно разные вещи относительно формы отношения и изменчивости члена ошибки (если рассматривать в терминах отношения между и X ). Поэтому, если вы заинтересованы в моделировании Y (если Y само по себе имеет смысл), создайте для этого хорошую модель. Если вы заинтересованы в моделировании √Y X Y Y (/ √Y−−√ имеет смысл), создайте для этого хорошую модель. Если √Y−−√ несет смысл, а затем создайте хорошую модель для этого. Но сравните любые конкурирующие модели в сопоставимых масштабах. R2по разным ответам просто несопоставимы.Y/X−−−−√ R2
Если вы просто пробуете другие отношения в надежде найти трансформацию с высоким или любым другим показателем «хорошей подгонки» - на свойства любого вывода, который вы хотели бы провести, повлияет существование этот процесс поиска.R2
Оценки будут отклоняться от нуля, стандартные ошибки будут слишком малы, значения p будут слишком малы, доверительные интервалы слишком узки. Ваши модели в среднем окажутся «слишком хорошими» (в том смысле, что их поведение вне выборки будет разочаровывающим по сравнению с поведением в выборке).
Чтобы избежать такого переоснащения, необходимо, по возможности, выполнить идентификацию модели и оценку для различных подмножеств данных (и оценку модели для третьего). Если вы повторите эту процедуру на многих «разбивках» данных, взятых случайным образом, вы получите лучшее представление о том, насколько воспроизводимы ваши результаты.
Здесь много постов с соответствующими вопросами по этим вопросам: возможно, стоит попробовать поискать.
(Если у вас есть хорошие априорные причины для выбора конкретного преобразования, это другая проблема. Но поиск пространства преобразований, чтобы найти что-то подходящее, несет в себе всевозможные проблемы типа «отслеживания данных».)
источник
Есть большая проблема, чем те, которые определены @Glen_b.
И я получаю 0,49 и P-значение, 5,5 × 10 - 16 .R2 5.5×10−16
У вас есть с обеих сторон уравнения.X
источник
В примере @ Peter есть два элемента, которые может быть полезно распутать:
(1) Неправильная спецификация модели. Модели
&
гдеwi=yixi−−√ & , оба не могут быть правдой Если вы повторно выражаете каждый в терминах ответа другого, они становятся нелинейными по параметрам, с гетероскедастическими ошибками.zi=xi−−√
Если предполагается, что является гауссовой случайной величиной, независимой от X , то это особый случай модели 1, в которой β 1 = 0 , и вы не должны использовать модель 2. Но в равной степени, если WY X β1=0 W предполагается, что Гауссова случайная переменная, не зависящая от , вы не должны использовать модель 1. Любое предпочтение одной модели, а не другой, должно исходить из материальной теории или их соответствия данным.Z
(2) Преобразование ответа. Если вы знали, что & X является независимой гауссовой случайной величиной, почему связь между W & Z все же вас удивляет или вы бы назвали ее ложной? Условное ожидание W может быть аппроксимировано дельта-методом:Y X W Z W
Это действительно функция .z
Следуя примеру ...
Aldrich (2005), «Соотношения подлинные и ложные в Пирсоне и Юле», Statistical Science , 10 , 4, представляет интересную историческую перспективу по этим вопросам.
источник
источник