У меня есть некоторые данные, которые соответствуют примерно линейной линии:
Когда я делаю линейную регрессию этих значений, я получаю линейное уравнение:
В идеальном мире уравнение должно быть .
Ясно, что мои линейные значения близки к этому идеалу, но не совсем. У меня вопрос, как я могу определить, является ли этот результат статистически значимым?
Значение 0,997 значительно отличается от 1? -0.01 значительно отличается от 0? Или они статистически одинаковы, и я могу заключить, что с некоторым разумным уровнем достоверности?
Что такое хороший статистический тест, который я могу использовать?
Благодарность
Ответы:
Этот тип ситуации может быть обработан стандартным F-тестом для вложенных моделей . Поскольку вы хотите проверить оба параметра на нулевой модели с фиксированными параметрами, ваши гипотезы таковы:
F-тест включает в себя подбор обеих моделей и сравнение их остаточной суммы квадратов:
Статистика теста:
Соответствующее значение p:
Реализация в R: Предположим, что ваши данные находятся во фрейме данных
DATA
с именами переменныхy
иx
. F-тест можно выполнить вручную с помощью следующего кода. В данных смоделированного макета, которые я использовал, вы можете видеть, что оценочные коэффициенты близки к значениям в нулевой гипотезе, а значение p теста не показывает существенных доказательств, чтобы опровергнуть нулевую гипотезу о том, что истинная функция регрессии является тождественная функция.summary
Выход иplot
для этого взгляда данных , как это:источник
sd = 2/sqrt(1+abs(x))
Вот классный графический метод, который я написал в превосходной книге Джулиана Фарауэя «Линейные модели с R (второе издание)». Это одновременные 95% доверительные интервалы для пересечения и наклона, построенные в виде эллипса.
Для иллюстрации я создал 500 наблюдений с переменной «x», имеющей распределение N (среднее = 10, sd = 5), а затем переменную «y», чье распределение равно N (среднее = x, sd = 2). Это дает корреляцию чуть более 0,9, которая может быть не такой жесткой, как ваши данные.
Вы можете проверить эллипс, чтобы увидеть, находится ли точка (intercept = 0, slope = 1) в пределах или за пределами этого одновременного доверительного интервала.
Создано в 2019-01-21 пакетом представлением (v0.2.1)
источник
Вы можете вычислить коэффициенты с n загрузочными выборками. Это, вероятно, приведет к нормальным распределенным значениям коэффициента (центральная предельная теорема). После этого вы можете построить (например, 95%) доверительный интервал с t-значениями (n-1 степеней свободы) вокруг среднего значения. Если ваш КИ не включает 1 (0), он статистически значимо отличается или точнее: вы можете отклонить нулевую гипотезу с одинаковым наклоном.
источник
источник
Вы должны установить линейную регрессию и проверить 95% доверительные интервалы для двух параметров. Если CI наклона включает 1, а CI смещения включает 0, двусторонний тест незначителен прибл. на уровне (95%) ^ 2 - поскольку мы используем два отдельных теста, риск I типа увеличивается.
Используя R:
или вы используете
и вычислите 2 интервала сигмы самостоятельно.
источник