Я считаю, что простые упражнения по анализу данных часто могут помочь проиллюстрировать и уточнить статистические концепции. Какие упражнения по анализу данных вы используете для обучения статистическим понятиям?
Поскольку мне приходится объяснять методы выбора переменных довольно часто, не в контексте обучения, а для тех, кто не занимается статистикой и запрашивает помощь в своих исследованиях, мне нравится этот чрезвычайно простой пример, который иллюстрирует, почему выбор одной переменной не всегда является хорошей идеей.
Если у вас есть этот набор данных:
y X1 x2
1 1 1
1 0 0
0 1 0
0 0 1
Это не займет много времени, чтобы понять, что и X1, и X2 по отдельности абсолютно неинформативны для y (когда они одинаковы, y «обязательно» будет 1 - я игнорирую здесь проблемы с размером выборки, просто предположим, что эти четыре наблюдения быть всей вселенной). Однако комбинация двух переменных является полностью информативной. Таким образом, людям легче понять, почему не стоит (например) проверять значение p только для моделей с каждой отдельной переменной в качестве регрессора.
По моему опыту, это действительно передает сообщение.
Коэффициенты множественной регрессии и ошибка ожидаемого знака
Одной из моих любимых иллюстраций статистической концепции с помощью анализа данных является деконструкция множественной регрессии в множественные двумерные регрессии.
Цели
концепция
Коэффициенты регрессии в модели множественной регрессии представляют собой отношение между а) частью данной переменной предиктора (x1), которая не связана со всеми другими переменными предиктора (x2 ... xN) в модели; и 2) часть переменной отклика (Y), которая не связана со всеми другими переменными предиктора (x2 ... xN) в модели. Когда существует корреляция между предикторами, знаки, связанные с коэффициентами предиктора, представляют отношения между этими остатками.
Упражнение
Коэффициент для шага 4 для r2 будет коэффициентом x1 для модели множественной регрессии с x1 и x2. Вы можете сделать то же самое для x2, разделив x1 на y и x2.
Вот код R для этого упражнения.
set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2) # Multiple regression Model
ry1 <- residuals( lm( y ~ x2) ) # The part of y not related to x2
rx1 <- residuals( lm(x1 ~ x2) ) # The part of x1 not related to x2
lm( ry1 ~ rx1)
ry2 <- residuals( lm( y ~ x1) ) # The part of y not related to x1
rx2 <- residuals( lm(x2 ~ x1) ) # The part of x2 not related to x1
lm( ry2 ~ rx2)
Вот соответствующие результаты и результаты.
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) ***x1*** ***x2***
-0.02410 ***1.89527*** ***5.07549***
Call:
lm(formula = ry1 ~ rx1)
Coefficients:
(Intercept) ***rx1***
-2.854e-17 ***1.895e+00***
Call:
lm(formula = ry2 ~ rx2)
Coefficients:
(Intercept) ***rx2***
3.406e-17 ***5.075e+00***