Изучение статистических концепций с помощью анализа данных

18

Я считаю, что простые упражнения по анализу данных часто могут помочь проиллюстрировать и уточнить статистические концепции. Какие упражнения по анализу данных вы используете для обучения статистическим понятиям?

Brett Magill
источник

Ответы:

9

Поскольку мне приходится объяснять методы выбора переменных довольно часто, не в контексте обучения, а для тех, кто не занимается статистикой и запрашивает помощь в своих исследованиях, мне нравится этот чрезвычайно простой пример, который иллюстрирует, почему выбор одной переменной не всегда является хорошей идеей.

Если у вас есть этот набор данных:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

Это не займет много времени, чтобы понять, что и X1, и X2 по отдельности абсолютно неинформативны для y (когда они одинаковы, y «обязательно» будет 1 - я игнорирую здесь проблемы с размером выборки, просто предположим, что эти четыре наблюдения быть всей вселенной). Однако комбинация двух переменных является полностью информативной. Таким образом, людям легче понять, почему не стоит (например) проверять значение p только для моделей с каждой отдельной переменной в качестве регрессора.

По моему опыту, это действительно передает сообщение.

Ник Сабби
источник
5

Коэффициенты множественной регрессии и ошибка ожидаемого знака

Одной из моих любимых иллюстраций статистической концепции с помощью анализа данных является деконструкция множественной регрессии в множественные двумерные регрессии.

Цели

  • Для уточнения значения коэффициентов регрессии при наличии нескольких предикторов.
  • Чтобы проиллюстрировать, почему неправильно «ожидать», что коэффициент множественной регрессии будет иметь определенный знак, основанный на его двумерном отношении с Y, когда предикторы коррелируют.

концепция

Коэффициенты регрессии в модели множественной регрессии представляют собой отношение между а) частью данной переменной предиктора (x1), которая не связана со всеми другими переменными предиктора (x2 ... xN) в модели; и 2) часть переменной отклика (Y), которая не связана со всеми другими переменными предиктора (x2 ... xN) в модели. Когда существует корреляция между предикторами, знаки, связанные с коэффициентами предиктора, представляют отношения между этими остатками.

Упражнение

  1. Создайте несколько случайных данных для двух предикторов (x1, x2) и ответа (y).
  2. Регресс у на х2 и сохранить остатки.
  3. Регресс х1 на х2 и сохранить остатки.
  4. Регрессировать остатки этапа 2 (r1) на остатки этапа 3 (r2).

Коэффициент для шага 4 для r2 будет коэффициентом x1 для модели множественной регрессии с x1 и x2. Вы можете сделать то же самое для x2, разделив x1 на y и x2.

Вот код R для этого упражнения.

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

Вот соответствующие результаты и результаты.

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00*** 
Brett Magill
источник