почему, когда у нас есть ненормально распределенные ошибки, достоверность наших утверждений о значимости ставится под угрозу? Почему доверительные интервалы будут слишком широкими или узкими?
Доверительные интервалы основаны на том, как числитель и знаменатель распределены в t-статистике.
При нормальных данных числитель t-статистики имеет нормальное распределение, а распределение квадрата знаменателя (которое тогда является дисперсией) является определенным кратным распределения хи-квадрат. Когда числитель и знаменатель также независимы (как это будет иметь место только с обычными данными, учитывая, что сами наблюдения являются независимыми), вся статистика имеет t-распределение.
β^- βsβ^βT
Если бы данные были из какого-то другого распределения, статистика не имела бы t-распределения. Например, если бы это был тяжелый хвост, то распределение t было бы немного более легким (отдаленные наблюдения влияют на знаменатель больше, чем на числитель). Вот пример. В обоих случаях гистограмма рассчитана на 10 000 регрессий:
β= 0( - 2 , 2 )
Т-интервал 95% (который должен включать 95% уклонов в нашей выборке) составляет от -2,048 до 2,048. Для нормальных данных он фактически включал 95,15% от 10000 выборочных уклонов. Для искаженных данных это включает 99,91%.