Я посещаю занятия по анализу данных, и некоторые из моих укоренившихся идей потрясены. А именно, идея о том, что ошибка (эпсилон), как и любой другой вид дисперсии, применима только (как я думал) к группе (выборке или целому населению). Теперь нас учат, что одним из допущений регрессии является то, что дисперсия «одинакова для всех людей». Это как-то шокирует меня. Я всегда думал, что именно дисперсия Y по всем значениям X считается постоянной.
Я поговорил с профессором, который сказал мне, что когда мы делаем регрессию, мы предполагаем, что наша модель верна. И я думаю, что это сложная часть. Для меня термин «ошибка» (epsilon) всегда означал что-то вроде «каких-либо элементов, которые мы не знаем и которые могут повлиять на нашу переменную результата, плюс некоторая ошибка измерения». В том, как преподается класс, нет такой вещи, как «другие вещи»; наша модель считается верной и полной. Это означает, что все остаточные отклонения следует рассматривать как произведение ошибки измерения (таким образом, можно ожидать, что измерение отдельного человека в 20 раз приведет к той же дисперсии, что и измерение 20 человек за один раз).
Я чувствую, что где-то что-то не так, я хотел бы получить некоторое экспертное мнение по этому вопросу ... Есть ли место для интерпретации того, что такое термин ошибки, концептуально говоря?
источник
Ответы:
Если есть аспекты отдельных лиц, которые влияют на результирующие значения y, то либо есть какой-то способ достичь этих аспектов (в этом случае они должны быть частью предиктора x), либо нет никакого способа когда-либо достичь этого Информация.
Если нет никакой возможности получить эту информацию и нет возможности повторно измерить значения y для отдельных лиц, тогда это действительно не имеет значения. Если вы можете измерять y несколько раз, и если ваш набор данных фактически содержит повторные измерения для некоторых людей, то у вас есть потенциальная проблема, поскольку статистическая теория предполагает независимость от ошибок / остатков измерений.
Например, предположим, что вы пытаетесь подобрать модель формы
и что для каждого человека,
где z зависит от индивидуума и обычно распределяется со средним 0 и стандартным отклонением 10. Для каждого повторного измерения индивидуума,
Вы можете попытаться смоделировать это как
Пока у вас есть только одно измерение для каждого человека, это было бы хорошо. Однако, если у вас есть несколько измерений для одного человека, то ваши остатки больше не будут независимыми!
Например, если у вас есть один человек с z = 15 (1,5 стандартных отклонения, что не так уж и необоснованно), и сто повторных измерений этого человека, то используйтеβ0= 100 β1= 10 χ2
источник
Я думаю, что «ошибка» лучше всего описать как «часть наблюдений, которая непредсказуема, учитывая нашу текущую информацию». Попытка думать с точки зрения совокупности по сравнению с выборкой приводит к концептуальным проблемам (в любом случае, это хорошо для меня), так же как и к ошибкам, считающимся «чисто случайными» из некоторого распределения. мышление с точки зрения предсказания и «предсказуемости» имеет для меня гораздо больше смысла.
источник
Вот очень полезная ссылка для объяснения простой линейной регрессии: http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html может быть, это поможет понять концепцию «ошибки».
FD
источник
Я не согласен с формулировкой профессора об этом. Как вы говорите, идея о том, что дисперсия одинакова для каждого индивидуума, подразумевает, что термин ошибки представляет только ошибку измерения. Обычно это не так, как строится базовая модель множественной регрессии. Также, как вы говорите, дисперсия определяется для группы (будь то группа отдельных субъектов или группа измерений). Это не относится на индивидуальном уровне, если у вас нет повторных мер.
Модель должна быть полной, так как термин ошибки не должен содержать влияния каких-либо переменных, которые связаны с предикторами. Предполагается, что термин ошибки не зависит от предикторов. Если какая-либо коррелированная переменная опущена, вы получите смещенные коэффициенты (это называется опущенной переменной смещения ).
источник