Я хотел бы классифицировать точки данных как нуждающиеся в более сложной модели или не требующие более сложной модели. Мое текущее мышление состоит в том, чтобы подогнать все данные к простой линейной модели и наблюдать размер остатков, чтобы сделать эту классификацию. Затем я немного прочитал о влиянии смещения и дисперсии на ошибку и понял, что, если бы я мог рассчитать смещение напрямую, это могло бы быть лучшей мерой, чем работа с общей ошибкой (невязкой или стандартизированной невязкой).
Можно ли оценить смещение напрямую с помощью линейной модели? С или без тестовых данных? Поможет ли здесь перекрестная проверка?
Если нет, то можно ли использовать усредненный начальный ансамбль линейных моделей (я думаю, это называется бэггинг) для приблизительного смещения?
Ответы:
Как правило, вы не можете разложить ошибки (остатки) на компоненты смещения и дисперсии. Простая причина в том, что вы обычно не знаете истинную функцию. Вспомните, что и что - это неизвестная вещь, которую вы хотите оценить.F ( х )bias(f^(x))=E[f^(x)−f(x)], f(x)
Как насчет начальной загрузки? Можно оценить смещение оценки с помощью начальной загрузки, но речь идет не о моделях с мешками, и я не верю, что есть способ использовать начальную загрузку для оценки смещения в потому что начальной загрузки все еще нет. основанный на некотором понятии Истины, и не может, несмотря на происхождение ее имени, создать что-то из ничего.f^(x),
Для уточнения: начальная оценка смещения в оценщике равна ^ Ь I с B= θ *(⋅) - θ ,θ^
с является средним вашей статистики , вычисленной на бутстраповских выборок . Этот процесс эмулирует процесс выборки из некоторого населения и вычисления вашего количества интереса. Это работает только в том случае, если в принципе можно рассчитать непосредственно из населения. Начальная оценка смещения оценивает, является ли смещение оценкой плагина - то есть, просто делает то же самое вычисление для выборки, а не для совокупности.B θθ^∗(⋅) B θ^
Если вы просто хотите использовать свои остатки для оценки соответствия модели, это вполне возможно. Если вы, как вы говорите в комментариях, хотите сравнить вложенные модели и f 2 ( x ) = 3 x 1 + 2 x 2 + x 1 x 2 , вы можете выполнить ANOVA для проверки значительно ли большая модель уменьшает сумму квадратов ошибок.f1(x)=3x1+2x2 f2(x)=3x1+2x2+x1x2
источник
Одна из ситуаций, в которой вы можете получить оценку разложения, - это если у вас есть реплицированные точки (т.е. иметь более одного ответа для различных комбинаций предикторов).
Это в основном ограничивается ситуациями, когда у вас есть контроль над независимыми переменными (например, в экспериментах) или когда все они дискретны (когда не слишком много x-комбинаций, и вы можете взять достаточно большую выборку, чтобы комбинации x-значения получить несколько баллов).
Реплицированные точки дают вам безмодельный способ оценки условного среднего. В таких ситуациях существует возможность разложения остаточной суммы квадратов на чистую ошибку и отсутствие подгонки , но у вас также есть прямые (хотя и обязательно шумные) оценки смещения для каждой комбинации значений x, для которых у вас есть несколько ответов.
источник
В несколько более сложной области фильтрации Калмана иногда люди проверяют невязки (наблюдаемые измерения минус прогнозируемые измерения), чтобы найти изменения модели или условия неисправности. Теоретически, если модель идеальна, а шум гауссовский, то остатки также должны быть гауссовыми с нулевым средним и соответствовать согласованной ковариационной матрице. Люди могут проверять ненулевое среднее с помощью последовательных тестов, таких как тест на коэффициент вероятности (SPRT). Ваша ситуация отличается, потому что у вас есть фиксированный пакет данных, а не постоянный поток новых данных. Но основная идея рассмотрения выборочного распределения остатков может все еще применяться.
Вы указываете, что процесс, который вы моделируете, может время от времени меняться. Затем, чтобы сделать больше с имеющимися у вас данными, вам, вероятно, потребуется определить другие факторы, вызывающие это изменение. Рассмотрим 2 варианта: (1) может быть, вам нужны локальные модели, а не одна глобальная модель, например, потому что существуют серьезные нелинейности только в некоторых регионах деятельности, или (2), возможно, процесс изменяется со временем.
Если это физическая система, и ваши выборки не взяты за большие промежутки времени, возможно, что эти изменения процесса сохраняются в течение значительных периодов времени. То есть истинные параметры модели могут время от времени изменяться и сохраняться в течение некоторого периода времени. Если ваши данные помечены временем, вы можете посмотреть на остатки во времени. Например, предположим, что вы подобрали y = Ax + b, используя все свои данные, найдя A и b. Затем вернитесь и проверьте остаточную последовательность r [k] = y [k] - Ax [k] - b, где k - это индекс, соответствующий временам в последовательном порядке. Ищите паттерны с течением времени, например, периоды, когда итоговая статистика, как || r [k] || остается выше нормы в течение некоторого времени. Последовательные тесты были бы наиболее чувствительны к обнаружению ошибок систематического смещения, например, SPRT или даже CUSUM для отдельных векторных индексов.
источник
Ответ отрицательный , потому что смещение и дисперсия являются атрибутами параметров модели, а не данными, используемыми для их оценки. В этом утверждении есть частичное исключение, которое относится к смещению и изменчивости (ха!) В пространстве предикторов; Подробнее об этом ниже. Обратите внимание, что это не имеет абсолютно никакого отношения к знанию некоторой «истинной» функции, связывающей предикторы и переменные ответа.
Существуют соответствующие способы связывания смещения и дисперсии с самими данными, но они немного сложнее. Как вы можете видеть, смещение и дисперсию можно оценить для линейных моделей, но вам потребуется совсем немного данных. Более коварная проблема заключается в том, что, как только вы начнете работать с фиксированным набором данных, ваши анализы будут загрязнены вашей личной дисперсией, поскольку вы уже начали блуждать по саду разветвленных путей, и нет способа узнать, как это происходит. будет воспроизводиться вне выборки (если только вы не придумали единственную модель, не выполнили этот анализ и не решили оставить его в покое после этого).
источник