На стр. 34 введения в статистическое обучение :
Хотя математическое доказательство выходит за рамки данной книги, можно показать , что ожидаемый тест MSE для заданного значения , всегда можно разложить на сумму три основных величин: дисперсия в , квадрат смещения из и дисперсия членов ошибки . Это,
[...] Отклонение относится к величине, на которую изменится, если мы оценим ее, используя другой набор обучающих данных.
Вопрос: Поскольку видимому, обозначает дисперсию функций , что это означает формально?
То есть я знаком с понятием дисперсии случайной величины , но как насчет дисперсии набора функций? Можно ли это рассматривать как просто дисперсию другой случайной величины, значения которой принимают форму функций?
machine-learning
variance
Джордж
источник
источник
Ответы:
Ваша переписка с @whuber верна.
Алгоритм обучения можно рассматривать как функцию более высокого уровня, отображающую обучающие наборы в функции.A
где - пространство возможных обучающих наборов. С концептуальной точки зрения это может быть немного сложным, но в основном каждый отдельный обучающий набор приводит, после использования алгоритма модельного обучения, к особой функции которая может использоваться для прогнозирования с учетом точки данных .T f x
Если мы рассматриваем пространство обучающих наборов как пространство вероятностей, так что имеется некоторое распределение возможных обучающих наборов данных, то алгоритм обучения модели становится случайной величиной с функцией и мы можем думать о статистических понятиях. В частности, если мы фиксируем конкретную точку данных , то получаем случайную переменную с числовым значениемx0
Т.е. сначала обучаем алгоритм на , а затем оцениваем полученную модель в . Это просто старая, но оригинально сконструированная случайная величина в пространстве вероятностей, поэтому мы можем говорить о ее дисперсии. Это отклонение в вашей формуле от ISL.T x0
источник
Визуальная интерпретация с использованием повторяющихся kfolds
Чтобы дать визуальную / интуитивную интерпретацию ответа @Matthew Drury, рассмотрим следующий игрушечный пример.
Ниже приведены полученные графики для полиномиальной модели степени 2 и степени 6. На первый взгляд кажется, что верхний полином (в красном) имеет большую дисперсию.
Утверждая, что красный график имеет большую дисперсию - экспериментально
Пусть и соответствуют зеленому и красному графикам соответственно, а - один экземпляр графиков, светло-зеленого и светло-красного цвета. Пусть будет количеством точек вдоль оси а будет количеством графиков (т.е. количеством симуляций). Здесь мы имеем иf^g f^r f^(i) n x m n=400 m=200
Я вижу три основных сценария
В случае этого игрушечного примера все три сценария выполняются в диапазоне что оправдывает аргумент, что полиномиальное соответствие более высокого порядка (красным) имеет более высокую дисперсию, чем многочлен более низкого порядка (зеленым).(0,1)
Открытое заключение
О чем следует спорить, когда вышеупомянутые три сценария не все имеют место. Например, что если дисперсия красных прогнозов в среднем больше, но не для всех точек.
Детали этикеток
Рассмотрим точкуx0=0.5
источник