Что подразумевается под дисперсией * функций * в * Введение в статистическое обучение *?

11

На стр. 34 введения в статистическое обучение :

Хотя математическое доказательство выходит за рамки данной книги, можно показать , что ожидаемый тест MSE для заданного значения x0 , всегда можно разложить на сумму три основных величин: дисперсия в f^(x0) , квадрат смещения из f^(x0) и дисперсия членов ошибки ε . Это,

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)

[...] Отклонение относится к величине, на которую f^ изменится, если мы оценим ее, используя другой набор обучающих данных.

Вопрос: Поскольку Var(f^(x0)) видимому, обозначает дисперсию функций , что это означает формально?

То есть я знаком с понятием дисперсии случайной величины X , но как насчет дисперсии набора функций? Можно ли это рассматривать как просто дисперсию другой случайной величины, значения которой принимают форму функций?

Джордж
источник
6
Учитывая, что каждый раз, когда появляется в формуле, он применяется к «заданному значению» , дисперсия применяется к числу , а не к самому . Поскольку это число предположительно было получено из данных, которые моделируются случайными величинами, оно также является (действительной) случайной величиной. Применяется обычная концепция дисперсии. f^x0 f^(x0)f^
whuber
2
Понимаю. Таким образом, меняется (варьируется в зависимости от разных наборов обучающих данных), но мы все еще смотрим на дисперсию самих . f^f^(x0)
Джордж
Кто автор этого учебника? Я давно хотел изучить предмет самостоятельно и был бы очень признателен за ваши рекомендации.
Chill2Macht
3
@WilliamKrinsman Это книга: www-bcf.usc.edu/~gareth/ISL
Мэтью Друри,

Ответы:

13

Ваша переписка с @whuber верна.

Алгоритм обучения можно рассматривать как функцию более высокого уровня, отображающую обучающие наборы в функции.A

A:T{ff:XR}

где - пространство возможных обучающих наборов. С концептуальной точки зрения это может быть немного сложным, но в основном каждый отдельный обучающий набор приводит, после использования алгоритма модельного обучения, к особой функции которая может использоваться для прогнозирования с учетом точки данных .Tfx

Если мы рассматриваем пространство обучающих наборов как пространство вероятностей, так что имеется некоторое распределение возможных обучающих наборов данных, то алгоритм обучения модели становится случайной величиной с функцией и мы можем думать о статистических понятиях. В частности, если мы фиксируем конкретную точку данных , то получаем случайную переменную с числовым значениемx0

Ax0(T)=A(T)(x0)

Т.е. сначала обучаем алгоритм на , а затем оцениваем полученную модель в . Это просто старая, но оригинально сконструированная случайная величина в пространстве вероятностей, поэтому мы можем говорить о ее дисперсии. Это отклонение в вашей формуле от ISL.Tx0

Мэтью Друри
источник
5

Визуальная интерпретация с использованием повторяющихся kfolds

Чтобы дать визуальную / интуитивную интерпретацию ответа @Matthew Drury, рассмотрим следующий игрушечный пример.

  • Данные генерируются по шумовой синусоиде: «Истинный noise»f(x) +
  • Данные разбиты на обучающие и тестируемые образцы (75% - 25%).
  • Линейная (полиномиальная) модель подгоняется под тренировочные данные:f^(x)
  • Процесс повторяется много раз с использованием одних и тех же данных (т. Е. Обучение с разделением - случайное тестирование с использованием Sklearm, повторенного kfold)
  • Это порождает много разных моделей, из которых мы вычисляем среднее значение и дисперсию в каждой точке а также по всем точкам.x=xi

Ниже приведены полученные графики для полиномиальной модели степени 2 и степени 6. На первый взгляд кажется, что верхний полином (в красном) имеет большую дисперсию.

введите описание изображения здесь

Утверждая, что красный график имеет большую дисперсию - экспериментально

Пусть и соответствуют зеленому и красному графикам соответственно, а - один экземпляр графиков, светло-зеленого и светло-красного цвета. Пусть будет количеством точек вдоль оси а будет количеством графиков (т.е. количеством симуляций). Здесь мы имеем иf^gf^rf^(i)nxmn=400m=200

Я вижу три основных сценария

  1. Дисперсия прогнозируемых значений в одной конкретной точке больше, т.е.x=x0Var [{f^r(1)(x0),...,f^r(m)(x0)}]>Var [{f^g(1)(x0),...,f^g(i)(x0)}]
  2. Дисперсия в больше для всех точек в диапазоне (1) {x1,...,x400}(0,1)
  3. Дисперсия в среднем больше (т.е. может быть меньше для некоторых точек)

В случае этого игрушечного примера все три сценария выполняются в диапазоне что оправдывает аргумент, что полиномиальное соответствие более высокого порядка (красным) имеет более высокую дисперсию, чем многочлен более низкого порядка (зеленым).(0,1)

Открытое заключение

О чем следует спорить, когда вышеупомянутые три сценария не все имеют место. Например, что если дисперсия красных прогнозов в среднем больше, но не для всех точек.

Детали этикеток

Рассмотрим точкуx0=0.5

  • Панель ошибок - это диапазон между минимальным и максимальным значениемf^(x0)
  • Дисперсия вычисляется вx0
  • True - пунктирная синяя линияf(x)
Ксавье Бурре Сикотт
источник
Мне нравится эта идея иллюстрировать концепцию с помощью картинок. Однако мне интересно узнать о двух аспектах вашего поста и надеюсь, что вы сможете решить их. Во-первых, не могли бы вы более подробно объяснить, как эти графики показывают «дисперсию функции»? Во-вторых, совсем не ясно, что красный график демонстрирует «большую дисперсию» или что эти два графика поддаются такому упрощенному сравнению. Например, рассмотрите вертикальный разброс значений красного выше и сравните его с разбросом зеленых значений в одной и той же точке: красные выглядят немного менее спредными, чем зеленые. x=0.95,
whuber
Моя точка зрения не в том, возможно ли читать ваши графики с высокой точностью: дело в том, что смысл сравнения двух таких графиков, как если бы один из них можно было считать «более высокой» или «более низкой» дисперсией, чем другой, сомнителен, учитывая возможность того, что для В некоторых диапазонах дисперсии прогнозов будут выше на одном графике, а для других диапазонов дисперсии будут ниже. xx
whuber
Да, я согласен - я отредактировал пост, чтобы отразить ваши комментарии
Ксавье Бурре Сикотт