В блоге Уильяма Бриггса есть довольно старая запись, в которой рассматриваются подводные камни сглаживания данных и передачи сглаженных данных в анализ. Ключевой аргумент, а именно:
Если в момент безумия вы сглаживаете данные временных рядов и используете их в качестве входных данных для других анализов, вы резко увеличиваете вероятность одурачить себя! Это потому, что сглаживание вызывает ложные сигналы - сигналы, которые выглядят реальными для других аналитических методов. Неважно, что вы будете слишком уверены в своих окончательных результатах!
Однако я изо всех сил пытаюсь найти исчерпывающие дискуссии о том, когда сглаживать, а когда нет.
Сглаживается ли это только при использовании этих сглаженных данных в качестве входных данных для другого анализа, или есть другие ситуации, когда сглаживание не рекомендуется? И наоборот, есть ли ситуации, когда рекомендуется сглаживание?
источник
Ответы:
Экспоненциальное сглаживание - это классическая методика, используемая в прогнозировании временных рядов без причинно-следственных связей. Пока вы используете его только в прямом прогнозировании и не используете сглаженные выборки в качестве входных данных для другого анализа данных или статистического алгоритма, критика Бриггса неприменима. (Соответственно, я скептически отношусь к тому, чтобы использовать его «для получения сглаженных данных для представления», как говорит Википедия - это вполне может ввести в заблуждение, скрывая сглаженную изменчивость.)
Вот введение в учебник по экспоненциальному сглаживанию.
И вот (10-летняя, но все еще актуальная) обзорная статья.
РЕДАКТИРОВАТЬ: кажется, есть некоторые сомнения в обоснованности критики Бриггса, возможно, несколько под влиянием его упаковки . Я полностью согласен, что тон Бриггса может быть абразивным. Тем не менее, я хотел бы проиллюстрировать, почему я думаю, что он имеет смысл.
Ниже я моделирую 10000 пар временных рядов по 100 наблюдений в каждой. Все серии - белый шум, без какой-либо корреляции. Таким образом, выполнение стандартного корреляционного теста должно дать значения p, которые равномерно распределены по [0,1]. Как это происходит (гистограмма слева внизу).
Однако предположим, что мы сначала сглаживаем каждую серию и применяем корреляционный тест к сглаженным данным. Появляется нечто удивительное: так как мы удалили много изменчивости из данных, мы получаем значения p, которые слишком малы . Наш корреляционный тест сильно смещен. Таким образом, мы будем слишком уверены в любой связи между оригинальными сериями, о которой говорит Бриггс.
Вопрос в действительности заключается в том, используем ли мы сглаженные данные для прогнозирования, и в этом случае сглаживание является действительным, или же мы включаем его в качестве входных данных в некоторый аналитический алгоритм, и в этом случае удаление изменчивости будет имитировать более высокую достоверность в наших данных, чем это оправдано. Эта необоснованная уверенность во входных данных переносится в конечные результаты и должна быть учтена, в противном случае все выводы будут слишком точными. (И, конечно, мы также получим слишком малые интервалы прогнозирования, если будем использовать модель, основанную на «завышенной достоверности» для прогнозирования.)
источник
Утверждение о том, что сглаживание не подходит для анализа моделирования, обрекает его на наличие более высокой среднеквадратичной ошибки, чем могло бы быть в противном случае. Среднеквадратичную ошибку или MSE можно разложить на три члена: квадрат значения, называемого «смещением», дисперсию и некоторую неустранимую ошибку. (Это показано в цитатах ниже.) Чрезмерно сглаженные модели имеют высокое смещение, даже если они имеют низкую дисперсию, а слишком грубые модели имеют высокую дисперсию и низкое смещение.
В этом нет ничего философского. Это математическая характеристика. Это не зависит от характера шума или характера системы.
Видеть:
http://scott.fortmann-roe.com/docs/BiasVariance.html
https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf
http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (Это происходит от разложения.)
http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Блей делает то же самое по-другому и вносит то, что происходит, когда кто-то пытается предсказать.)
Классическая статистика почти всегда настаивала на объективных оценках. В 1955 году статистик Чарльз Стейн из Стэнфорда показал, что существуют комбинации непредвзятых оценщиков, которые имеют более низкую MSE для важных особых случаев, в частности, так называемых оценщиков Джеймса-Штейна. Брэдли Эфрон написал очень доступный текст об этой революции в прозрении: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf
источник