В статистической литературе имеется много ссылок на « функциональные данные » (то есть данные, которые являются кривыми), и параллельно, на « высокоразмерные данные » (то есть, когда данные являются векторами с высокой размерностью). Мой вопрос о разнице между этими двумя типами данных.
Говоря о прикладных статистических методологиях, которые применяются в случае 1, можно понимать как перефразирование методологий из случая 2 через проекцию в конечномерное подпространство пространства функций, это могут быть полиномы, сплайны, вейвлет, Фурье, ... и переведет функциональную задачу в конечномерную векторную задачу (поскольку в прикладной математике все в некоторой точке становится конечным).
Мой вопрос: можем ли мы сказать, что любая статистическая процедура, которая применяется к функциональным данным, может также применяться (почти напрямую) к данным больших измерений и что любая процедура, предназначенная для данных больших размеров, может (почти напрямую) применяться к функциональным данным?
Если ответ «нет», можете ли вы проиллюстрировать это?
РЕДАКТИРОВАТЬ / ОБНОВИТЬ с помощью ответа Саймона Бирна:
- разреженность (S-разреженное предположение, ball и слабый l p ball при p < 1 ) используется в качестве структурного допущения в статистическом анализе высокой размерности.
- «Гладкость» используется в качестве структурного допущения при анализе функциональных данных.
С другой стороны, обратное преобразование Фурье и обратное вейвлет-преобразование преобразуют разреженность в гладкость, а гладкость преобразуется в разреженность посредством вейвлет-преобразования и преобразования Фурье. Это делает критическую разницу, упомянутую Саймоном, не такой критичной?
источник
Ответы:
Функциональные данные часто связаны с другим вопросом. Я читал «Функциональный анализ данных», Рамси и Сильверман, и они много раз обсуждали регистрацию кривых, функции деформации и оценку производных кривых. Это, как правило, очень разные вопросы, чем те, которые задают люди, заинтересованные в изучении многомерных данных.
источник
Да и нет. На теоретическом уровне в обоих случаях могут использоваться одинаковые методы и схемы (отличным примером является регрессия гауссовского процесса).
Критическим отличием являются предположения, используемые для предотвращения переоснащения (регуляризации):
В функциональном случае обычно существует некоторое предположение о гладкости, иными словами, значения, встречающиеся близко друг к другу, должны быть похожими в некотором систематическом смысле. Это приводит к использованию таких методов, как сплайны, лессы, гауссовские процессы и т. Д.
В случае больших измерений обычно существует предположение о разреженности: то есть только подмножество измерений будет иметь какой-либо сигнал. Это приводит к методам, нацеленным на идентификацию этих измерений (лассо, LARS, априорные пластины и т.д.)
ОБНОВИТЬ:
Я на самом деле не думал о методах вейвлета / Фурье, но да, методы пороговых значений, используемые для таких методов, нацелены на разреженность в проецируемом пространстве. И наоборот, некоторые многомерные методы предполагают проекцию на низкоразмерное многообразие (например, анализ главных компонент), что является типом предположения о гладкости.
источник