Почему важны дистрибутивы?

Это может также пойти вниз, как самые глупые вопросы, когда-либо задаваемые на этом форуме, но, получив здравые и содержательные ответы на предыдущий вопрос, я подумал, что снова протяну свою удачу.

В течение некоторого времени я был очень озадачен важностью статистического распределения, особенно в части, касающейся доходности активов и, более конкретно, распределения активов.

Мой конкретный вопрос заключается в следующем: предположим, у меня есть 20-летние данные о ежемесячной доходности S & P 500, почему я должен предполагать определенный тип распределения (т. Е. Нормальный / полет Джонсона / Леви и т. Д.) Для моего решения о распределении активов, когда я могу просто просто принять решение о распределении активов на основе исторических данных, которые у меня есть?

distributions родословная
источник

помните, что если вы нашли ответы на свой предыдущий вопрос полезными, вы можете пометить их как «принятые», установив флажок рядом с ответом. это позволяет другим знать, что ваш вопрос решен.

Джефф

На самом деле есть недавний пост от JDCook на эту тему. Чтобы подчеркнуть его актуальность для вашего вопроса, я процитирую из первого параграфа «Когда статистики анализируют данные, они не просто смотрят на данные, которые вы им приносите. Они также рассматривают гипотетические данные, которые вы могли бы принести. Другими словами они считают, что могло произойти, а также то, что на самом деле произошло ".

user603

Я считаю, что Талеб мог что-то убедительно сказать о проблемах с принятием решений исключительно на основе исторических данных :-). (Исторические данные обычно напрямую не раскрывают редкие, но, возможно, фатальные события «черного лебедя», пока не стало слишком поздно.)

whuber

... как большинство индюков придет к пониманию через пару недель.

Ryogi

Чтобы расширить точку зрения @ user603 - вы хотите сделать выводы за пределами вашего образца. В частности, точка распределения активов относится к поведению в будущем , а не к поведению в прошлом. Это включает, например, как вещи ведут себя в хвосте, где у вас мало наблюдений. Вы можете внести дополнительные знания / понимание / предубеждения о процессе с помощью предположений о распределении. Если эти предположения находятся где-то близко к праву, вы можете добавить много информации.

Glen_b

Ответы:

Использование предполагаемого распределения (т. Е. Параметрический анализ) уменьшит вычислительные затраты вашего метода. Я предполагаю, что вы хотели бы выполнить задачу регрессии или классификации. Это означает, что в какой-то момент вы собираетесь оценить распределение некоторых данных. Непараметрические методы полезны, когда данные не соответствуют хорошо изученному распределению, но для их вычисления обычно требуется больше времени или больше памяти.

Кроме того, если данные генерируются процессом, который соответствует распределению, так как они являются средним числом некоторых равномерно случайных процессов, то использование этого распределения имеет больше смысла. В случае усреднения набора равномерной переменной правильным распределением, вероятно, является распределение Гаусса.

Джеймс
источник

Дополнение ответа Джеймса : параметрические модели также (обычно) требуют меньшего количества выборок, чтобы иметь хорошую подгонку: это может увеличить их мощность обобщения: то есть, они могут лучше предсказывать новые данные, даже будучи ошибочными. Конечно, это зависит от ситуации, моделей и размеров выборки.

безумие
источник