Выбор байесовской переменной - действительно ли это работает?

14

Я подумал, что могу поиграть с некоторыми байесовскими переменными, после хорошего поста в блоге и связанных с ним статей. Я написал программу на rjags (где я довольно новичок) и получил данные о ценах на Exxon Mobil, а также некоторые вещи, которые вряд ли могут объяснить его доходность (например, цены на палладий), и другие вещи, которые должны быть сильно коррелированы (например, SP500). ).

Работая lm(), мы видим, что есть убедительные доказательства сверхпараметрической модели, но палладий определенно следует исключить:

Call:
lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + 
    EnergyStks, data = chkr)

Residuals:
       Min         1Q     Median         3Q        Max 
-1.663e-03 -4.419e-04  3.099e-05  3.991e-04  1.677e-03 

Coefficients:
           Estimate Std. Error t value Pr(>|t|)    
SP          0.51913    0.19772   2.626 0.010588 *  
Palladium   0.01620    0.03744   0.433 0.666469    
Russell    -0.34577    0.09946  -3.476 0.000871 ***
OilETF     -0.17327    0.08285  -2.091 0.040082 *  
EnergyStks  0.79219    0.11418   6.938 1.53e-09 ***

После преобразования в результаты я попытался запустить простую модель, подобную этой

  model {
    for (i in 1:n) {
      mean[i]<-inprod(X[i,],beta)
      y[i]~dnorm(mean[i],tau)
    }
    for (j in 1:p) {
      indicator[j]~dbern(probindicator)
      betaifincluded[j]~dnorm(0,taubeta)
      beta[j] <- indicator[j]*betaifincluded[j]
    }
    tau~dgamma(1,0.01)
    taubeta~dgamma(1,0.01)
    probindicator~dbeta(2,8)
  }

но я обнаружил, что в значительной степени независимо от параметров выбранных гамма-распределений я получил довольно бессмысленные ответы, такие как постоянная вероятность включения 20% для каждой переменной.

Я также получил крошечные, крошечные коэффициенты регрессии, которые я готов терпеть, так как это должна быть модель выбора, но это все еще казалось странным.

                              Mean        SD  Naive SE Time-series SE
SP         beta[1]       -4.484e-03   0.10999  0.003478       0.007273
Palladium  beta[2]        1.422e-02   0.16646  0.005264       0.011106
Russell    beta[3]       -2.406e-03   0.08440  0.002669       0.003236
OilETF     beta[4]       -4.539e-03   0.14706  0.004651       0.005430
EnergyStks beta[5]       -1.106e-03   0.07907  0.002500       0.002647
SP         indicator[1]   1.980e-01   0.39869  0.012608       0.014786
Palladium  indicator[2]   1.960e-01   0.39717  0.012560       0.014550
Russell    indicator[3]   1.830e-01   0.38686  0.012234       0.013398
OilETF     indicator[4]   1.930e-01   0.39485  0.012486       0.013229
EnergyStks indicator[5]   2.070e-01   0.40536  0.012819       0.014505
           probindicator  1.952e-01   0.11981  0.003789       0.005625
           tau            3.845e+03 632.18562 19.991465      19.991465
           taubeta        1.119e+02 107.34143  3.394434       7.926577

Действительно ли байесовский выбор переменных настолько плох / чувствителен? Или я делаю какую-то явную ошибку?

Брайан Б
источник
5
Простите мое невежество; но каковы были доказательства переоснащения, на которое вы ссылаетесь?
curious_cat
Вы должны объяснить, какие переменные какие во втором выводе. Я использовал байесовский отбор переменных для множества проблем, и в ряде ситуаций (включая регрессию) он обычно работает достаточно хорошо. Но ваши результаты - особенно оценки - выглядят странно для меня.
Glen_b
@curious_cat Доказательством переоснащения является, например, отрицательный коэффициент между Exxon (нефтяная компания) и ценой на нефть. Это происходит потому, что я сознательно сделал эту модель жертвой мультиколлинеарности . (Возможно, «переоснащение» - это неправильное слово, чтобы описать его - я полагаю, что более точный параметр более точен).
Брайан Б
@BrianB Этот коэффициент станет положительным, если вы отбросите все объясняющие переменные, кроме нефти? Просто любопытно.
curious_cat
@curious_cat Да, конечно (примерно 0,7). Это классический случай мультиколлинеарности (еще одно уродливое слово).
Брайан Б

Ответы:

3

В коде ошибок, mean[i]<-inprod(X[i,],beta)должно быть mean[i]<-inprod(X[i,],beta[]).

Ваши приоры по тау и таубе слишком информативны.

Вам нужно неинформативное до бета-включения, используйте, например, gamma(0.1,0.1)на таубета. Это может объяснить, почему вы получаете крошечные коэффициенты регрессии.

Криспин
источник
Спасибо, что отметили это. К сожалению, это не улучшило ситуацию.
Брайан Б.
2

Это работает, но вы дали всем переменным индикаторам включения одинаковое базовое распределение.

  model {
    for (i in 1:n) {
      mean[i]<-inprod(X[i,],beta)
      y[i]~dnorm(mean[i],tau)
    }
    for (j in 1:p) {
      indicator[j]~dbern(probindicator[j])
      probindicator[j]~dbeta(2,8)
      betaifincluded[j]~dnorm(0,taubeta)
      beta[j] <- indicator[j]*betaifincluded[j]
    }
    tau~dgamma(1,0.01)
    taubeta~dgamma(1,0.01)

  }

может работать лучше с ограниченным числом переменных.

Erik
источник
Попытка этого рецепта работала не лучше, по крайней мере, на 10000 образцов.
Брайан Б.
2

Если вы использовали возврат журналов, вы допустили небольшую ошибку смещения, но если вы использовали будущее значение, деленное на текущее значение, то ваша вероятность неверна. На самом деле, ваша вероятность неверна в любом случае. Это достаточно неправильно, чтобы иметь значение.

Учтите, что статистика - это любая функция данных. Возвращает не данные, а преобразования данных. Это будущая стоимость, деленная на текущую стоимость. Цены являются данными. Цены должны иметь функцию распределения, но функция распределения для возвратов должна зависеть исключительно от характера цен.

пTпT+1

пT+1пT-1.

1πσσ2+(Y-β1Икс1-β2Икс2-βNИксN-α)2,

OLS обеспечивает наилучшее соответствие наблюдаемым данным, даже если это неправильное решение. Байесовские методы пытаются найти функцию генерирования данных по вероятности. Вы ошиблись вероятностью, поэтому не смогли ее найти.

У меня есть бумага по этому вопросу, если вам нужна дополнительная информация.

РЕДАКТИРОВАТЬ Я думаю, что вы не поняли. Если вы преобразуете вероятность в функцию плотности и возьмете ожидание, вы обнаружите, что оно не имеет ничего. Доказательством Августина Коши в 1852 или, может быть, 1851 года, любая форма решения методом наименьших квадратов является совершенно неточной. Это всегда будет неудачей. Дело не в том, что вы должны использовать стандартную регрессию, потому что байесовский метод чувствителен к вероятности, а в том, что байесовский метод является единственным доступным решением, которое допустимо, за некоторыми исключениями для некоторых необычных особых случаев.

Выполняя эмпирическое тестирование по этому вопросу, и до того, как я прочитал достаточно математики, я наивно думал, что байесовское и частотное решения должны совпадать. Примерно существует теорема, которая гласит, что по мере того, как выборка становится достаточно большой, они будут сходиться. Я использовал все сделки на конец дня во вселенной CRSP с 1925 по 2013 годы, чтобы проверить это. Это не то, что говорится в теореме. Я неправильно понял правила.

Я также пробовал проблему в журналах, и она все еще не совпадает. Итак, я что-то понял, все распределения являются формами, и поэтому я построил геометрическое решение, чтобы определить, какое решение было правильным. Я рассматривал это как чисто геометрическую задачу, чтобы определить, какой алгебраический ответ соответствует данным.

Байесовский совпадает. Это привело меня к очень математическому пути, потому что я не мог понять, почему непредвзятая оценка была настолько неправильной. Для справки: используя дезагрегированные доходы за период 1925-2013 гг. И исключив подставные компании, закрытые фонды и т. Д., Расхождение между центром размещения составляет 2%, а показатель риска занижен на 4% для годовых доходов. , Это несоответствие имеет место при преобразовании журнала, но по другой причине. Может быть различным для отдельных индексов или подмножеств данных.

Причина расхождения двоякая. Во-первых, в распределениях отсутствует достаточная статистика. Для определенных типов проблем это не имеет значения. Однако для проективных целей, таких как прогнозирование или распределение, они имеют большое значение. Вторая причина заключается в том, что непредвзятая оценка всегда является версией среднего значения, но распределение не имеет значения.

Приведенная выше плотность не является членом экспоненциального семейства, как нормальное или гамма-распределение. По теореме Питмана – Купмана – Дармуа для параметров не существует достаточной точечной статистики. Это подразумевает, что любая попытка создать точечную оценку должна отбрасывать информацию. Это не проблема для байесовских решений, потому что апостериор представляет собой целую плотность, и если вам нужна точная оценка, вы можете найти прогнозную плотность и минимизировать функцию стоимости над ней, чтобы уменьшить ее до единой точки. Байесовская вероятность всегда минимально достаточна.

Минимальная дисперсия несмещенной оценки для вышеупомянутой функции должна сохранять центральные 24,6% данных, находить их усеченное среднее и отбрасывать оставшиеся данные. Это означает, что более 75% данных удаляются, а информация теряется. Просто примечание, это может быть 24,8%, так как я работаю по памяти. Вы можете найти статью Ротенберга по адресу:

Ротенберг, TJ и FM Фишер, и CB Tilanus, записка об оценке по выборке Коши, журнал Американской статистической ассоциации, 1964, том 59 (306), с. 460-463

Второй выпуск меня удивил. Пока я не проработал геометрию, я не понимал, в чем причина. Возврат привязан снизу на уровне -100%. Это смещает медиану на 2%, а межквартильный диапазон смещается на 4%, хотя полумасса остается в тех же точках. Полумаса - это правильная мера масштаба, а полуширина - нет. Если бы не было усечения, то полуширина и полумасса были бы в одинаковых точках. Точно так же медиана и мода останутся в одной точке. Медиана - это доход для среднего актера или, по крайней мере, средняя сделка. Таким образом, это всегда местоположение MVUE и среднее значение журнала.

Правильное понимание теоремы состоит в том, что все байесовские оценки являются допустимыми оценками. Оценки частых являются допустимыми оценками, если выполняется одно из двух условий. Первое состоит в том, что в каждом образце частотное и байесовское решения идентичны. Во-вторых, если предельное решение метода Байеса соответствует решению Frequentist, то решение Frequentist является допустимым.

Все допустимые оценки сходятся к одному решению, если размер выборки достаточно велик. Оценщик Frequentist предполагает, что его модель является истинной моделью, а данные случайными. Байесовский предполагает, что данные верны, но модель случайная. Если у вас было бесконечное количество данных, то субъективная модель должна сходиться к реальности. Если у вас было бесконечное количество данных, но неправильная модель, то модель Frequentist будет сходиться к реальности с вероятностью ноль.

В этом случае байесовское решение при разумных априорах всегда будет стохастически доминировать над любой оценщиком Frequentist из-за усечения и потери информации для создания оценщика.

В логах функция правдоподобия является гиперболическим секущим распределением. У него конечная дисперсия, но нет ковариации. Ковариационная матрица, найденная с использованием OLS, является артефактом данных и не указывает на параметр, который существует в базовых данных. Как и в необработанной форме, ничто в логарифмической форме не является коварией, но и ничто не является независимым. Вместо этого существуют гораздо более сложные отношения, которые нарушают определение ковариации, но в которых они могут сочетаться.

Марковиц и Усман почти нашли его в своей работе над распределениями, но гиперболическое распределение секущих не относится к семейству Пирсонов, и они неверно истолковали данные, не заметив, что при изменении распределения с необработанных данных на данные журнала вы также меняете его статистические свойства , Они в основном узнали это, но пропустили, потому что у них не было причин искать это, и они не осознавали непреднамеренных последствий использования журналов.

У меня нет Марковица и Усмана, где я нахожусь, но они проделали одну из немногих очень хороших работ по оценке распределения, которое там есть.

В любом случае я не использую JAGS. Я понятия не имею, как это сделать. Я кодирую всю свою работу MCMC вручную.

У меня есть более полная и точная статья по этой теме:

Harris, DE (2017) Распределение доходов. Журнал математических финансов, 7, 769-804.

Он предоставит вам метод построения распределений для любого актива или класса ответственности, а также учетные коэффициенты.

Я был многословен, но я мог видеть, что вы неправильно понимаете связь между методами Байеса и Пирсона-Неймана. Вы их перевернули. Байес всегда работает, но вы попали в ловушку с прежней плотностью, которая нарушит ваше решение. При надлежащем предварительном прогнозе вам гарантирована предвзятая оценка, и для этого типа функции правдоподобия я считаю, что вы должны использовать надлежащий предварительный расчет, чтобы гарантировать интегрируемость в единое целое. Частые методы быстры и обычно работают. Они беспристрастны, но могут быть недействительными.

Дейв Харрис
источник
Разница между логарифмами и возвратами цены на дневном уровне составляет около 1 части на 500 (я взял за базовый доход 50 базисных пунктов). Стоит также отметить, что ежедневные доходы, измеренные в любом случае, довольно далеки от нормального распределения (независимо от экономических теорий, наоборот). В любом случае, если алгоритм чувствителен к этим проблемам, он бесполезен для практических целей. Я хотел бы знать, как функция вероятности, которую вы цитируете, соответствует коду JAGS - можете ли вы уточнить?
Брайан Б
@BrianB Я отредактировал ответ. Вы делаете ошибку, думая, что я сделал. Мне понадобилось вечно, чтобы понять, почему я был неправ.
Дейв Харрис