Следующий отрывок взят из интервью Швагера «Рынок хедж-фондов Wizzards» (май 2012 года) с постоянно успешным менеджером хедж-фонда Джаффреем Вудриффом:
На вопрос: «Каковы некоторые из худших ошибок, которые люди допускают при извлечении данных?»:
Многие люди думают, что они в порядке, потому что они используют данные в выборке для обучения и данные вне выборки для тестирования. Затем они сортируют модели в зависимости от того, как они работали с данными выборки, и выбирают лучшие из них для тестирования данных вне выборки. Человеческая тенденция состоит в том, чтобы брать модели, которые продолжают преуспевать в данных выборки, и выбирать эти модели для торговли. Этот тип процесса просто превращает данные вне выборки в часть обучающих данных, потому что он выбирает модели, которые лучше всего работали в период вне выборки. Это одна из самых распространенных ошибок, которые делают люди, и одна из причин, по которым интеллектуальный анализ данных при его применении дает ужасные результаты.
Интервьюер потом спрашивает: «Что вы должны делать вместо этого?»:
Вы можете искать модели, в которых все модели вне выборки продолжают работать хорошо. Вы знаете, что у вас все хорошо, если среднее значение для моделей вне выборки составляет значительный процент от оценки в выборке. Вообще говоря, вы действительно чего-то добиваетесь, если результаты вне выборки составляют более 50 процентов от выборки. Бизнес-модель QIM никогда бы не сработала, если бы SAS и IBM создавали отличное программное обеспечение для прогнозного моделирования.
Мои вопросы
Имеет ли это смысл? Что он имеет в виду? У вас есть подсказка - или, возможно, даже название предложенного метода и некоторые ссылки? Или этот парень нашел Святой Грааль, которого никто не понимает? В этом интервью он даже говорит, что его метод может революционизировать науку ...
Ответы:
Имеет ли это какой-то смысл ? Частично.
Что он имеет в виду? Пожалуйста, спросите его.
У вас есть подсказка - или, возможно, даже название предложенного метода и некоторые ссылки?
Перекрестная проверка. http://en.wikipedia.org/wiki/Cross-validation_(statistics)
Или этот парень нашел Святой Грааль, которого никто не понимает? Нет .
В этом интервью он даже говорит, что его метод может революционизировать науку ... Возможно, он забыл включить ссылки на это утверждение ...
источник
Не уверен, будут ли какие-либо другие "случайные" ответы, но вот мой.
Перекрестная проверка ни в коем случае не является «новой». Кроме того, перекрестная проверка не используется, когда найдены аналитические решения. Например, вы не используете перекрестную проверку для оценки бета-версий, вы используете OLS или IRLS или какое-то другое «оптимальное» решение.
То, что я вижу как очевидный пробел в цитате, - это не ссылка на какое-либо представление о проверке «лучших» моделей на предмет их смысла. Как правило, хорошая модель имеет смысл на некотором интуитивном уровне. Похоже, что заявление состоит в том, что CV является серебряной пулей для всех проблем прогнозирования. Там также не говорить от установки на более высоком уровне структуры модели - мы используем SVM , регрессия деревья , Повышая , Bagging , МНК , GLMS , GLMNS, Регулируем ли мы переменные? Если так, то как? Сгруппируем ли мы переменные вместе? Хотим ли мы устойчивости к редкости? Есть ли у нас выбросы? Должны ли мы моделировать данные в целом или по частям? Есть слишком много подходов, чтобы быть решенным на основе CV .
И еще один важный аспект - какие компьютерные системы доступны? Как данные хранятся и обрабатываются? Есть ли пропущенность - как мы можем это объяснить?
И вот большой: у нас есть достаточно хорошие данные, чтобы делать хорошие прогнозы? Есть ли известные переменные, которых у нас нет в нашем наборе данных? Наши данные отражают то, что мы пытаемся предсказать?
Перекрестная проверка - полезный инструмент, но вряд ли революционный. Я думаю, что основной причиной, по которой людям нравится, является то, что это похоже на «без математики» способ ведения статистики. Но есть много областей CV, которые теоретически не разрешены - например, размер сгибов, количество разбиений (сколько раз мы делим данные на групп?), Должно ли деление быть случайным или систематическим (например, удалить штат или провинцию за фолд или просто несколько случайных 5%)? Когда это имеет значение? Как мы измеряем производительность? Как мы учитываем тот факт, что коэффициенты ошибок в разных сгибах коррелируют, поскольку они основаны на одинаковых сгибах данных.К - 2К К- 2
Кроме того, я лично не видел сравнения компромисса между компьютерно-интенсивным CV и менее дорогими методами, такими как REML или Variational Bayes . Что мы получаем в обмен на дополнительное время? Также кажется, что CV более ценно в случаях «маленького » и «большого », чем в случае «большого маленького », так как в случае «большого маленького » ошибка вне выборки очень близка к входной выборке ошибка.п н п н п пN п n p n p
источник
Его объяснение распространенной ошибки в интеллектуальном анализе данных представляется разумным. Его объяснение того, что он делает, не имеет никакого смысла. Что он имеет в виду, когда говорит: «Вообще говоря, вы действительно чего-то добиваетесь, если результаты вне выборки составляют более 50 процентов от выборки»? Тогда SAS и IBM с ненормативной лексикой тоже не заставляют его выглядеть очень умно. Люди могут иметь успех на рынке, не понимая статистики, и часть успеха - это удача. Неправильно относиться к успешным бизнесменам, как к гуру прогнозирования.
источник
Мое понимание слова узоров здесь, он означает различные рыночные условия. Наивный подход будет анализировать все доступные данные (мы все знаем, что больше данных лучше), обучать лучшую модель подбора кривой, затем запускать ее на всех данных и торговать с ней все время.
Более успешные менеджеры хедж-фондов и алгоритмические трейдеры используют свои знания рынка. В качестве конкретного примера, первые полчаса торговой сессии могут быть более волатильными. Таким образом, они попробуют модели на всех своих данных, но только в течение этих первых получаса, и на всех своих данных, но исключая эти первые полчаса. Они могут обнаружить, что две их модели преуспевают в первые полчаса, но восемь из них теряют деньги. Принимая во внимание, что, если они исключают первые полчаса, семь их моделей зарабатывают, три теряют деньги.
Но вместо того, чтобы взять эти две выигрышные модели и использовать их в первые полчаса торговли, они говорят: это плохое время дня для алгоритмической торговли, и мы не собираемся торговать вообще. Остаток дня они будут использовать свои семь моделей. То есть, кажется, что рынок легче предсказать с помощью машинного обучения в те времена, поэтому у этих моделей больше шансов быть надежными в будущем. (Время суток - не единственная модель; другие обычно связаны с новостными событиями, например, рынок является более волатильным как раз перед тем, как объявляются ключевые экономические показатели.)
Это моя интерпретация того, что он говорит; это может быть совершенно неправильно, но я надеюсь, что это все еще полезная пища для размышлений.
источник
Как финансовый специалист, я знаю достаточно контекста, чтобы в заявлении не было никакой двусмысленности. Финансовые временные ряды часто характеризуются изменениями режима, структурными нарушениями и дрейфом понятий, поэтому перекрестная проверка, как это практикуется в других отраслях, не столь успешна в финансовых приложениях. Во второй части он ссылается на финансовый показатель, либо доходность инвестиций по коэффициенту Шарпа (доходность в числителе), но не MSE или другую функцию потерь. Если стратегия в пределах выборки дает 10% прибыли, то в реальной торговле она может вполне реально принести только 5%. «Революционная» часть, скорее всего, касается его собственного подхода к анализу, а не к цитатам.
источник