Является ли прогноз «золотым критерием» для оценки способности статистиков?

13

Я читал линейные модели Faraway из учебника с R (1-е издание) в прошлые выходные. У Faraway была глава под названием «Статистическая стратегия и модель неопределенности». Он описал (стр 158) , что он искусственно созданный некоторые данные , используя очень сложную модель, то он попросил своих студентов моделировать данные и сравнить студентов предсказанные результаты против чтения результатов. К сожалению, большинство учеников переоценили данные тестирования и дали прогнозные значения совершенно не на должном уровне. Чтобы объяснить это явление, он написал что-то очень впечатляющее для меня:

«Причина, по которой модели были такими разными, заключалась в том, что студенты применяли различные методы в разных порядках. Некоторые делали выбор переменных до преобразования, а другие - наоборот. Некоторые повторяли метод после изменения модели, а другие - нет. Я перешел к стратегиям. что некоторые из студентов использовали и не могли найти ничего явно неправильного в том, что они сделали. Один студент допустил ошибку при вычислении его или ее прогнозируемых значений, но в оставшейся части явно не было ничего плохого. Результаты выполнения этого задания не показали любые отношения с этим на экзаменах ".

Меня учили, что точность прогнозирования модели - это «золотой критерий» для нас, чтобы выбрать лучшую производительность модели. Если я не ошибаюсь, это также популярный метод, используемый в соревнованиях Kaggle. Но здесь Фарауэй заметил нечто иное: модель прогнозирования не имела ничего общегос возможностью участия статистики. Другими словами, можем ли мы построить лучшую модель с точки зрения предсказательной силы, на самом деле не зависит от того, насколько мы опытны. Вместо этого это определяется огромной «неопределенностью модели» (слепая удача?). Мой вопрос: верно ли это и в анализе реальных данных? Или я был перепутан с чем-то очень простым? Потому что, если это правда, то последствия для анализа реальных данных огромны: без знания «реальной модели», лежащей в основе данных, нет существенной разницы между работой, проделанной опытными / неопытными статистиками: оба являются просто дикими догадками перед данные обучения доступны.

Bombyx Mori
источник
2
+1 хороший вопрос. Скажем, один из аналитиков знает истинный способ, чтобы предложить другой угол зрения - тогда ее прогнозы тоже могут быть плохими! Так что даже зная настоящую модель, вы бы это увидели. Важным может быть наблюдение Хаггерти и Шривинаса в 1991 году в Psychometrika о том, что «практика [...] заключения о том, что модель с более высокой точностью прогнозирования является« более достоверной », не является достоверным выводом».
Момо
1
Я еще не посмотрел книгу, но «выбор переменной» и «преобразование» уже звонят в колокола предупреждения. См. Алгоритмы для автоматического выбора модели и природы отношений между предикторами и зависимыми в регрессии . Я также не стал бы связывать успеваемость студентов-статистиков со способностью статистиков к реальной работе.
Scortchi - Восстановить Монику
2
Эта информация, предоставленная Faraway, кажется ужасно анекдотичной, и ее можно использовать в качестве основы для широкого общего принципа в области статистики. Я не хотел бы строить модель прогнозирующего моделирования на основе таких невоспроизводимых примеров. Также возможно, что они были, вольно или нет, вишневыми.
rolando2
3
Один логически обоснованный вывод, который можно сделать из этого анекдота, заключается в том, что ни один из учеников Faraway не приобрел (пока) навыков, необходимых для успешной работы в тесте на предсказание. Трудно вообще установить какую-либо связь между этим результатом и вашими предположениями о том, как могут работать опытные статистики.
whuber
@whuber: я так не думаю. Я согласен, что 28 студентов немного маловаты, но я думаю, что это реальное наблюдение имеет некоторые серьезные последствия. Если Faraway создал реальную модель и перешел к работе нескольких студентов, он не смог бы найти какой-либо серьезной ошибки, однако прогнозы далеки от того, чем они должны быть. Тогда это что-то говорит о вовлеченности «неопределенности модели», что, по крайней мере, нужна работа, выполненная отдельным аналитиком для сравнения различий, независимо от того, насколько «опытен» первоначальный аналитик. Я думаю, что это довольно тревожно для меня.
Bombyx Mori

Ответы:

1

Я спросил профессора в моем отделе об этом. Он сказал откровенно, что его это совсем не удивило. Он предложил следующий способ взглянуть на это: то, что сделал Faraway, было только одноразовым экспериментом, и неудивительно, что результаты, по-видимому, не коррелируют с итоговыми оценками. Но если Faraway повторить свой «эксперимент» 100 раз с одной и той же группой студентов, он уверен, что студенты, изучившие статистику, будут лучше работать, аналогично доверительному интервалу. Так что, по его мнению, опыт имеет значение, это просто один раз, когда социальный эксперимент не смог показать это из-за неопределенности модели.

Bombyx Mori
источник
Я нахожу это оправдание смешным. Я думаю, что это причина, по которой статистика заменяется (или переименовывается) в «науку о данных». Люди начинают понимать, что статистика в университетах не очень хороша в прогнозировании, а модели без предсказательной силы бесполезны.
Flounderer
1
@Flounderer: я думаю, что это не оправдание, и то, что вы написали, может быть не очень хорошо связано с этим делом. Во-первых, в реальной жизни в большинстве случаев есть как набор для тестирования, так и набор для обучения, в отличие от случая с Faraway, имеется только один набор для обучения. Во-вторых, если вы посмотрите на модель Faraway, она сильно нелинейна, так что методы регрессии работают не очень хорошо. Следовательно, все линейные модели - просто дикие догадки. Мораль эксперимента заключается в том, что «все модели ошибочны», а не «статистика, которой учат в университетах, не очень хороша для прогнозирования».
Bombyx Mori
@Flounderer: Другими словами, я полагаю, что если я (или кто-либо еще на форуме) окажусь на позиции ученика Faraway двадцать лет назад, столкнувшись с этим странным обучающим набором, мы вряд ли добьемся большего успеха, используя только линейные модели. Я не думаю, что это вообще что-то, связанное с «статистикой, которую преподают в университетах».
Bombyx Mori
1

Модели студентов были почти все наряд. С n точками данных всегда можно подобрать идеальный многочлен порядка n-1. Такая модель давно не оставляет случайных ошибок. Похоже, что ученики допустили схожие ошибки, но предположительно с разными функциями.

Переоснащение - это ошибка, которую должны делать только студенты. И это говорит о том, что опыт и образование являются необходимой квалификацией для моделирования.

Элисон Вейр
источник
2
«Переоснащение - это ошибка, которую должны делать только студенты» - это довольно высокий стандарт. Моделирование сложно. Может быть, что-то вроде «Переоснащение - это то, что разработчики учатся распознавать и избегать с помощью опыта и образования», - было бы ближе к истине?
Мэтью Друри