Я не уверен, к чему относится этот вопрос: перекрестная проверка или рабочее место. Но мой вопрос смутно связан со статистикой.
Этот вопрос (или, я думаю, вопросы) возник во время моей работы в качестве "стажера по науке о данных". Я строил эту модель линейной регрессии и изучал остаточный график. Я видел явные признаки гетероскедастичности. Я помню, что гетероскедастичность искажает многие статистические данные, такие как доверительный интервал и t-критерий. Поэтому я использовал взвешенный метод наименьших квадратов, следуя тому, что я узнал в колледже. Мой менеджер увидел это и посоветовал мне не делать этого, потому что «я все усложнял», что для меня вовсе не было убедительной причиной.
Другим примером будет «удаление пояснительной переменной, поскольку ее значение p незначительно». Быть может, этот совет просто не имеет смысла с логической точки зрения. Согласно тому, что я узнал, незначительное значение p может быть вызвано разными причинами: случайностью, использованием неправильной модели, нарушением предположений и т. Д.
Еще один пример - я использовал перекрестную проверку в k-кратном порядке для оценки своей модели. Согласно результату, просто лучше, чем . Но у нас есть более низкая для модели 1, и причина связана с перехватом . Однако мой руководитель, похоже, предпочитает модель 2, потому что она имеет более высокое . Его причины (такие как убедительны, или перекрестная проверка - это подход машинного обучения, а не статистический подход) просто не кажутся достаточно убедительными, чтобы изменить свое мнение.
Как человек, который только что закончил колледж, я очень растерялся. Я очень увлечен применением правильной статистики для решения реальных проблем, но я не знаю, что из следующего верно:
- Статистика, которую я узнал сама, просто неверна, поэтому я просто делаю ошибки.
- Существует огромная разница между теоретической статистикой и построением моделей в компаниях. И хотя теория статистики верна, люди просто не следуют ей.
- Менеджер неправильно использует статистику.
Обновление от 17.04.2017: Я решил продолжить работу над кандидатской диссертацией. в статистике. Спасибо всем за ваш ответ.
Ответы:
Короче говоря, вы правы, а он неправ. Трагедия анализа данных заключается в том, что многие люди делают это, но только меньшинство людей делает это хорошо, отчасти из-за слабого образования в анализе данных и отчасти из-за апатии. Обратите критическое внимание на большинство опубликованных исследований, в которых нет автора статистики или специалиста по машинному обучению в списке авторов, и вы быстро заметите такие элементарные ошибки, как интерпретация значений как вероятности того, что нулевая гипотеза верна ,п
Я думаю, что единственное, что нужно сделать, когда сталкиваешься с подобной ситуацией, - это тщательно объяснить, что не так с неправильной практикой, на одном или двух примерах.
источник
Кодиолог прав - ты прав, он не прав. Однако, к сожалению, это еще более распространенная проблема, чем то, с чем вы сталкиваетесь. Вы на самом деле в отрасли, которая делает относительно хорошо.
Теперь, кроме того факта, что этот доверительный интервал не говорит им, что им действительно нужно (для этого им нужен интервал допуска), это делается вслепую на параметрах, которые находятся вблизи некоторого максимального или минимального значения (но где интервал выиграл) т на самом деле превышают эти значения). Поскольку Excel рассчитает то, что им нужно (да, я сказал Excel), они устанавливают свои спецификации в соответствии с этим, несмотря на тот факт, что параметр не будет где-то близко нормально распределенным. Этих людей учили основам статистики, а не графикам qq или тому подобным. Одна из самых больших проблем заключается в том, что статистика даст вам номер, даже если используется не по назначению, поэтому большинство людей не знают, когда они это сделали.
Другими словами, спецификации на подавляющее большинство продуктов в подавляющем большинстве отраслей промышленности являются бессмысленными.
Один из худших примеров того, как люди слепо следят за статистикой, без понимания, это использование Cpk в автомобильной промышленности. Одна компания провела около года, споря о продукте со своим поставщиком, потому что они думали, что поставщик может контролировать свой продукт до уровня, который просто невозможен. Они устанавливали только максимальную спецификацию (без минимума) для параметра и использовали Cpk для обоснования своих требований - до тех пор, пока не было указано, что в их вычислениях (при использовании для установки теоретического минимального уровня) они не хотели, чтобы они не проверяли ) подразумевает огромное отрицательное значение. Это при параметре, который никогда не может быть меньше 0. Cpk предполагает нормальный, процесс не дал ничего похожего на нормальные данные. Потребовалось много времени, чтобы это впиталось. Все это потратило время и деньги, потому что люди не Я не понимаю, что они рассчитывали - и могло быть намного хуже, если бы этого не заметили. Это может быть фактором, способствующим регулярному отзыву в автомобильной промышленности!
Я сам родом из науки, и, честно говоря, преподавание статистики в области науки и техники шокирующе недостаточно. Я никогда не слышал о большей части того, что мне нужно использовать сейчас - все это самоучка, и в моих знаниях (по сравнению с настоящим статистиком) есть огромные пробелы даже сейчас. По этой причине я не жалею людей, злоупотребляющих статистикой (я, вероятно, все еще регулярно делаю это), это плохое образование.
Итак, возвращаясь к исходному вопросу, это действительно не так просто. Я бы согласился с рекомендацией Kodiologist, чтобы попытаться мягко объяснить эти вещи, чтобы использовать правильную статистику. Но я хотел бы добавить к этому дополнительное предостережение, а также посоветовать вам выбирать свои сражения с умом ради своей карьеры.
К сожалению, но факт заключается в том, что вы не сможете заставить каждого делать лучшую статистику каждый раз. Выберите, чтобы исправить их, когда это действительно имеет значение для окончательного общего вывода (что иногда означает выполнение действий двумя различными способами проверить). Есть моменты (например, пример вашей модели 1,2), где использование «неправильного» способа может привести к тем же выводам. Старайтесь не исправлять слишком много людей слишком часто.
Я знаю, что это интеллектуально расстраивает, и мир должен работать по-другому - к сожалению, это не так. В какой-то степени вам придется научиться судить о ваших битвах на основе индивидуальных особенностей ваших коллег. Ваша (карьерная) цель - быть экспертом, к которому они обращаются, когда им действительно нужна помощь, а не привередливым человеком, который всегда пытается их исправить. И, на самом деле, если вы станете этим человеком, то, вероятно, вы добьетесь наибольшего успеха, заставив людей слушать и делать все правильно. Удачи.
источник
То, что описано, выглядит как несколько неудачный опыт. Тем не менее, это не должно быть чем-то, что заставляет человека немедленно подвергать сомнению свое собственное образование или статистическое суждение своего руководителя / менеджера.
Я советую придерживаться своего (статистического) оружия, но быть открытым к тому, что делают люди, быть терпеливым с людьми, которые могут быть отстранены от новых статистических практик, и предлагать советы / мнения, когда их просят , наращивать толщину кожи и учиться у своего окружения. Если вы делаете правильные вещи, это будет постепенно показывать, люди будут интересоваться вашим мнением, потому что они поймут, что вы можете предложить решения, которые не соответствуют их текущему рабочему процессу. Наконец, да, конечно, если по прошествии достаточного количества времени (по крайней мере, пары месяцев) вы чувствуете, что вас обесценивают и неуважительно относятся, просто двигайтесь дальше.
Само собой разумеется, что теперь, когда вы работаете в отрасли, вы не можете сидеть сложа руки и думать, что вам не нужно оттачивать свое образование в области статистики. Прогнозирующее моделирование, стратегии регрессии, алгоритмы кластеризации только продолжают развиваться. Например, использование регрессии гауссовских процессов в промышленных условиях было близко к научной фантастике 10 лет назад; теперь это можно увидеть почти как готовую вещь.
источник