Какие теории должен знать каждый статистик?

30

Я думаю об этом с очень простой точки зрения минимальных требований. Каковы основные теории, которые отраслевой (не академический) статистик должен знать, понимать и использовать на регулярной основе?

На ум приходит закон больших чисел . Что наиболее важно для применения статистической теории к анализу данных?

bnjmn
источник

Ответы:

41

Честно говоря, я не думаю, что закон больших чисел играет огромную роль в промышленности. Полезно понимать асимптотические обоснования общих процедур, таких как оценки и тесты максимального правдоподобия (в частности, все важные GLM и логистическая регрессия), начальной загрузки, но это проблемы распределения, а не вероятность попадания в проблемы с плохой выборкой ,

Помимо уже упомянутых тем (GLM, логический вывод, начальная загрузка), наиболее распространенной статистической моделью является линейная регрессия, поэтому необходимо полное понимание линейной модели. Вы можете никогда не использовать ANOVA в своей отрасли, но если вы этого не понимаете, вас не должны называть статистиком.

Существуют разные виды отраслей. В фармацевтике вы не можете зарабатывать на жизнь без рандомизированных испытаний и логистической регрессии. В статистике опроса вы не можете зарабатывать на жизнь без учета оценки Хорвица-Томпсона и отсутствия ответов. В статистике, связанной с информатикой, вы не можете зарабатывать на жизнь без статистического обучения и интеллектуального анализа данных. В аналитических центрах государственной политики (и, все чаще, в статистике образования) вы не можете зарабатывать на жизнь без причинно-следственных связей и оценок воздействия на лечение (которые все чаще включают рандомизированные испытания). В маркетинговых исследованиях вам необходимо сочетать экономические основы с теорией психометрических измерений (и вы не можете узнать ни одного из них в типичных предложениях отдела статистики). Промышленная статистика оперирует своими собственными своеобразными парадигмами шести сигм, которые, однако, отдаленно связаны с основной статистикой; более сильная связь может быть найдена в дизайне материала эксперимента. Материалом Уолл-стрит будет финансовая эконометрика, вплоть до стохастического исчисления. Это ОЧЕНЬ разрозненные навыки, а термин «индустрия» еще более плохо определен, чем «академия». Я не думаю, что кто-то может утверждать, что знает больше, чем два или три из вышеперечисленного одновременно.

Тем не менее, основными навыками, которые универсально потребуются в «отрасли» (что бы это ни значило для вас), будет управление временем, управление проектами и общение с менее статистически подкованными клиентами. Поэтому, если вы хотите подготовить себя к трудоустройству в промышленности, возьмите занятия в бизнес-школе по этим темам.

ОБНОВЛЕНИЕ: оригинальный пост был написан в феврале 2012 года; в эти дни (март 2014 года) вы, вероятно, должны называть себя «специалистом по данным», а не «статистиком», чтобы найти горячую работу в промышленности ... и лучше изучить Hadoop, чтобы следовать этому самопровозглашению.

оборота СтасК
источник
1
Отличный ответ. Спасибо за то, что подчеркнули некоторые большие различия между статистиками в отрасли. Это помогает мотивировать мой вопрос, потому что я считаю, что многие люди имеют другое представление о том, что статистик делает / делает. Я думаю, я пытался выяснить, где все они пересекаются с базовым пониманием. Кроме того, я очень ценю ваш последний абзац о бизнес-темах и их важности. Замечательные моменты, но я все еще хотел бы посмотреть, может ли кто-нибудь добавить в разговор, прежде чем принять.
bnjmn
Я озадачен этими «особыми парадигмами Шести Сигм», «удаленно связанными с основной статистикой», с которыми, как вы говорите, работает статистика промышленности. Это кажется мне совершенно ортодоксальным, оставляя в стороне различия в терминологии, обнаруженные между всеми этими подполями.
Scortchi - Восстановить Монику
4
109
Достаточно справедливо: я бы сказал, что анализ систем измерения (согласование между оценками, исследования воспроизводимости и повторяемости калибровок), статистический контроль процессов, анализ надежности (так называемый анализ выживаемости) и экспериментальный дизайн ((дробный) факторный дизайн, методология поверхности отклика) ) были характерны для промышленной статистики.
Scortchi - Восстановить Монику
12

Я думаю, что хорошее понимание вопросов, касающихся компромисса смещения . В какой-то момент большинство статистиков будут анализировать набор данных, достаточно малый для того, чтобы дисперсия оценки или параметров модели была достаточно высокой, чтобы смещение было вторичным.

Дикран Сумчатый
источник
11

Чтобы указать на супер очевидный:

Центральная предельная теорема

pp

Бутстрапирование

макрос
источник
8

Я бы не сказал, что это очень похоже на что-то вроде закона больших чисел или центральной предельной теоремы, но поскольку выводы о причинности часто бывают центральными, понимание работы Иудеи Перл по использованию структурированных графиков для моделирования причинности - это то, что люди должны быть знакомы с. Он предоставляет способ понять, почему экспериментальные и наблюдательные исследования различаются в отношении причинных выводов, которые они предоставляют, и предлагает способы работы с данными наблюдений. Для хорошего обзора его книга здесь .

gung - Восстановить Монику
источник
2
Есть также контрфактуальная структура Рубина; Существуют также методы моделирования структурных уравнений и эконометрические инструментальные переменные ... некоторые из них описаны в «Наиболее безвредной эконометрике», которая является лучшей из статистических книг, написанных не статистиками.
StasK
7

Точное понимание существенной проблемы, которую необходимо решить, так же важно, как и любой конкретный статистический подход. Хороший ученый в этой области, скорее, чем статистик, не обладающий такими знаниями, найдет разумное решение своей проблемы. Статистик с существенными знаниями может помочь.

Brett
источник
6

Дельта-метод, как рассчитать дисперсию причудливой статистики и найти ее асимптотическую относительную эффективность, рекомендовать изменения переменной и объяснить повышение эффективности, «оценив правильную вещь». В связи с этим, неравенство Дженсена для понимания GLM и странные виды смещения, которые возникают в преобразованиях, как указано выше. И теперь, когда упоминаются смещение и дисперсия, концепция компромисса смещения дисперсии и MSE как объективная мера точности прогнозирования.

Adamo
источник
6

На мой взгляд, статистический вывод является наиболее важным для практикующего врача. Вывод состоит из двух частей: 1) Оценка и 2) Проверка гипотез. Проверка гипотез важна. Так как при оценке в основном применяется уникальная процедура, оценка максимального правдоподобия, и в ней доступен самый статистический пакет (поэтому нет путаницы).

Частые вопросы специалистов-практиков касаются значительного тестирования различий или причинного анализа. Важные тесты гипотез можно найти по этой ссылке .

Знание о линейных моделях, GLM или вообще статистическом моделировании требуется для интерпретации причинно-следственных связей. Я предполагаю, что будущее анализа данных включает байесовский вывод.

vinux
источник
0

Случайный вывод является обязательным. И как решить эту фундаментальную проблему, нельзя возвращаться во времени и не лечить кого-то. Прочитайте статьи о Рубине, Фишере, основателе современной статистики студента.) .... Что нужно научиться решать эту проблему, как правильно рандомизировать и как закон больших чисел говорит, что вещи правильно рандомизированы, Проверка гипотез, Потенциальные результаты (верно против предположения гетроскастизма и отлично с отсутствием), сопоставление (отлично для отсутствия, но потенциальные результаты лучше, потому что это более обобщенно, я имею в виду, зачем изучать тонну сложных вещей, когда вы можете узнать только одну сложную вещь), Bootstrap, Байесовская статистика, конечно (байесовская регрессия , наивная байесовская регрессия, байесовские факторы) и непапметрические альтернативы.

Обычно на практике просто следуйте этим общим шагам,

Что касается предыдущего комментария, вы должны сначала начать с ANOVA (случайные эффекты или фиксированные эффекты и преобразовать непрерывные типы в ячейки), а затем использовать регрессию (которая, если вы преобразуете и изменяете, иногда может быть такой же хорошей, как ANOVA, но никогда не побеждает ее) чтобы увидеть, какие специфические методы лечения значительны, (применяют множественный t-тест и используют некоторую коррекцию, такую ​​как метид Хольма), используйте регрессию.

В тех случаях, когда вы должны предсказать вещи, используйте баясовую регрессию.

Отсутствие при более чем 5% использования потенциальных результатов

Другой раздел аналитики данных - это контролируемое машинное обучение, о котором следует упомянуть.

оборота Хиган Экли
источник