Честно говоря, я не думаю, что закон больших чисел играет огромную роль в промышленности. Полезно понимать асимптотические обоснования общих процедур, таких как оценки и тесты максимального правдоподобия (в частности, все важные GLM и логистическая регрессия), начальной загрузки, но это проблемы распределения, а не вероятность попадания в проблемы с плохой выборкой ,
Помимо уже упомянутых тем (GLM, логический вывод, начальная загрузка), наиболее распространенной статистической моделью является линейная регрессия, поэтому необходимо полное понимание линейной модели. Вы можете никогда не использовать ANOVA в своей отрасли, но если вы этого не понимаете, вас не должны называть статистиком.
Существуют разные виды отраслей. В фармацевтике вы не можете зарабатывать на жизнь без рандомизированных испытаний и логистической регрессии. В статистике опроса вы не можете зарабатывать на жизнь без учета оценки Хорвица-Томпсона и отсутствия ответов. В статистике, связанной с информатикой, вы не можете зарабатывать на жизнь без статистического обучения и интеллектуального анализа данных. В аналитических центрах государственной политики (и, все чаще, в статистике образования) вы не можете зарабатывать на жизнь без причинно-следственных связей и оценок воздействия на лечение (которые все чаще включают рандомизированные испытания). В маркетинговых исследованиях вам необходимо сочетать экономические основы с теорией психометрических измерений (и вы не можете узнать ни одного из них в типичных предложениях отдела статистики). Промышленная статистика оперирует своими собственными своеобразными парадигмами шести сигм, которые, однако, отдаленно связаны с основной статистикой; более сильная связь может быть найдена в дизайне материала эксперимента. Материалом Уолл-стрит будет финансовая эконометрика, вплоть до стохастического исчисления. Это ОЧЕНЬ разрозненные навыки, а термин «индустрия» еще более плохо определен, чем «академия». Я не думаю, что кто-то может утверждать, что знает больше, чем два или три из вышеперечисленного одновременно.
Тем не менее, основными навыками, которые универсально потребуются в «отрасли» (что бы это ни значило для вас), будет управление временем, управление проектами и общение с менее статистически подкованными клиентами. Поэтому, если вы хотите подготовить себя к трудоустройству в промышленности, возьмите занятия в бизнес-школе по этим темам.
ОБНОВЛЕНИЕ: оригинальный пост был написан в феврале 2012 года; в эти дни (март 2014 года) вы, вероятно, должны называть себя «специалистом по данным», а не «статистиком», чтобы найти горячую работу в промышленности ... и лучше изучить Hadoop, чтобы следовать этому самопровозглашению.
Я думаю, что хорошее понимание вопросов, касающихся компромисса смещения . В какой-то момент большинство статистиков будут анализировать набор данных, достаточно малый для того, чтобы дисперсия оценки или параметров модели была достаточно высокой, чтобы смещение было вторичным.
источник
Чтобы указать на супер очевидный:
Центральная предельная теорема
Бутстрапирование
источник
Я бы не сказал, что это очень похоже на что-то вроде закона больших чисел или центральной предельной теоремы, но поскольку выводы о причинности часто бывают центральными, понимание работы Иудеи Перл по использованию структурированных графиков для моделирования причинности - это то, что люди должны быть знакомы с. Он предоставляет способ понять, почему экспериментальные и наблюдательные исследования различаются в отношении причинных выводов, которые они предоставляют, и предлагает способы работы с данными наблюдений. Для хорошего обзора его книга здесь .
источник
Точное понимание существенной проблемы, которую необходимо решить, так же важно, как и любой конкретный статистический подход. Хороший ученый в этой области, скорее, чем статистик, не обладающий такими знаниями, найдет разумное решение своей проблемы. Статистик с существенными знаниями может помочь.
источник
Дельта-метод, как рассчитать дисперсию причудливой статистики и найти ее асимптотическую относительную эффективность, рекомендовать изменения переменной и объяснить повышение эффективности, «оценив правильную вещь». В связи с этим, неравенство Дженсена для понимания GLM и странные виды смещения, которые возникают в преобразованиях, как указано выше. И теперь, когда упоминаются смещение и дисперсия, концепция компромисса смещения дисперсии и MSE как объективная мера точности прогнозирования.
источник
На мой взгляд, статистический вывод является наиболее важным для практикующего врача. Вывод состоит из двух частей: 1) Оценка и 2) Проверка гипотез. Проверка гипотез важна. Так как при оценке в основном применяется уникальная процедура, оценка максимального правдоподобия, и в ней доступен самый статистический пакет (поэтому нет путаницы).
Частые вопросы специалистов-практиков касаются значительного тестирования различий или причинного анализа. Важные тесты гипотез можно найти по этой ссылке .
Знание о линейных моделях, GLM или вообще статистическом моделировании требуется для интерпретации причинно-следственных связей. Я предполагаю, что будущее анализа данных включает байесовский вывод.
источник
Случайный вывод является обязательным. И как решить эту фундаментальную проблему, нельзя возвращаться во времени и не лечить кого-то. Прочитайте статьи о Рубине, Фишере, основателе современной статистики студента.) .... Что нужно научиться решать эту проблему, как правильно рандомизировать и как закон больших чисел говорит, что вещи правильно рандомизированы, Проверка гипотез, Потенциальные результаты (верно против предположения гетроскастизма и отлично с отсутствием), сопоставление (отлично для отсутствия, но потенциальные результаты лучше, потому что это более обобщенно, я имею в виду, зачем изучать тонну сложных вещей, когда вы можете узнать только одну сложную вещь), Bootstrap, Байесовская статистика, конечно (байесовская регрессия , наивная байесовская регрессия, байесовские факторы) и непапметрические альтернативы.
Обычно на практике просто следуйте этим общим шагам,
Что касается предыдущего комментария, вы должны сначала начать с ANOVA (случайные эффекты или фиксированные эффекты и преобразовать непрерывные типы в ячейки), а затем использовать регрессию (которая, если вы преобразуете и изменяете, иногда может быть такой же хорошей, как ANOVA, но никогда не побеждает ее) чтобы увидеть, какие специфические методы лечения значительны, (применяют множественный t-тест и используют некоторую коррекцию, такую как метид Хольма), используйте регрессию.
В тех случаях, когда вы должны предсказать вещи, используйте баясовую регрессию.
Отсутствие при более чем 5% использования потенциальных результатов
Другой раздел аналитики данных - это контролируемое машинное обучение, о котором следует упомянуть.
источник