Я не думаю, что смогу уделять регулярное время, чтобы продолжить изучение данных анализа
Я не думаю, что Casella & Berger - это место, где можно много изучать данные в процессе анализа данных . Это место для изучения некоторых инструментов статистической теории.
Мой опыт пока говорит мне, что я должен быть статистиком, который нужно терпеть утомительными вычислениями, включающими различные распределения (Weibull, Cauchy, t, F ...).
Я провел много времени как статистик, анализируя данные. Это редко (почти никогда) вовлекает меня в утомительные вычисления. Иногда это включает в себя небольшую простую алгебру, но общие проблемы обычно решаются, и мне не нужно каждый раз прилагать усилия, чтобы повторить это.
Компьютер выполняет все утомительные вычисления.
Если я нахожусь в ситуации, когда я не готов принять достаточно стандартный случай (например, не готов использовать GLM), у меня, как правило, недостаточно информации, чтобы предположить какое-либо другое распределение, поэтому вопрос о вычислениях LRT обычно спорный (я могу сделать это, когда мне нужно, они просто либо имеют тенденцию быть уже решенными, либо появляются настолько редко, что это интересная диверсия).
Я склонен делать много симуляции; Я также часто пытаюсь использовать передискретизацию в той или иной форме либо рядом, либо вместо параметрических допущений.
Нужно ли мне тратить на это 20 часов в неделю, как раньше?
Это зависит от того, что вы хотите сделать, и как скоро вы хотите добиться успеха в этом.
Анализ данных - это навык, требующий практики и большой базы знаний. У вас уже есть знания, которые вам нужны.
Если вы хотите быть хорошим практиком в самых разных вещах, это займет много времени - но, на мой взгляд, это намного веселее, чем алгебра и тому подобное, выполнение упражнений Казеллы и Бергера.
Скажем, некоторые навыки, на которых я основывался, говорят, что проблемы регрессии полезны с временными рядами, но нужно много новых навыков. Так что научиться интерпретировать остаточные графики и графики QQ удобно, но они не говорят мне, насколько мне нужно беспокоиться о небольшом ударе в графике PACF, и не дают мне таких инструментов, как использование прогнозирования на один шаг вперед ошибки.
Так, например, мне не нужно тратить усилия на выяснение того, как разумно сделать ML для типичных моделей гаммы или Вейбулла , потому что они достаточно стандартны, чтобы решать проблемы, которые уже в значительной степени представлены в удобной форме.
Если вы хотите заняться исследованиями , вам понадобится гораздо больше навыков, которые вы приобретете в таких местах, как Казелла и Бергер (но даже с такими навыками вам также следует прочитать более одной книги).
Некоторые предлагаемые вещи:
Вы должны определенно развивать некоторые навыки регрессии, даже если вы больше ничего не делаете.
Есть ряд неплохих книг, но, возможно, « Прикладной регрессионный анализ Дрэпера и Смита», а также «Фокс и Вайсберг - спутник прикладной регрессии» ; Я бы также предложил вам рассмотреть возможность использования стратегий Гарресса по регрессионному моделированию.
(Вы можете заменить любое количество хороших книг для Дрейпера и Смита - найдите одну или две, которые вам подходят.)
Во второй книге есть несколько дополнительных онлайн-глав, которые стоит прочитать (и собственный R-пакет)
-
Хорошей второй порцией была бы современная прикладная статистика Venables & Ripley с S .
Это основа довольно широкого круга идей.
Может оказаться, что вам нужны более базовые материалы по некоторым темам (я не знаю вашего опыта).
Тогда вам нужно подумать о том, какие области статистики вам нужны / нужны - байесовская статистика, временные ряды, многомерный анализ и т. Д. И т. Д.
Отвечая на вопросы других, кто придет к этому вопросу позже ...
Изучите базы данных (SQL), dplyr / pandas, инструменты Unix (sed, grep), анализ, создание сценариев, очистку данных и тестирование программного обеспечения. Различные специализированные дистрибутивы имеют мало значения в промышленности.
Книга прикладной регрессии, такая как Angrist & Pischke, Faraway или Weisberg, будет более практической теорией.
Отсюда и интерес к непараметрической статистике. Но в то же время непараметрические без допущений слишком свободны. Чтобы ответить на ваш вопрос, специализированные семьи можно рассматривать как ответы на простые вопросы, с которыми вы, возможно, столкнетесь. Например, я думаю о гауссиане как о «гладкой» точечной оценке. Пуассон отвечает на еще один простой вопрос. Когда люди строят математические модели, эти особые могут быть полезными точками опоры. (Но академики часто принимают поиски мастер-дистрибуции неправильно).
ОП: Надеюсь, вам было весело с исследованиями PhD!
источник