Я работаю в области интеллектуального анализа данных, и у меня было очень мало формального обучения статистике. В последнее время я читаю много работ, посвященных байесовским парадигмам для изучения и майнинга, что мне очень интересно.
У меня вопрос (в нескольких частях), учитывая проблему, есть ли общие рамки, по которым можно построить статистическую модель? Каковы первые вещи, которые вы делаете, когда получаете набор данных, который вы хотели бы смоделировать базовый процесс? Существуют ли хорошие книги / учебные пособия, объясняющие этот процесс, или это опыт? Находится ли вывод в центре вашего внимания при построении модели или вы сначала стремитесь описать данные, прежде чем беспокоиться о том, как использовать их для вычислений?
Любое понимание будет с благодарностью! Спасибо.
Ответы:
В статистике, как и в Data Mining, вы начинаете с данных и цели. В статистике большое внимание уделяется выводам, то есть ответам на вопросы населения с использованием выборки. При извлечении данных основное внимание обычно уделяется прогнозированию: вы создаете модель из вашей выборки (обучающие данные) для прогнозирования тестовых данных.
Процесс в статистике:
Исследуйте данные с помощью сводок и графиков - в зависимости от того, как статистик будет руководствоваться данными, некоторые будут более непредубежденными, глядя на данные со всех сторон, в то время как другие (особенно социологи) будут смотреть на данные через призму вопрос интереса (например, график, особенно переменные, представляющие интерес, а не другие)
Выберите соответствующее семейство статистических моделей (например, линейная регрессия для непрерывного Y, логистическая регрессия для двоичного Y или Пуассон для данных подсчета) и выполните выбор модели
Оцените окончательную модель
Предположения модели тестирования, чтобы убедиться, что они разумно выполнены (отличается от тестирования для прогнозирующей точности в интеллектуальном анализе данных)
Используйте модель для вывода - это основной шаг, который отличается от интеллектуального анализа данных. Слово «р-значение» прибывает сюда ...
Взгляните на любой базовый учебник по статистике, и вы найдете главу «Исследовательский анализ данных», за которой следуют некоторые распределения (которые помогут выбрать разумные аппроксимирующие модели), затем вывод (доверительные интервалы и проверки гипотез) и регрессионные модели.
Я описал вам классический статистический процесс. Однако у меня много проблем с этим. Акцент на умозаключении полностью доминировал над областями, в то время как предсказание (которое является чрезвычайно важным и полезным) почти игнорировалось. Более того, если вы посмотрите, как социологи используют статистику для вывода, вы обнаружите, что они используют ее совершенно по-другому! Вы можете проверить больше об этом здесь
источник
Что касается книг, «Элементы статистического обучения» Хасти, Тибширани и Фридмана очень хороши.
Полная книга доступна на сайте авторов ; Вы можете посмотреть, подходит ли оно для ваших нужд.
источник
Что касается (он-лайн) ссылок, я бы порекомендовал посмотреть учебные слайды Эндрю Мура по статистическому анализу данных .
Есть много учебников по интеллектуальному анализу данных и машинному обучению; может быть, хорошей отправной точкой являются « Принципы интеллектуального анализа данных» , выполненные Хандом и др., и « Введение в машинное обучение » Альпайдина.
источник
Лучшая вводная байесовская книга, которую я нашел, - « Анализ данных - Байесовский учебник» . Это довольно практично.
источник