Советы и рекомендации для начала статистического моделирования?

10

Я работаю в области интеллектуального анализа данных, и у меня было очень мало формального обучения статистике. В последнее время я читаю много работ, посвященных байесовским парадигмам для изучения и майнинга, что мне очень интересно.

У меня вопрос (в нескольких частях), учитывая проблему, есть ли общие рамки, по которым можно построить статистическую модель? Каковы первые вещи, которые вы делаете, когда получаете набор данных, который вы хотели бы смоделировать базовый процесс? Существуют ли хорошие книги / учебные пособия, объясняющие этот процесс, или это опыт? Находится ли вывод в центре вашего внимания при построении модели или вы сначала стремитесь описать данные, прежде чем беспокоиться о том, как использовать их для вычислений?

Любое понимание будет с благодарностью! Спасибо.

Ник
источник
4
Привет, Ник - добро пожаловать в резюме. Ваш вопрос очень широк; вам, возможно, повезет, если вы получите хорошие ответы, если разбите их на более мелкие вопросы (и, как только вы это сделаете, вы можете обнаружить, что на некоторые из них уже дан ответ здесь) Тем не менее, как минимум, вы должны пометить свой вопрос как "вики сообщества". В основном это означает, что вместо обычного формата конкурирующих ответов здесь все ответы в целом будут считаться Ответом.
Мэтт Паркер
1
@Matt Флажок CW больше не появляется для вопроса. Мод должен пометить вопрос как CW по мере необходимости.
@ Ник .. Я тоже новичок. Я думаю, что главное и самое главное, что нужно сохранить, это то, как вы хотите описать свою выходную переменную ... она непрерывная, двоичная? Потому что в конце дня вы хотите наблюдать / моделировать выходную переменную. Следующее, что я бы подумал, - это то, как можно моделировать требуемую переменную. Что произойдет, то это то, что если переменная дихотомична, процедура является логит-моделью. Следующим соображением будут данные, их мельчайшие детали и различные проблемы, с которыми можно столкнуться .. Надеюсь, это имеет смысл.
Аюш Бияни

Ответы:

6

В статистике, как и в Data Mining, вы начинаете с данных и цели. В статистике большое внимание уделяется выводам, то есть ответам на вопросы населения с использованием выборки. При извлечении данных основное внимание обычно уделяется прогнозированию: вы создаете модель из вашей выборки (обучающие данные) для прогнозирования тестовых данных.

Процесс в статистике:

  1. Исследуйте данные с помощью сводок и графиков - в зависимости от того, как статистик будет руководствоваться данными, некоторые будут более непредубежденными, глядя на данные со всех сторон, в то время как другие (особенно социологи) будут смотреть на данные через призму вопрос интереса (например, график, особенно переменные, представляющие интерес, а не другие)

    1. Выберите соответствующее семейство статистических моделей (например, линейная регрессия для непрерывного Y, логистическая регрессия для двоичного Y или Пуассон для данных подсчета) и выполните выбор модели

    2. Оцените окончательную модель

    3. Предположения модели тестирования, чтобы убедиться, что они разумно выполнены (отличается от тестирования для прогнозирующей точности в интеллектуальном анализе данных)

    4. Используйте модель для вывода - это основной шаг, который отличается от интеллектуального анализа данных. Слово «р-значение» прибывает сюда ...

Взгляните на любой базовый учебник по статистике, и вы найдете главу «Исследовательский анализ данных», за которой следуют некоторые распределения (которые помогут выбрать разумные аппроксимирующие модели), затем вывод (доверительные интервалы и проверки гипотез) и регрессионные модели.

Я описал вам классический статистический процесс. Однако у меня много проблем с этим. Акцент на умозаключении полностью доминировал над областями, в то время как предсказание (которое является чрезвычайно важным и полезным) почти игнорировалось. Более того, если вы посмотрите, как социологи используют статистику для вывода, вы обнаружите, что они используют ее совершенно по-другому! Вы можете проверить больше об этом здесь

Галит Шмуэли
источник
2

Что касается книг, «Элементы статистического обучения» Хасти, Тибширани и Фридмана очень хороши.

Полная книга доступна на сайте авторов ; Вы можете посмотреть, подходит ли оно для ваших нужд.

NPE
источник
2

Что касается (он-лайн) ссылок, я бы порекомендовал посмотреть учебные слайды Эндрю Мура по статистическому анализу данных .

Есть много учебников по интеллектуальному анализу данных и машинному обучению; может быть, хорошей отправной точкой являются « Принципы интеллектуального анализа данных» , выполненные Хандом и др., и « Введение в машинное обучение » Альпайдина.

хл
источник