Что такое практически хороший процесс анализа данных?

15

Я хотел бы знать, или иметь ссылки на процесс анализа, который проходит большинство статистических аналитиков данных для каждого проекта анализа данных.

Если я составлю «список», для завершения проекта анализа данных аналитик должен:

  1. сначала собрать требования к проекту,
  2. планировать / проектировать свой анализ данных на основе этих требований до
  3. на самом деле предварительная обработка данных,
  4. выполнение анализа данных и
  5. написание отчета по результатам анализа.

В этом вопросе меня интересуют более подробные сведения о шаге 2. Но я понимаю, что это не совсем ясно, поскольку аналитику, возможно, придется изменить свой план или дизайн в соответствии с результатами анализа данных. Есть ли какие-либо ссылки на эту тему?

Тае Сунг Шин
источник

Ответы:

17

Мой любимый «план» или «список» - это документ Скотта Эмерсона « Организация вашего подхода к анализу данных» .

Примечание: последние две страницы находятся под заголовком «Общие требования к кандидатскому экзамену», но рекомендации, приведенные там, обобщают работу над любой проблемой анализа.


источник
Люблю каждую часть документа. Спасибо за ценную ссылку.
Тэ Сон Шин
5

Я нашел «Рабочий процесс анализа данных с использованием Stata» как хорошую книгу, особенно (но не только) для пользователя Stata. Я нашел много, с чем можно не согласиться, но даже это помогло прояснить, почему я делаю вещи определенным образом.

Димитрий Васильевич Мастеров
источник
4
+1, но, caveat emptor : эта книга полезна, только если вы являетесь пользователем Stata. Я не использую Stata (фактически я никогда не использую). С другой стороны, мне нравится Long, поэтому я проверил это в библиотеке. Я уверен, что здесь есть много полезной информации для всех, но она настолько тесно связана с использованием Stata, что невозможно извлечь общую информацию о домене.
gung - Восстановить Монику
2

CRISP-DM , созданный компанией SPSS (теперь принадлежит IBM), является аббревиатурой для процесса интеллектуального анализа данных, который аналогичен «анализу данных». SAS имеет аналогичный процесс, называемый SEMMA .

Галит Шмуэли
источник