Как гласит заголовок, знает ли кто-нибудь хорошую, современную книгу, которая описывает предварительную обработку данных в целом и особенно методы обнаружения выбросов?
Книга не должна быть сосредоточена исключительно на этом, но она должна быть исчерпывающе затронута вышеупомянутыми темами - я не был бы счастлив чем-то, что является отправной точкой и цитирует список статей, объяснения различных методов должны появиться в Сама книга.
Методы борьбы с отсутствующими данными предпочтительнее, но не обязательно ...
Ответы:
Хотя книга Скотта Лонга « Рабочий процесс анализа данных с использованием Stata» была специфической для Stata, она бесценна в области управления данными и их подготовки. Автор дает много полезных советов, касающихся передовых методов управления данными, таких как очистка и архивирование данных, проверка на выбросы и работа с недостающими данными.
источник
Для SAS есть методы очистки данных Рона Коди с использованием программного обеспечения SAS . На SAS-L есть поговорка: «Вы никогда не ошибетесь с книгой Рона Коди»
источник
Если у вас есть основы (определение выбросов, пропущенных значений, взвешивания, кодирования) в зависимости от темы, в простой академической литературе можно найти гораздо больше. Например, в опросе (который является темой, в которой многие вещи могут пойти не так, и подвержены многочисленным источникам предвзятости), можно найти много хороших статей.
При подготовке к регулярной поперечной регрессии все может быть менее сложным. Например, проблема может заключаться в том, что вы удаляете слишком много «выбросов» и, таким образом, искусственно подходите своей модели.
Таким образом, я также рекомендую вам, помимо изучения хороших методов, также помнить о здравом смысле. Убедитесь, что вы применяете методы правильно, а не вслепую. Что касается обсуждения программного обеспечения в других ответах. Я думаю, что SPSS не плох для подготовки данных (я также слышал хорошие вещи о SAS) в зависимости от размера вашего набора данных. Выпадающие меню очень интуитивно понятны.
Но как прямой ответ на ваш вопрос, академическая литература может или не может быть очень хорошим источником для подготовки ваших данных в зависимости от темы и анализа.
источник