Мы часто слышим о шаблонах управления проектами и проектирования в компьютерных науках, но реже в статистическом анализе. Тем не менее, кажется, что решающим шагом на пути к созданию эффективного и долгосрочного статистического проекта является обеспечение организованности.
Я часто выступаю за использование R и последовательную организацию файлов в отдельных папках (файл необработанных данных, файл преобразованных данных, сценарии R, рисунки, заметки и т. Д.). Основная причина такого подхода заключается в том, что анализ может быть легче выполнить позже (например, когда вы забыли, как вы создали определенный график).
Каковы лучшие практики для статистического управления проектами или рекомендации, которые вы хотели бы дать из своего собственного опыта? Конечно, это относится к любому статистическому программному обеспечению. ( один ответ на пост, пожалуйста )
Ответы:
Я составляю краткий ряд руководств, которые я нашел для SO (как предложено @Shane), Biostar (далее BS) и для этого SE. Я изо всех сил старался признать право собственности на каждый предмет и выбрать первый или высоко оцененный ответ. Я также добавил свои собственные и помеченные элементы, которые являются специфическими для среды [R].
Управление данными
кодирование
Анализ
Versioning
Редактирование / Отчетность
В качестве дополнительного примечания Хэдли Уикхем предлагает всесторонний обзор управления проектами R , включая воспроизводимые примеры и единую философию данных .
Наконец, в своем R-ориентированном рабочем процессе анализа статистических данных Оливер Кирхкамп предлагает очень подробный обзор того, почему принятие и соблюдение определенного рабочего процесса поможет статистикам сотрудничать друг с другом, обеспечивая при этом целостность данных и воспроизводимость результатов. Это также включает в себя некоторое обсуждение использования системы ткачества и контроля версий. Пользователи Stata также могут найти полезными книгу Дж. Скотта Лонга « Рабочий процесс анализа данных с использованием Stata» .
источник
Это не дает конкретного ответа, но вы, возможно, захотите взглянуть на следующие связанные вопросы:
Вас также может заинтересовать недавний проект Джона Майлза Уайта по созданию шаблона статистического проекта.
источник
Это совпадает с ответом Шейна, но, на мой взгляд, есть два основных направления:
источник
ван Belle является источником правил успешных проектов в области статистики.
источник
Просто мои 2 цента. Я нашел Notepad ++ полезным для этого. Я могу поддерживать отдельные сценарии (управление программой, форматирование данных и т. Д.) И файл .pad для каждого проекта. Вызов файла .pad - это все сценарии, связанные с этим проектом.
источник
Хотя другие ответы великолепны, я бы добавил еще одно мнение: избегайте использования SPSS. Я использовал SPSS для моей магистерской диссертации и теперь на моей постоянной работе в области исследования рынка.
Работая с SPSS, было невероятно сложно разработать организованный статистический код из-за того, что SPSS плохо обрабатывает несколько файлов (конечно, вы можете обрабатывать несколько файлов, но это не так безболезненно, как R), потому что вы не можете хранить наборы данных к переменной - вы должны использовать код набора данных «активировать x», который может быть очень болезненным. Кроме того, синтаксис неуклюж и поощряет сокращения, которые делают код еще более нечитаемым.
источник
Jupyter Notebooks, которые работают с R / Python / Matlab / etc, избавляют от необходимости запоминать, какой скрипт генерирует определенную фигуру. Этот пост описывает аккуратный способ держать код и рисунок рядом друг с другом. Хранение всех рисунков для статьи или тезисной главы в одной записной книжке облегчает поиск кода с привязкой.
Более того, даже лучше, потому что вы можете прокрутить, скажем, дюжину цифр, чтобы найти нужную. Код остается скрытым, пока он не понадобится.
источник