Вопрос: Есть ли хорошие примеры воспроизводимых исследований с использованием R, которые свободно доступны онлайн?
Идеальный пример. В частности, идеальные примеры могли бы обеспечить:
- Необработанные данные (и в идеале метаданные, поясняющие данные),
- Весь код R, включая импорт, обработку, анализ и генерацию данных,
- Sweave или какой-то другой подход для привязки окончательного результата к итоговому документу,
- Все в формате, который легко загружается и компилируется на компьютере читателя.
В идеале, примером может быть статья в журнале или тезис, где акцент делается на реальной прикладной теме, а не на статистическом учебном примере.
Причины интереса: меня особенно интересуют прикладные темы в журнальных статьях и тезисах, потому что в этих ситуациях возникает несколько дополнительных вопросов:
- Возникают проблемы, связанные с очисткой и обработкой данных,
- Возникают проблемы, связанные с управлением метаданными,
- Журналы и тезисы часто имеют ориентиры по стилю относительно внешнего вида и форматирования таблиц и рисунков,
- Многие журналы и тезисы часто имеют широкий спектр анализов, которые поднимают вопросы, касающиеся рабочего процесса (например, как упорядочить анализ) и времени обработки (например, вопросы анализа кэширования и т. Д.).
Просмотр полных рабочих примеров может дать хороший учебный материал для исследователей, начинающих с воспроизводимых исследований.
источник
Неразвитость NCI60 Предикторы химиотерапии
Это воспроизводимый анализ, показывающий отсутствие воспроизводимости статьи, которая была в новостях. Клиническое испытание, основанное на ложных выводах из невоспроизводимой статьи, было приостановлено, восстановлено, вновь приостановлено ... Это хороший пример воспроизводимого анализа в новостях.
источник
У меня есть несколько таких примеров на моей странице научных работ . (Мне не разрешено публиковать более одной гиперссылки в качестве нового участника. Поэтому я просто опишу статьи на этом сайте.)
(1) «Создание эффектов в рандомизированных экспериментах» использует систему виньеток R.
(2) «Присвоение эффектов кластерной рандомизированной кампании« Выйти-и-голос »» было более сложным документом, включающим некоторые трудоемкие симуляции. Мы использовали систему на основе Makefile и разместили ее в Dataverse
(3) «EDA для HLM» была моей первой попыткой. Здесь я просто поместил данные и связанные файлы Sweave в архив.
Одна проблема, которую мы обнаружили при создании нашего архива JASA, заключалась в том, что версии и значения по умолчанию для пакетов CRAN изменились. Итак, в этот архив мы также включили версии пакетов, которые мы использовали. Система, основанная на виньетировании, вероятно, сломается, поскольку люди меняют свои пакеты (не уверен, как включить дополнительные пакеты в пакет, который является Компендиумом).
Наконец, мне интересно, что делать, когда само R меняется. Существуют ли способы создания, скажем, виртуальной машины, которая воспроизводит всю вычислительную среду, используемую для бумаги, так, чтобы виртуальная машина не была огромной?
Во всяком случае, я надеюсь, что эти примеры помогут. По крайней мере, они показывают некоторые из моих собственных экспериментов в этой области.
(Вот некоторые текстовые гиперссылки.)
источник
Koenker и Zeileis предоставляют веб-страницу с относительно полным примером. Они делят:
источник
Мы написали статью, объясняющую, как использовать R / Bioconductor при анализе данных микрочипов. Документ был написан на Sweave, и весь код, использованный для создания графиков, включен в качестве дополнительного материала.
Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010. Анализ данных микрочипов временного курса дрожжей с использованием BioConductor: тематическое исследование с использованием массивов дрожжей2 Affymetrix BMC Research Notes, 3:81.
источник
На странице Чарльза Гейера на Sweave есть пример из диссертации, который отвечает некоторым вашим требованиям (необработанные данные просто из пакета R, но доступны код R / sweave и окончательный PDF):
( Исходный файл связан с разделом «Дополнительные материалы для бумаги».)
Я знаю, что сталкивался хотя бы с одним примером R, просматривавшим страницу материала ReproducibleResearch.net , но, к сожалению, не добавил его в закладки.
источник
У Саймона Джекмана есть особенно полезный пример анализа результатов опроса: «Американцы и австралийцы спустя 10 лет после 11 сентября». Он имеет несколько примеров интеграции таблиц и рисунков.
Он сделал документ Sweave и отчет в формате PDF через это сообщение в блоге .
Хотя исходные данные не предоставляются (насколько я могу судить), поэтому невозможно запустить реальные примеры Sweave, я думаю, что при изучении кода Sweave можно извлечь немалую пользу.
источник
Нил Сондерс проанализировал онлайн-взаимодействия, связанные с конференцией. Несколько свойств, которые делают его полезным примером Sweave, включают:
ggplot
Материалы доступны здесь:
источник
Также посмотрите на журнал статистического программного обеспечения ; они поощряют делать бумаги в Sweave.
источник
Я нашел хорошие в прошлом и опубликую, как только выкопаю их, но несколько быстрых общих советов:
источник
Роберт Джентльман написал статью под названием «Воспроизводимые исследования: тематическое исследование по биоинформатике»
Он реализует короткий набор анализов в виде пакета R и использует Sweave. Это также обсуждает использование Sweave более широко.
В разделе «Связанные файлы» на странице статьи приведен архивный файл всех используемых файлов и папок.
Ссылка:
источник
http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1
Хорошая статья, написанная моим товарищем по лаборатории. Наш PI был очень доволен, когда пришло что-то похожее на письмо фанатов. Теперь все публикации группы имеют дополнительные методы, изложенные в LaTeX / Sweave. Некоторые из бумаг тоже (не могу решить, оставить ли мне в LyX / Sweave или сбросить и просто сделать дополнения в Sweave).
источник
Поиск примеров и методов - хороший способ изучения, но я просто хотел упомянуть, что воспроизводимость имеет не только техническую сторону / сторону повторного запуска скрипта, но также аспект стиля и структурирования кода, минимизацию побочных эффектов в основных функциях и т. Д. Я лично обнаружил, что Книга Чамберса «Программное обеспечение для анализа данных» позволяет более глубоко понять методы, которые помогают избежать проблем надежности и воспроизводимости на уровне кода R.
источник
если вам все еще нужен отличный пример полностью воспроизводимого анализа плюс бумага, используйте этот репозиторий .
@Jscamac проделал большую работу, сделав свой анализ результативным, и я лично проверил его.
Вы можете полагаться на то, как использовать R-специфичные функции, такие как пакет,
remake
для обеспечения воспроизводимости.Остерегайтесь / расчеты занимают около часа.
Все это написано по сценарию и выдает LaTeX-бумагу в конце с цифрами.
источник