Вопросы с тегом «reproducible-research»

Практика исследований, заключающаяся в том, чтобы сделать общедоступным полное описание эксперимента, все собранные данные и все сценарии анализа данных, чтобы опубликованные результаты можно было воспроизвести где-либо еще.

94
Как много мы знаем о p-хакерстве «в дикой природе»?

Фраза p- взлома (также: «выемка данных» , «отслеживание» или «промысел») относится к различным видам статистической халатности, в которой результаты становятся искусственно статистически значимыми. Есть много способов добиться «более значительного» результата, включая, но не ограничиваясь: анализ...

71
Полные содержательные примеры воспроизводимых исследований с использованием R

Вопрос: Есть ли хорошие примеры воспроизводимых исследований с использованием R, которые свободно доступны онлайн? Идеальный пример. В частности, идеальные примеры могли бы обеспечить: Необработанные данные (и в идеале метаданные, поясняющие данные), Весь код R, включая импорт, обработку, анализ и...

71
Генерация случайной величины с определенной корреляцией с существующей переменной

Для исследования моделирования я должен генерировать случайные переменные , которые показывают prefined (населения) корреляцию с существующей переменной .YYY Я посмотрел на Rпакеты copulaи CDVineкоторые могут производить случайные многомерные распределения с заданной структурой зависимостей. Однако...

50
Как мы определяем «воспроизводимые исследования»?

Это возникло в нескольких вопросах сейчас, и мне было интересно о чем-то. Переместилось ли поле в целом к ​​«воспроизводимости» с акцентом на доступность исходных данных и рассматриваемого кода? Меня всегда учили, что ядром воспроизводимости не обязательно является, как я уже говорил, возможность...

42
Как заставить людей лучше заботиться о данных?

На моем рабочем месте работают сотрудники из самых разных дисциплин, поэтому мы генерируем данные в самых разных формах. Следовательно, каждая команда разработала свою собственную систему хранения данных. Некоторые используют базы данных Access или SQL; некоторые команды (к моему ужасу) почти...

36
Является ли p-значение бесполезным и опасным для использования?

Эта статья « Шансы, постоянно обновляемая» из NY Times привлекла мое внимание. Короче говоря, говорится, что [Байесовская статистика] оказывается особенно полезной при решении сложных проблем, в том числе поисков, подобных той, которую береговая охрана использовала в 2013 году, чтобы найти...

31
Как повысить долгосрочную воспроизводимость исследований (особенно с использованием R и Sweave)

Контекст: в ответ на предыдущий вопрос о воспроизводимых исследованиях Джейк написал Одна проблема, которую мы обнаружили при создании нашего архива JASA, заключалась в том, что версии и значения по умолчанию пакетов CRAN изменились. Итак, в этот архив мы также включили версии пакетов, которые мы...

28
Кому следовать на github, чтобы узнать о передовом опыте в анализе данных?

Полезно изучить код анализа данных экспертов. Недавно я просматривал github, и многие люди делятся там кодом анализа данных. Это включает в себя несколько пакетов R (которые, конечно, доступны непосредственно из CRAN), а также несколько примеров воспроизводимых исследований, особенно с...

26
Каковы некоторые стандартные практики для создания синтетических наборов данных?

В качестве контекста: при работе с очень большим набором данных меня иногда спрашивают, можем ли мы создать синтетический набор данных, в котором мы «знаем» отношения между предикторами и переменной ответа или отношения между предикторами. На протяжении многих лет я, кажется, сталкивался либо с...

23
Как рецензент, могу ли я оправдать запрос данных и кода доступными, даже если журнал этого не делает?

Поскольку наука должна быть воспроизводимой, по определению растет признание того, что данные и код являются важным компонентом воспроизводимости, как обсуждалось на круглом столе в Йельском университете для совместного использования данных и кода . При рассмотрении рукописи для журнала, который не...

20
Были ли воспроизведены современные результаты использования векторов абзацев для анализа настроений?

Я был впечатлен результатами в работе ICML 2014 года « Распределенное представление предложений и документов » Ле и Миколова. Техника, которую они описывают, называемая «векторами абзацев», изучает неконтролируемые представления произвольно длинных абзацев / документов на основе расширения модели...

17
Как создать цветные таблицы с помощью Sweave и Xtable? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую Sweave и Xtable для создания отчета. Я хотел бы добавить немного раскраски на стол. Но мне...

15
Что делать, если высокая точность проверки, но низкая точность испытаний в исследованиях?

У меня есть конкретный вопрос о проверке в исследованиях машинного обучения. Как мы знаем, режим машинного обучения требует от исследователей обучать свои модели данным обучения, выбирать модели-кандидаты по набору проверок и сообщать о точности на наборе испытаний. В очень строгом исследовании...

12
Варианты хостинга общедоступных данных

Итак, вы решили поддержать идею воспроизводимых исследований и хотите, чтобы ваши данные были доступны в Интернете для просмотра и использования людьми. Вопрос в том, где вы его размещаете? Моим первым стремлением, конечно, является частное веб-пространство, которое у меня есть на университетском...

10
Последствия текущих дебатов о статистической значимости

В последние несколько лет различные ученые поднимали пагубную проблему проверки научной гипотезы, получившую название «степень свободы исследователя», что означает, что ученые имеют множество вариантов выбора в ходе анализа, которые смещаются в сторону обнаружения с p-значением <5%. Эти...