Исследовательский анализ данных (EDA) часто приводит к исследованию других «следов», которые не обязательно принадлежат исходному набору гипотез. Я сталкиваюсь с такой ситуацией в случае исследований с ограниченным размером выборки и большим количеством данных, собранных с помощью различных вопросников (социально-демографические данные, нейропсихологические или медицинские шкалы - например, умственное или физическое функционирование, уровень депрессии / тревоги, контрольный список симптомов). ). Бывает, что EDA помогает выделить некоторые неожиданные отношения («неожиданные», означающие, что они не были включены в первоначальный план анализа), что выражается в дополнительных вопросах / гипотезах.
Как и в случае с переобучением, выемка данных или отслеживание приводят к результатам, которые не обобщаются. Однако, когда доступно много данных, довольно трудно (для исследователя или врача) постулировать ограниченный набор гипотез.
Я хотел бы знать, существуют ли общепризнанные методы, рекомендации или практические правила, которые могут помочь определить ЭДА в случае исследований с малой выборкой.
Ответы:
Я думаю, что главное, чтобы быть честным, сообщая о таких результатах, что они были неожиданными результатами от EDA, а не частью первоначального плана анализа, основанного на априорной гипотезе. Некоторые люди любят обозначать такие результаты как «генерирование гипотезы»: например, первое попадание при поиске этой фразы в Google Scholar включает следующее в заключительный раздел резюме:
Поскольку это был «исследовательский» анализ, этот эффект следует рассматривать как генерацию гипотез и оценивать перспективно в других исследованиях ...
Хотя обратите внимание, что хотя это был подгрупповой анализ, он был из рандомизированного контрольного исследования, а не наблюдательного исследования, в котором проблема усугубляется. Филипп Коул презирал идею о том, что обсервационные («эпидемиологические») исследования могут генерировать гипотезы в намеренно провокационном, но занимательном комментарии:
П Коул. Машина, генерирующая гипотезу. Эпидемиология 1993; 4 : 271-273.
источник
Я просто опускаю некоторые ссылки на данные дноуглубительных работ и клинических исследований для заинтересованного читателя Это сделано для того, чтобы расширить хороший ответ @onestop . Я старался избегать статей, сосредоточенных только на множественных сравнениях или проблемах проектирования, хотя исследования с множественными конечными точками продолжают представлять сложные и противоречивые дискуссии (спустя много времени после заявлений Ротмана о бесполезных корректировках , Эпидемиология 1990, 1: 43-46; или см. Обзор Фейза в BMC). Методология медицинских исследований 2002, 2: 8).
Насколько я понимаю, хотя я и говорил об аналитическом анализе данных , мой вопрос в более общем плане касается использования интеллектуального анализа данных с его потенциальными подводными камнями параллельно тестированию на основе гипотез.
источник