Применение методов машинного обучения в небольших выборочных клинических исследованиях.

15

Что вы думаете о применении методов машинного обучения, таких как случайные леса или штрафная регрессия (со штрафом L1 или L2 или их комбинацией) в небольших выборочных клинических исследованиях, когда цель состоит в том, чтобы выделить интересные предикторы в контексте классификации? Это не вопрос выбора модели, и я не спрашиваю, как найти оптимальные оценки переменного эффекта / важности. Я не планирую делать сильный вывод, а просто использую многомерное моделирование, следовательно, избегая тестирования каждого предиктора на предмет результатов, представляющих интерес, по одному и принимая во внимание их взаимосвязи.

Мне просто интересно, применялся ли такой подход в данном конкретном крайнем случае, скажем, 20-30 субъектов с данными по 10-15 категориальным или непрерывным переменным. Это не совсем случай и я думаю, что проблема здесь связана с количеством классов, которые мы пытаемся объяснить (которые часто плохо сбалансированы), и с (очень) малым n. Мне известна огромная литература по этой теме в контексте биоинформатики, но я не нашел никаких ссылок, связанных с биомедицинскими исследованиями с психометрически измеренными фенотипами (например, в нейропсихологических опросниках).np

Любой намек или указатели на соответствующие документы?

Обновить

Я открыт для любых других решений для анализа данных такого типа, например, алгоритма C4.5 или его производных, методов правил ассоциации и любых методов анализа данных для контролируемой или полууправляемой классификации.

хл
источник
Просто чтобы прояснить: ваш вопрос касается размера данных, а не настройки, верно?
Шейн
Точно, мне интересно, есть ли какие-либо ссылки на «наименьшее» n (по отношению к большому количеству переменных), или, точнее, если какие-либо методы перекрестной проверки (или стратегия повторной выборки, как в RF) остаются в силе в таком крайнем случае ,
ЧЛ

Ответы:

7

Я не видел, чтобы это использовалось за пределами биоинформатики / машинного обучения, но, возможно, вы можете быть первым :)

Как хороший представитель метода метода малых выборок из биоинформатики, логистическая регрессия с регуляризацией L1 может дать хорошее соответствие, когда число параметров экспоненциально по количеству наблюдений, не асимптотические доверительные интервалы могут быть получены с использованием неравенств типа Чернова (т.е. Дудик, (2004) например). Тревор Хасти проделал определенную работу, применив эти методы для идентификации генных взаимодействий. В приведенном ниже документе он использует его для определения значительных эффектов модели с 310 637 настраиваемыми параметрами, подходящими для выборки из 2200 наблюдений.

«Общегеномный анализ ассоциаций с помощью лассо штрафовал логистическую регрессию». Авторы: Hastie, T; Собель, E; Ву, т. Т; Чен, Ю. Ф.; Ланге, К Биоинформатика Том: 25 Выпуск: 6 ISSN: 1367-4803 Дата: 03/2009 Страницы: 714 - 721

Связанная презентация Виктории Стодден ( Выбор модели с гораздо большим количеством переменных, чем наблюдений )

Ярослав Булатов
источник
Да, У и соавт. 2009 - хорошая статья. Кстати, я работал над GWAS и ML в течение последних двух лет; теперь я пытаюсь вернуться к клиническим исследованиям, где большую часть времени нам приходится иметь дело с несовершенными измерениями, отсутствующими данными и, конечно же ... множеством интересных переменных с точки зрения физика!
ЧЛ
Кстати, я только что натолкнулся на статью, которая заставила меня задуматься над этим вопросом ... статьи по машинному обучению очень редко говорят о доверительных интервалах, но вот заметное исключение ncbi.nlm.nih.gov/pubmed/19519325
Ярослав Булатов
nnpnп
Это очень интересный вопрос. Я собрал некоторые из этих и некоторых других статей в своем блоге (надеюсь, вы не против). Я уверен, что есть и другие.
Андрей
5

У меня было бы очень мало уверенности в обобщаемости результатов поискового анализа с 15 предикторами и размером выборки 20.

  • Доверительные интервалы оценок параметров будут большими. Например, 95% доверительный интервал для r = .30 с n = 20 составляет от -0.17 до 0.66.
  • Проблемы, как правило, усугубляются, когда у вас есть несколько предикторов, используемых в исследовательском и управляемом данными виде.

В таких обстоятельствах мой совет, как правило, заключается в том, чтобы ограничить анализ двумерными отношениями. Если вы берете байесовскую точку зрения, то я бы сказал, что ваши предыдущие ожидания одинаково, если не более важны, чем данные.

Джером англим
источник
4

Одно общее правило состоит в том, чтобы иметь как минимум 10-кратное количество экземпляров обучающих данных (не говоря уже о каких-либо данных испытаний / проверки и т. Д.), Поскольку в классификаторе есть настраиваемые параметры. Имейте в виду, что у вас есть проблема, когда вам нужны не только адекватные данные, но и репрезентативные данные. В конце концов, нет систематического правила, потому что при принятии этого решения очень много переменных. Как говорят Хасти, Тибширани и Фридман в «Элементах статистического обучения» (см. Главу 7):

слишком сложно дать общее правило о том, сколько данных о тренировке достаточно; среди прочего, это зависит от отношения сигнал / шум базовой функции и сложности моделей, подгоняемых к данным.

Если вы новичок в этой области, я рекомендую прочитать эту короткую статью «Распознавание образов» из Энциклопедии биомедицинской инженерии, в которой дается краткое описание некоторых проблем с данными.

Шейн
источник
Благодарность! У меня есть книга Хасти и книги К. Бишопа (Распознавание образов и машинное обучение). Я знаю, что такой маленький n приведет к фиктивной или ненадежной (см. Комментарий Jeromy Anglim). Тем не менее, алгоритм RF, реализованный Брейманом, позволяет справляться с ограниченным количеством функций каждый раз, когда дерево растет (в моем случае, 3 или 4) и, хотя частота ошибок OOB довольно высока (но этого следует ожидать), анализируя переменная важность привела меня к выводу, что я бы пришел к аналогичному выводу, используя двумерные тесты (с тестом перестановки).
ЧЛ
1
Это эмпирическое правило в основном применимо к классическим методам, таким как регуляризованное максимальное правдоподобие l2, регуляризованные методы L1 могут эффективно учиться, когда число настраиваемых параметров экспоненциально по количеству наблюдений (т. Е. Miroslav Dudik, 2004 COLT paper)
Ярослав Булатов,
3

Я могу заверить вас, что RF будет работать в этом случае, и его мера важности будет довольно проницательной (потому что не будет большого хвоста вводящих в заблуждение неважных атрибутов, как в стандартных (n << p) s). Сейчас я не могу вспомнить ни одной статьи, посвященной подобной проблеме, но я поищу ее.


источник
1
Благодарность! В прошлом месяце я присутствовал на IV конференции EAM-SMABS, и один из докладчиков представил применение ML в биомедицинском исследовании; к сожалению, это было несколько «стандартное» исследование с N ~ 300 субъектами и p = 10 предикторами. Он собирается представить статью в Статистику в области медицины . То, что я ищу, это просто статьи / ссылки по отношению к. стандартное клиническое исследование, например, с амбулаторными пациентами, где обобщение результатов не является большой проблемой.
ЧЛ
Вы нашли какую-нибудь бумагу наконец?
CHL
@chl Еще нет; но спасибо за напоминание.
Спешить некуда :) Самого интересного не нашел; может быть, Pubmed не является подходящей поисковой системой для этого конкретного случая ...
chl
@chl Это тоже моя проблема. Кажется, что n << p стало синонимом биомедицинских данных.
0

Если у вас есть дискретные входы, я пишу программу для прогнозирования пропущенных значений двоичного входа, учитывая предыдущие входы. Любые категории, например «1 из 6», могут быть преобразованы в двоичные биты, и это будет работать просто отлично; это не повлияет на это.

Цель алгоритма, который я пишу, состоит в том, чтобы научиться как можно быстрее математически. Следовательно, он имеет очень плохую временную и пространственную сложность (пространственная сложность около O (4 ^ N) !.

Но для этого вы получаете, по существу, однократное обучение для любой системы, состояние которой может быть выражено как битовый вектор. Например, полный сумматор имеет 8 различных состояний ввода. Алгоритм отлично выучит полный сумматор только после 8 различных тренировочных выборок. Кроме того, вы можете дать ему ответ и сделать так, чтобы он предсказал вопрос, или дал ему часть ответа и часть вопроса и попросил заполнить оставшиеся.

Если входные данные имеют много битов, это будет довольно много вычислений и памяти. Но если у вас очень мало образцов, или цель проекта такова, - это даст вам самые лучшие прогнозы.

Вы просто тренируете его с помощью битовых векторов, включая битовый вектор, биты которого неизвестны. Чтобы получить прогноз, вы также просто задаете ему битовый вектор, какие биты неизвестны, и какие биты вы хотите, чтобы он предсказал.

Исходный код доступен здесь: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

Кевин Баас
источник