Что вы думаете о применении методов машинного обучения, таких как случайные леса или штрафная регрессия (со штрафом L1 или L2 или их комбинацией) в небольших выборочных клинических исследованиях, когда цель состоит в том, чтобы выделить интересные предикторы в контексте классификации? Это не вопрос выбора модели, и я не спрашиваю, как найти оптимальные оценки переменного эффекта / важности. Я не планирую делать сильный вывод, а просто использую многомерное моделирование, следовательно, избегая тестирования каждого предиктора на предмет результатов, представляющих интерес, по одному и принимая во внимание их взаимосвязи.
Мне просто интересно, применялся ли такой подход в данном конкретном крайнем случае, скажем, 20-30 субъектов с данными по 10-15 категориальным или непрерывным переменным. Это не совсем случай и я думаю, что проблема здесь связана с количеством классов, которые мы пытаемся объяснить (которые часто плохо сбалансированы), и с (очень) малым n. Мне известна огромная литература по этой теме в контексте биоинформатики, но я не нашел никаких ссылок, связанных с биомедицинскими исследованиями с психометрически измеренными фенотипами (например, в нейропсихологических опросниках).
Любой намек или указатели на соответствующие документы?
Обновить
Я открыт для любых других решений для анализа данных такого типа, например, алгоритма C4.5 или его производных, методов правил ассоциации и любых методов анализа данных для контролируемой или полууправляемой классификации.
Ответы:
Я не видел, чтобы это использовалось за пределами биоинформатики / машинного обучения, но, возможно, вы можете быть первым :)
Как хороший представитель метода метода малых выборок из биоинформатики, логистическая регрессия с регуляризацией L1 может дать хорошее соответствие, когда число параметров экспоненциально по количеству наблюдений, не асимптотические доверительные интервалы могут быть получены с использованием неравенств типа Чернова (т.е. Дудик, (2004) например). Тревор Хасти проделал определенную работу, применив эти методы для идентификации генных взаимодействий. В приведенном ниже документе он использует его для определения значительных эффектов модели с 310 637 настраиваемыми параметрами, подходящими для выборки из 2200 наблюдений.
«Общегеномный анализ ассоциаций с помощью лассо штрафовал логистическую регрессию». Авторы: Hastie, T; Собель, E; Ву, т. Т; Чен, Ю. Ф.; Ланге, К Биоинформатика Том: 25 Выпуск: 6 ISSN: 1367-4803 Дата: 03/2009 Страницы: 714 - 721
Связанная презентация Виктории Стодден ( Выбор модели с гораздо большим количеством переменных, чем наблюдений )
источник
У меня было бы очень мало уверенности в обобщаемости результатов поискового анализа с 15 предикторами и размером выборки 20.
В таких обстоятельствах мой совет, как правило, заключается в том, чтобы ограничить анализ двумерными отношениями. Если вы берете байесовскую точку зрения, то я бы сказал, что ваши предыдущие ожидания одинаково, если не более важны, чем данные.
источник
Одно общее правило состоит в том, чтобы иметь как минимум 10-кратное количество экземпляров обучающих данных (не говоря уже о каких-либо данных испытаний / проверки и т. Д.), Поскольку в классификаторе есть настраиваемые параметры. Имейте в виду, что у вас есть проблема, когда вам нужны не только адекватные данные, но и репрезентативные данные. В конце концов, нет систематического правила, потому что при принятии этого решения очень много переменных. Как говорят Хасти, Тибширани и Фридман в «Элементах статистического обучения» (см. Главу 7):
Если вы новичок в этой области, я рекомендую прочитать эту короткую статью «Распознавание образов» из Энциклопедии биомедицинской инженерии, в которой дается краткое описание некоторых проблем с данными.
источник
Я могу заверить вас, что RF будет работать в этом случае, и его мера важности будет довольно проницательной (потому что не будет большого хвоста вводящих в заблуждение неважных атрибутов, как в стандартных (n << p) s). Сейчас я не могу вспомнить ни одной статьи, посвященной подобной проблеме, но я поищу ее.
источник
Если у вас есть дискретные входы, я пишу программу для прогнозирования пропущенных значений двоичного входа, учитывая предыдущие входы. Любые категории, например «1 из 6», могут быть преобразованы в двоичные биты, и это будет работать просто отлично; это не повлияет на это.
Цель алгоритма, который я пишу, состоит в том, чтобы научиться как можно быстрее математически. Следовательно, он имеет очень плохую временную и пространственную сложность (пространственная сложность около O (4 ^ N) !.
Но для этого вы получаете, по существу, однократное обучение для любой системы, состояние которой может быть выражено как битовый вектор. Например, полный сумматор имеет 8 различных состояний ввода. Алгоритм отлично выучит полный сумматор только после 8 различных тренировочных выборок. Кроме того, вы можете дать ему ответ и сделать так, чтобы он предсказал вопрос, или дал ему часть ответа и часть вопроса и попросил заполнить оставшиеся.
Если входные данные имеют много битов, это будет довольно много вычислений и памяти. Но если у вас очень мало образцов, или цель проекта такова, - это даст вам самые лучшие прогнозы.
Вы просто тренируете его с помощью битовых векторов, включая битовый вектор, биты которого неизвестны. Чтобы получить прогноз, вы также просто задаете ему битовый вектор, какие биты неизвестны, и какие биты вы хотите, чтобы он предсказал.
Исходный код доступен здесь: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/
источник