Вопросы с тегом «feature-selection»

Методы и принципы выбора подмножества атрибутов для использования в дальнейшем моделировании

193
Алгоритмы автоматического выбора модели

Я хотел бы реализовать алгоритм автоматического выбора модели. Я имею в виду пошаговую регрессию, но все будет хорошо (хотя она должна основываться на линейных регрессиях). Моя проблема в том, что я не могу найти методологию или реализацию с открытым исходным кодом (я просыпаюсь в Java)....

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

76
Почему Лассо обеспечивает Выбор Переменных?

Я читал « Элементы статистического обучения» и хотел бы знать, почему Лассо обеспечивает выбор переменных, а регрессия гребней - нет. Оба метода минимизируют остаточную сумму квадратов и имеют ограничение на возможные значения параметров ββ\beta . Для Лассо ограничение ||β||1≤t||β||1≤t||\beta||_1...

76
Выбор функции для «окончательной» модели при выполнении перекрестной проверки в машинном обучении

Я немного запутался в выборе функций и машинном обучении, и мне было интересно, можете ли вы помочь мне. У меня есть набор данных микрочипов, который классифицируется на две группы и имеет 1000 функций. Моя цель - получить небольшое количество генов (мои особенности) (10-20) в сигнатуре, которую я...

76
Выбор функции и перекрестная проверка

Недавно я много читал на этом сайте (@Aniko, @Dikran Marsupial, @Erik) и в других местах о проблеме переоснащения, возникающего при перекрестной проверке (Smialowski et al 2010, Биоинформатика, Hastie, Элементы статистического обучения). Предполагается, что любой контролируемый выбор признаков (с...

68
Нужен ли выбор переменных для прогнозного моделирования в 2016 году?

Этот вопрос был задан в CV несколько лет назад, и кажется, что стоит сделать репост в свете 1) лучшей вычислительной технологии на порядок (например, параллельные вычисления, HPC и т. Д.) И 2) более новой техники, например [3]. Сначала немного контекста. Давайте предположим, что целью является не...

60
Каковы недостатки использования лассо для выбора переменных для регрессии?

Из того, что я знаю, использование лассо для выбора переменных решает проблему коррелированных входных данных. Кроме того, поскольку он эквивалентен регрессии наименьшего угла, он не медленный в вычислительном отношении. Тем не менее, многие люди (например, те, кого я знаю, занимаюсь...

57
Переменные часто корректируются (например, стандартизируются) перед созданием модели - когда это хорошая идея, а когда плохая?

В каких обстоятельствах вы хотите или не хотите масштабировать или стандартизировать переменную до подбора модели? И каковы преимущества / недостатки масштабирования...

55
Более определенное обсуждение выбора переменных

Фон Я занимаюсь клиническими исследованиями в области медицины и прошел несколько курсов по статистике. Я никогда не публиковал статью с использованием линейной / логистической регрессии и хотел бы правильно выбирать переменные. Интерпретируемость важна, поэтому нет причудливых методов машинного...

54
Использование анализа основных компонентов (PCA) для выбора функций

Я новичок в выборе функций, и мне было интересно, как вы будете использовать PCA для выбора функций. Вычисляет ли PCA относительную оценку для каждой входной переменной, которую можно использовать для фильтрации неинформативных входных переменных? По сути, я хочу иметь возможность упорядочивать...

50
Можно ли использовать случайный лес для выбора признаков в множественной линейной регрессии?

Так как RF может обрабатывать нелинейность, но не может предоставить коэффициенты, было бы разумно использовать случайный лес для сбора наиболее важных признаков, а затем включить эти объекты в модель множественной линейной регрессии для получения их коэффициентов?...

43
Особенности классификации временных рядов

Я рассматриваю проблему (мультиклассовой) классификации на основе временных рядов переменной длины , то есть найти функцию через глобальное представление серии времени с помощью набора выбранных функций фиксированного размера зависящего от , а затем используйте стандартные методы классификации для...

42
Как интерпретировать весовые характеристики SVM?

Я пытаюсь интерпретировать переменные веса, заданные путем подбора линейного SVM. (Я использую scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Я не могу найти ничего в документации, в которой конкретно указано, как эти веса рассчитываются...

39
Использование LASSO из пакета lars (или glmnet) в R для выбора переменных

Извините, если этот вопрос встречается немного базовым. Я хочу использовать выбор переменных LASSO для модели множественной линейной регрессии в R. У меня есть 15 предикторов, один из которых является категориальным (вызовет ли это проблему?). После установки моих и я использую следующие...

37
Когда следует включать переменную в регрессию, несмотря на то, что она не является статистически значимой?

Я студент-экономист с некоторым опытом работы с эконометрикой и R. Я хотел бы знать, есть ли когда-нибудь ситуация, когда мы должны включить переменную в регрессию, несмотря на то, что она не является статистически...

35
Выбор переменных для включения в модель множественной линейной регрессии

В настоящее время я работаю над созданием модели с использованием множественной линейной регрессии. После того, как я возился с моей моделью, я не уверен, как лучше определить, какие переменные оставить, а какие удалить. Моя модель началась с 10 предикторов для DV. При использовании всех 10...

31
Обнаружение значимых предикторов из множества независимых переменных

В наборе данных из двух непересекающихся групп населения (пациенты и здоровые, всего ) я хотел бы найти (из независимых переменных) значимые предикторы для непрерывной зависимой переменной. Корреляция между предикторами присутствует. Я заинтересован в том, чтобы выяснить, связан ли какой-либо из...

31
Почему выбор переменных необходим?

Общие процедуры выбора переменных на основе данных (например, прямое, обратное, пошаговое, все подмножества) имеют тенденцию приводить к появлению моделей с нежелательными свойствами, включая: Коэффициенты смещены от нуля. Слишком малые стандартные ошибки и слишком узкие доверительные интервалы....

29
Процедура выбора переменной для двоичной классификации

Какие переменные / характеристики вы предпочитаете для бинарной классификации, когда в наборе обучения гораздо больше переменных / функций, чем наблюдений? Цель здесь состоит в том, чтобы обсудить, какова процедура выбора признаков, которая наилучшим образом уменьшает ошибку классификации. Мы можем...