Вопросы с тегом «feature-selection»

28
Как бороться с мультиколлинеарностью при выборе переменных?

У меня есть набор данных с 9 непрерывными независимыми переменными. Я пытаюсь выбрать среди этих переменных, чтобы подогнать модель к одной процентной (зависимой) переменной Score. К сожалению, я знаю, что между несколькими переменными будет серьезная коллинеарность. Я пытался использовать...

27
Что может привести к тому, что PCA ухудшит результаты классификатора?

У меня есть классификатор, по которому я делаю перекрестную проверку, а также около сотни функций, по которым я делаю предварительный выбор, чтобы найти оптимальные комбинации функций. Я также сравниваю это с проведением тех же экспериментов с PCA, где я беру потенциальные особенности, применяю...

27
Могут ли степени свободы быть нецелым числом?

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...

26
Зачем использовать оценки Лассо над оценками OLS для Лассо-идентифицированного подмножества переменных?

Для регрессии Лассо предположим что лучшее решение (например, минимальная ошибка тестирования) выбирает k функций, так что \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ right) .K β л ы ы о = ( β л с ы о 1 ,...

23
Точность теста выше, чем обучение. Как интерпретировать?

У меня есть набор данных, содержащий не более 150 примеров (разделенных на обучение и тестирование) со многими функциями (более 1000). Мне нужно сравнить классификаторы и методы выбора функций, которые хорошо работают с данными. Итак, я использую три метода классификации (J48, NB, SVM) и 2 метода...

22
Стабильность модели при решении большой проблемы , small

Вступление: У меня есть набор данных с классической «большой p, маленький n проблема». Количество доступных выборок n = 150, а количество возможных предикторов p = 400. Результат - непрерывная переменная. Я хочу найти самые «важные» дескрипторы, то есть те, которые являются лучшими кандидатами для...

22
Лучший подход для выбора модели байесовской или перекрестной проверки?

При попытке выбора между различными моделями или количеством функций, например, для прогнозирования, я могу придумать два подхода. Разделите данные на обучающие и тестовые наборы. Еще лучше использовать начальную загрузку или перекрестную проверку в k-кратном порядке. Каждый раз тренируйтесь на...

20
Как имеет смысл делать OLS после выбора переменной LASSO?

Недавно я обнаружил, что в литературе по прикладной эконометрике, когда речь идет о проблемах выбора признаков, нередко выполняется LASSO с последующей регрессией OLS с использованием выбранных переменных. Мне было интересно, как мы можем квалифицировать обоснованность такой процедуры. Это вызовет...

20
Почему LASSO не находит мою идеальную пару предикторов в высокой размерности?

Я провожу небольшой эксперимент с регрессией LASSO в R, чтобы проверить, сможет ли она найти идеальную пару предикторов. Пара определяется следующим образом: f1 + f2 = исход Результатом здесь является предопределенный вектор, называемый «возраст». F1 и f2 создаются путем взятия половины вектора...

20
Нужно ли нам еще выбирать функции при использовании алгоритмов регуляризации?

У меня есть один вопрос, касающийся необходимости использовать методы выбора признаков (значение важности признаков в случайных лесах или методы выбора однофакторных объектов и т. Д.) Перед запуском алгоритма статистического обучения. Мы знаем, что во избежание переобучения мы можем ввести штраф за...

19
Что такое «характерное пространство»?

Какое определение для "пространственного объекта"? Например, читая о SVM, я читал о «сопоставлении с пространством объектов». Когда я читал о CART, я читал о «разбиении на функциональное пространство». Я понимаю, что происходит, особенно для CART, но я думаю, что есть какое-то определение, которое...

19
Значение категориального предиктора в логистической регрессии

У меня проблемы с интерпретацией значений z для категориальных переменных в логистической регрессии. В приведенном ниже примере у меня есть категориальная переменная с 3 классами, и в соответствии со значением z CLASS2 может быть релевантным, а другие нет. Но что это значит? Чтобы я мог объединить...

19
Что сделать вывод из этого лассо-сюжета (glmnet)

Ниже приведен график glmnet с альфа-значением по умолчанию (1, следовательно, лассо) с использованием mtcarsнабора данных в R с использованием mpgв качестве DV и других в качестве переменных-предикторов. glmnet(as.matrix(mtcars[-1]), mtcars[,1]) Что мы можем сделать вывод из этого графика...

18
Парадокс в выборе модели (AIC, BIC, объяснить или предсказать?)

Прочитав книгу Галита Шмуэли «Объяснить или предсказать» (2010), я озадачен очевидным противоречием. Есть три помещения, Выбор модели на основе BIC по сравнению с BIC (конец стр. 300 - начало стр. 301): проще говоря, AIC следует использовать для выбора модели, предназначенной для прогнозирования, в...

18
Страдает ли LASSO от тех же проблем, что и ступенчатая регрессия?

Пошаговые алгоритмические методы выбора переменных имеют тенденцию выбирать для моделей, которые смещают более или менее каждую оценку в регрессионных моделях ( ββ\beta s и их SE, p-значения , F- статистику и т. Д.), И примерно с такой же вероятностью исключают истинные предикторы, как включают...

18
Является ли построение мультиклассового классификатора лучше, чем несколько бинарных?

Мне нужно классифицировать URL-адреса по категориям. Скажем, у меня есть 15 категорий, к которым я планирую обнулить каждый URL. Классификатор с 15 путями лучше? Где у меня есть 15 меток и генерировать функции для каждой точки данных. Или построить 15 бинарных классификаторов, скажем: Movie или...

18
Скорость, вычислительные затраты PCA, LASSO, эластичная сеть

Я пытаюсь сравнить сложность вычислений / скорость оценки трех групп методов для линейной регрессии, как это различается в Hastie et al. «Элементы статистического обучения» (2-е изд.), Глава 3: Выбор подмножества Методы усадки Методы с использованием производных направлений ввода (PCR, PLS)...