Вопросы с тегом «feature-selection»

18
Скорость, вычислительные затраты PCA, LASSO, эластичная сеть

Я пытаюсь сравнить сложность вычислений / скорость оценки трех групп методов для линейной регрессии, как это различается в Hastie et al. «Элементы статистического обучения» (2-е изд.), Глава 3: Выбор подмножества Методы усадки Методы с использованием производных направлений ввода (PCR, PLS)...

17
Понимание того, какие особенности были наиболее важны для логистической регрессии

Я построил классификатор логистической регрессии, который очень точен в моих данных. Теперь я хочу лучше понять, почему это так хорошо работает. В частности, я хотел бы оценить, какие функции вносят наибольший вклад (какие функции являются наиболее важными) и, в идеале, количественно оценить,...

17
Вывод после использования Лассо для выбора переменных

Я использую Лассо для выбора объектов в относительно низкой размерности (n >> p). После подбора модели Лассо я хочу использовать ковариаты с ненулевыми коэффициентами, чтобы соответствовать модели без штрафа. Я делаю это, потому что хочу объективных оценок, которые Лассо не может дать мне. Я...

17
В случайном лесу больше% IncMSE лучше или хуже?

После того как я построил (R) модель случайного леса в R, вызов rf$importanceпредоставляет мне две меры для каждой переменной-предиктора, %IncMSEи IncNodePurity. Является ли интерпретация того, что предикторные переменные с меньшими %IncMSEзначениями важнее, чем предикторные переменные с большими...

16
Выбор объектов со случайными лесами

У меня есть набор данных с в основном финансовыми переменными (120 функций, 4k примеров), которые в основном сильно коррелированы и очень шумные (например, технические индикаторы), поэтому я хотел бы выбрать около 20-30 максимум для последующего использования с обучением модели (бинарная...

16
Низкая точность классификации, что делать дальше?

Итак, я новичок в области ОД и пытаюсь провести некоторую классификацию. Моя цель - предсказать исход спортивного события. Я собрал некоторые исторические данные и сейчас пытаюсь обучить классификатор. Я получил около 1200 сэмплов, 0,2 из которых я разделил для целей тестирования, другие я включил...

15
Разница между выбором признаков на основе «F-регрессии» и на основе значений

Использует ли сравнение элементов F-regressionто же самое, что и сопоставление элементов с меткой по отдельности и соблюдение значения ?р2R2R^2 Я часто видел, как мои коллеги использовали F regressionдля выбора функций в своем конвейере машинного обучения из sklearn:...

15
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...

15
Уменьшение Джини и примеси Джини у детей

Я работаю над критерием важности функции Джини для случайного леса. Следовательно, мне нужно рассчитать уменьшение Джини примеси в узле. Вот как я это делаю, что приводит к конфликту с определением, предполагающим, что я где-то ошибаюсь ... :) Для бинарного дерева и с учетом вероятностей левого и...

15
Для линейных классификаторов, большие коэффициенты подразумевают более важные особенности?

Я инженер-программист, работающий над машинным обучением. Насколько я понимаю, линейная регрессия (например, OLS) и линейная классификация (например, логистическая регрессия и SVM) делают прогноз на основе внутреннего произведения между обучаемыми коэффициентами и характеристическими переменными...

15
Как именно работает выбор элемента хи-квадрат?

Я знаю, что для каждой пары классов пространственных объектов значение статистики хи-квадрат вычисляется и сравнивается с пороговым значением. Я немного смущен, хотя. Если имеется объектов и классов, как построить таблицу сопряженности? Как решить, какие функции оставить, а какие удалить?ммmККk...

15
LASSO / LARS против общего к специфическому (GETS) методу

Мне было интересно, почему методы выбора моделей LASSO и LARS так популярны, даже если они в основном представляют собой просто варианты пошагового прямого выбора (и, следовательно, страдают от зависимости пути)? Точно так же, почему методы General to Specific (GETS) для выбора модели в основном...

15
Лучше ли проводить анализ разведочных данных только на наборе обучающих данных?

Я делаю предварительный анализ данных (EDA) на наборе данных. Затем я выберу некоторые функции для прогнозирования зависимой переменной. Вопрос в том, должен ли я делать EDA только для своего набора данных для обучения? Или я должен объединить учебные и тестовые наборы данных, а затем выполнить EDA...

15
Смешивать непрерывные и двоичные данные с линейным SVM?

Так что я играл с SVM, и мне интересно, хорошо ли это делать: У меня есть набор непрерывных функций (от 0 до 1) и набор категориальных функций, которые я преобразовал в фиктивные переменные. В этом конкретном случае я кодирую дату измерения в фиктивной переменной: У меня есть 3 периода, из которых...

15
Text Mining: как кластеризовать тексты (например, новостные статьи) с помощью искусственного интеллекта?

Я построил некоторые нейронные сети (MLP (полностью подключенные), Elman (рекуррентные)) для различных задач, таких как игра в понг, классификация рукописных цифр и прочее ... Кроме того, я попытался создать несколько первых сверточных нейронных сетей, например, для классификации многозначных...

15
Применение методов машинного обучения в небольших выборочных клинических исследованиях.

Что вы думаете о применении методов машинного обучения, таких как случайные леса или штрафная регрессия (со штрафом L1 или L2 или их комбинацией) в небольших выборочных клинических исследованиях, когда цель состоит в том, чтобы выделить интересные предикторы в контексте классификации? Это не вопрос...

14
Как упорядочить выбор функций и оптимизацию гиперпараметров в конвейере машинного обучения?

Моя цель - классифицировать сигналы датчиков. Концепция моего решения на данный момент такова: i) Инженерные функции из необработанного сигнала ii) Выбор соответствующих функций с ReliefF и подходом кластеризации iii) Применение NN, Random Forest и SVM Однако я попал в ловушку дилеммы. В ii) и iii)...

14
Выбор байесовской переменной - действительно ли это работает?

Я подумал, что могу поиграть с некоторыми байесовскими переменными, после хорошего поста в блоге и связанных с ним статей. Я написал программу на rjags (где я довольно новичок) и получил данные о ценах на Exxon Mobil, а также некоторые вещи, которые вряд ли могут объяснить его доходность (например,...

14
Какой алгоритм прямой поэтапной регрессии?

Может быть, я просто устал, но у меня возникли проблемы при попытке понять алгоритм прямой поэтапной регрессии. Из раздела «Элементы статистического обучения», стр. 60: Прямая стадия регрессии (FS) еще более ограничена, чем прямая пошаговая регрессия. Он начинается как пошаговая регрессия вперед, с...

14
ГАМ против проигрыша против сплайнов

Контекст : Я хочу , чтобы нарисовать линию в диаграмме рассеяния , что не появляется параметрическими, поэтому я использую geom_smooth()в ggplotв R. Он автоматически возвращает geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use...