Вопросы с тегом «feature-selection»

11
Байесовский оценщик невосприимчив к смещению отбора

Являются ли оценки Байеса невосприимчивыми к смещению отбора? В большинстве работ, в которых обсуждаются оценки в высоком измерении, например, данные о последовательности всего генома, часто возникает проблема смещения отбора. Смещение выбора обусловлено тем фактом, что, хотя у нас есть тысячи...

10
Как количественно оценить избыточность функций?

У меня есть три функции, которые я использую для решения проблемы классификации. Первоначально эти функции создавали логические значения, поэтому я мог оценить их избыточность, посмотрев, насколько перекрываются наборы положительных и отрицательных классификаций. Теперь я расширил возможности для...

10
Лучшие методы выбора признаков для непараметрической регрессии

Вопрос новичка здесь. В настоящее время я выполняю непараметрическую регрессию, используя пакет np в R. У меня есть 7 функций, и я использую метод грубой силы, я определил лучшие 3. Но скоро у меня будет гораздо больше, чем 7 функций! Мой вопрос заключается в том, каковы в настоящее время лучшие...

10
Улучшение SVM классификации диабета

Я использую SVM для прогнозирования диабета. Я использую набор данных BRFSS для этой цели. Набор данных имеет размеры и искажен. Процент s в целевой переменной составляет тогда как s составляют оставшиеся .432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% Я использую только 15из...

10
Есть ли способ использовать перекрестную проверку для выбора переменных / признаков в R?

У меня есть набор данных с около 70 переменных, которые я хотел бы сократить. Я хочу использовать CV, чтобы найти наиболее полезные переменные следующим образом. 1) Случайно выберите, скажем, 20 переменных. 2) Используйте stepwise/ LASSO/ lars/ etc для выбора наиболее важных переменных. 3)...

10
Работа с очень большими наборами данных временных рядов

У меня есть доступ к очень большому набору данных. Данные взяты из записей MEG людей, слушающих музыкальные отрывки из одного из четырех жанров. Данные следующие: 6 предметов 3 экспериментальных повторения (эпохи) 120 испытаний за эпоху 8 секунд данных на испытание при 500 Гц (= 4000 отсчетов) по...

10
Выбор функций с использованием взаимной информации в Matlab

Я пытаюсь применить идею взаимной информации к выбору функций, как описано в этих примечаниях к лекции (на странице 5). Моя платформа - Matlab. Одна проблема, которую я нахожу при вычислении взаимной информации из эмпирических данных, состоит в том, что число всегда смещено вверх. Я нашел около 3 ~...

10
Как LASSO выбирает среди коллинеарных предикторов?

Я ищу интуитивно понятный ответ, почему модель GLM LASSO выбирает конкретный предиктор из группы сильно коррелированных и почему это делает иначе, чем выбор лучшего подмножества. Исходя из геометрии LASSO, показанной на рис. 2 в Tibshirani 1996, я считаю, что LASSO выбирает предиктор с большей...

10
Должен ли выбор функций выполняться только для данных обучения (или всех данных)?

Должен ли выбор функций выполняться только для данных обучения (или всех данных)? Я прошел через некоторые обсуждения и документы, такие как Guyon (2003) и Singhi and Liu (2006) , но все еще не был уверен в правильном ответе. Моя экспериментальная установка выглядит следующим образом: Набор данных:...

10
В каких реализациях требуется масштабирование переменных (возможностей) и нормализация (настройка) переменных деревьев решений?

Во многих алгоритмах машинного обучения масштабирование функций (или переменное масштабирование, нормализация) является обычным этапом предварительной обработки. Википедия - Масштабирование функций - этот вопрос был близким Вопрос № 41704 - Как и почему работают нормализация и масштабирование...

10
Обнаружение аномалий: какой алгоритм использовать?

Контекст: я разрабатываю систему, которая анализирует клинические данные для фильтрации неправдоподобных данных, которые могут быть опечатками. Что я сделал до сих пор: Для количественной оценки правдоподобия до сих пор я пытался нормализовать данные, а затем вычислить значение правдоподобия для...

10
Определение отфильтрованных объектов после выбора функции с помощью Scikit Learn.

Вот мой код для выбора метода в Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Но после получения нового X...

10
Особенности ранжирования в логистической регрессии

Я использовал логистическую регрессию. У меня есть шесть функций, я хочу знать важные функции в этом классификаторе, которые влияют на результат больше, чем другие функции. Я использовал информационное усиление, но, похоже, оно не зависит от используемого классификатора. Есть ли способ ранжировать...

10
Использование LASSO только для выбора функций

В моем классе машинного обучения мы узнали о том, как регрессия LASSO очень хороша при выполнении выбора функций, поскольку она использует регуляризацию.L1L1l_1 Мой вопрос: люди обычно используют модель LASSO только для выбора функций (а затем переходят к сбросу этих функций в другую модель...

9
Можно ли использовать ядро ​​PCA для выбора функций?

Можно ли использовать анализ основных компонентов ядра (kPCA) для скрытого семантического индексирования (LSI) таким же образом, как используется PCA? Я выполняю LSI в R с использованием prcompфункции PCA и извлекаю функции с самыми высокими нагрузками из первых компонентов. Таким образом, я...

9
Использование срединного лака для выбора характеристик

В статье, которую я недавно читал, я обнаружил в своем разделе анализа данных следующее: Затем таблица данных была разбита на ткани и клеточные линии, и две подтаблицы были отдельно отшлифованы по медиане (строки и столбцы были итеративно скорректированы, чтобы иметь медиану 0), прежде чем они были...

9
Как выполнить многократные тесты хи-квадрат после таблицы 2 на 3?

Мой набор данных состоит из общей смертности или выживания организма в трех типах участков: на берегу, в среднем и на расстоянии от берега. Цифры в таблице ниже представляют количество сайтов. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Я хотел бы знать, является ли...

9
Выбор функций для проблем кластеризации

Я пытаюсь сгруппировать разные наборы данных, используя неконтролируемые алгоритмы (кластеризация). Проблема в том, что у меня много функций (~ 500) и небольшое количество дел (200-300). До сих пор я занимался только задачами классификации, для которых я всегда отмечал данные как обучающие наборы....

9
На самом деле это нормально, чтобы выполнить неконтролируемый выбор функции перед перекрестной проверкой?

В «Элементах статистического обучения» я нашел следующее утверждение: Существует одна квалификация: начальные неконтролируемые этапы скрининга могут быть выполнены до того, как образцы будут опущены. Например, мы могли бы выбрать 1000 предикторов с наибольшей дисперсией во всех 50 выборках перед...