Вопросы с тегом «machine-learning»

30
Оптимизация для кривых Precision-Recall при дисбалансе класса

У меня есть задача классификации, где у меня есть несколько предикторов (один из которых является наиболее информативным), и я использую модель MARS для построения моего классификатора (меня интересует любая простая модель, и использование glms для иллюстративных целей будет тоже хорошо). Теперь у...

30
Утилита Feature-Engineering: зачем создавать новые функции на основе существующих функций?

Я часто вижу, как люди создают новые функции на основе существующих функций для проблемы машинного обучения. Например, здесь: https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/ люди считают размер семьи человека новой функцией, основанной на на...

30
В чем разница между логистической регрессией и персептроном?

Я собираюсь через лекцию Эндрю Нг ноту на Machine Learning. Примечания знакомят нас с логистической регрессией, а затем с персептроном. При описании Перцептрона в заметках говорится, что мы просто изменили определение пороговой функции, используемой для логистической регрессии. После этого мы можем...

30
Что означает термин насыщающие нелинейности?

Я читал статью Классификация ImageNet с глубокими сверточными нейронными сетями, и в разделе 3 они объясняли архитектуру своей сверточной нейронной сети и объясняли, как они предпочитают использовать: ненасыщенная нелинейность f(x)=max(0,x).f(x)=max(0,x).f(x) = max(0, x). потому что это было...

30
Разница между байесовской сетью, нейронной сетью, деревом решений и сетями Петри

В чем разница между нейронной сетью , байесовской сетью , деревом решений и сетями Петри , хотя все они являются графическими моделями и визуально отображают причинно-следственную...

30
Вывод против оценки?

Каковы различия между «выводом» и «оценкой» в контексте машинного обучения ? Как новичок, я чувствую , что мы заключаем случайные величины и оценку параметров модели. Правильно ли это понимание? Если нет, то какие именно различия, и когда я должен использовать какие? Кроме того, какой из них...

29
Как работать с иерархическими / вложенными данными в машинном обучении

Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

29
Процедура выбора переменной для двоичной классификации

Какие переменные / характеристики вы предпочитаете для бинарной классификации, когда в наборе обучения гораздо больше переменных / функций, чем наблюдений? Цель здесь состоит в том, чтобы обсудить, какова процедура выбора признаков, которая наилучшим образом уменьшает ошибку классификации. Мы можем...

29
R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная...

29
Почему AUC выше для классификатора, который менее точен, чем для более точного классификатора?

У меня есть два классификатора A: наивная байесовская сеть B: древовидная (односвязная) байесовская сеть С точки зрения точности и других показателей, A работает сравнительно хуже, чем B. Однако, когда я использую пакеты R ROCR и AUC для выполнения анализа ROC, оказывается, что AUC для A выше, чем...

29
Когда я должен сбалансировать классы в наборе данных обучения?

У меня был онлайн-курс, где я узнал, что несбалансированные классы в данных обучения могут привести к проблемам, потому что алгоритмы классификации идут по правилу большинства, поскольку это дает хорошие результаты, если дисбаланс слишком велик. При выполнении задания необходимо было сбалансировать...

29
Полиномиальная регрессия с использованием scikit-learn

Я пытаюсь использовать scikit-learn для полиномиальной регрессии. Из того, что я прочитал, полиномиальная регрессия является частным случаем линейной регрессии. Я прыгал, что, возможно, одна из обобщенных линейных моделей Scikit может быть параметризована для соответствия полиномам более высокого...

29
Перекрестная проверка, включая обучение, валидацию и тестирование. Зачем нам нужны три подмножества?

У меня есть вопрос, касающийся процесса перекрестной проверки. Я нахожусь в середине курса машинного обучения на Cursera. Одна из тем - о перекрестной проверке. Мне было немного трудно следовать. Я знаю, почему нам нужно CV, потому что мы хотим, чтобы наши модели хорошо работали с будущими...

29
Различение между двумя группами в статистике и машинном обучении: проверка гипотез против классификации и кластеризации

Предположим, у меня есть две группы данных, помеченные A и B (каждая из которых содержит, например, 200 образцов и 1 особенность), и я хочу знать, отличаются ли они. Я мог бы: а) выполнить статистический тест (например, t-тест), чтобы увидеть, отличаются ли они статистически. б) использовать...

29
Как вы интерпретируете RMSLE (среднеквадратичная логарифмическая ошибка)?

Я принимал участие в конкурсе по машинному обучению, где они использовали RMSLE (среднеквадратичная логарифмическая ошибка) для оценки производительности, прогнозирующей цену продажи категории оборудования. Проблема в том, что я не уверен, как интерпретировать успех моего конечного результата....

29
Как статистически сравнить производительность классификаторов машинного обучения?

Основываясь на оценочной точности классификации, я хочу проверить, является ли один классификатор статистически лучше на базовом наборе, чем другой классификатор. Для каждого классификатора я выбираю образец обучения и тестирования случайным образом из базового набора, обучаю модель и тестирую...

29
Разница между СВМ и персептроном

Меня немного смущает разница между SVM и персептроном. Позвольте мне попытаться суммировать мое понимание здесь, и, пожалуйста, не стесняйтесь исправить, где я ошибаюсь, и заполнить то, что я пропустил. Перцептрон не пытается оптимизировать разделение «расстояния». Пока он находит гиперплоскость,...

28
Какая статистическая модель стоит за алгоритмом SVM?

Я узнал, что при работе с данными на основе модельного подхода первым шагом является моделирование процедуры обработки данных в качестве статистической модели. Затем следующим шагом является разработка эффективного / быстрого алгоритма вывода / обучения на основе этой статистической модели. Итак, я...