Вопросы с тегом «machine-learning»

15
Как обновляются веса в методе пакетного обучения в нейронных сетях?

Может кто-нибудь сказать мне, как я должен построить нейронную сеть, используя пакетный метод? Я прочитал, что в пакетном режиме для всех выборок в обучающем наборе мы вычисляем ошибку, дельту и, следовательно, веса дельты для каждого нейрона в сети, а затем вместо немедленного обновления весов мы...

15
Для линейных классификаторов, большие коэффициенты подразумевают более важные особенности?

Я инженер-программист, работающий над машинным обучением. Насколько я понимаю, линейная регрессия (например, OLS) и линейная классификация (например, логистическая регрессия и SVM) делают прогноз на основе внутреннего произведения между обучаемыми коэффициентами и характеристическими переменными...

15
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я...

15
Какие хорошие вопросы для собеседования для кандидатов на разработку статистического алгоритма?

Я беру интервью у людей на позицию разработчика / исследователя алгоритма в контексте статистики / машинного обучения / интеллектуального анализа данных. Я ищу вопросы, которые нужно задать, чтобы определить, в частности, знакомство, понимание и гибкость кандидата с базовой теорией, например,...

15
Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

15
Как стохастический градиентный спуск может сэкономить время по сравнению со стандартным градиентным спуском?

Стандартный градиентный спуск будет вычислять градиент для всего набора обучающих данных. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Для заранее определенного числа эпох мы сначала вычисляем вектор градиента...

15
Почему важно включить термин коррекции смещения для оптимизатора Adam для Deep Learning?

Я читал об оптимизаторе Адама для глубокого обучения и натолкнулся на следующее предложение в новой книге Бегнио, Гудфеллоу и Кортвилла « Глубокое обучение »: Адам включает поправки смещения к оценкам как моментов первого порядка (члена импульса), так и (нецентрированных) моментов второго порядка,...

15
Что такое «базовый уровень» в кривой точного отзыва

Я пытаюсь понять точную кривую отзыва, я понимаю, что такое точность и отзыв, но не понимаю, что такое базовое значение. Я читал эту ссылку https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ и я не понимаю часть базовой линии, как показано в «Кривая точного...

15
Что такое хороший метод для кластеризации коротких текстов?

Я работаю над проблемой кластеризации текста. Данные содержат несколько предложений. Есть хороший алгоритм, который достигает высокой точности на коротком тексте? Можете ли вы предоставить хорошие ссылки? Алгоритмы, такие как KMeans, спектральная кластеризация не работают хорошо для этой проблемы....

15
Почему максимизация ожидания важна для моделей смесей?

Существует много литературы, в которой подчеркивается, что метод максимизации ожиданий на моделях смесей (смесь гауссовской, скрытой марковской модели и т. Д.). Почему EM важен? EM - это просто способ оптимизации, который широко не используется в качестве метода, основанного на градиенте (метод...

15
Почему дерево решений имеет низкий уклон и высокую дисперсию?

Вопросов Зависит ли это от того, мелкое дерево или глубокое? Или мы можем сказать это независимо от глубины / уровня дерева? Почему уклон низкий и дисперсия высокая? Пожалуйста, объясните интуитивно и математически...

15
Является ли это мошенничеством, чтобы отбросить выбросы, основанные на диаграмме средней абсолютной ошибки, чтобы улучшить регрессионную модель

У меня есть модель прогнозирования, протестированная четырьмя методами, как вы можете видеть на рисунке ниже. Атрибут, который предсказывает модель, находится в диапазоне 0-8. Вы можете заметить, что во всех методах указаны один выброс верхней границы и три выброса нижней границы . Интересно,...

15
Интуиция для опорных векторных машин и гиперплоскости

В моем проекте я хочу создать модель логистической регрессии для прогнозирования двоичной классификации (1 или 0). У меня есть 15 переменных, 2 из которых являются категориальными, а остальные представляют собой смесь непрерывных и дискретных переменных. Чтобы соответствовать модели логистической...

15
Максимальное среднее расхождение (распределение по расстоянию)

У меня есть два набора данных (исходные и целевые данные), которые следуют за разным распределением. Я использую MMD - это непараметрическое распределение расстояний - для вычисления предельного распределения между исходными и целевыми данными. исходные данные, хз целевые данные, Xt Матрица...

15
Что такое ошибка Байеса в машинном обучении?

http://www.deeplearningbook.org/contents/ml.html Page 116 объясняет ошибку Байеса, как показано ниже Идеальная модель - это оракул, который просто знает истинное распределение вероятностей, которое генерирует данные. Даже такая модель по-прежнему будет вызывать некоторые ошибки во многих проблемах,...

15
Методы решения проблемы пропущенных данных в машинном обучении

Практически в любой базе данных, в которой мы хотим делать прогнозы с использованием алгоритмов машинного обучения, найдутся пропущенные значения для некоторых характеристик. Существует несколько подходов к решению этой проблемы, чтобы исключить строки с пропущенными значениями, пока они не...

15
Могу ли я использовать маленький набор для проверки?

Я понимаю причину разделения данных на наборы тестов и наборов валидации. Я также понимаю, что размер раскола будет зависеть от ситуации, но обычно будет варьироваться от 50/50 до 90/10. Я построил RNN, чтобы исправить орфографию и начать с набора данных ~ 5м предложений. Я брею 500 тыс....

15
Какова «мощность» модели машинного обучения?

Я изучаю этот урок по вариационным автоэнкодерам Карла Доерша . На второй странице говорится: Одним из наиболее популярных таких фреймворков является Variational Autoencoder [1, 3], предмет данного руководства. Предположения этой модели являются слабыми, и обучение происходит быстро с помощью...

15
Что такое временная классификация коннекционистов (CTC)?

Я ищу проект оптического распознавания символов (OCR). После некоторых исследований я натолкнулся на интересную архитектуру: CNN + RNN + CTC. Я знаком с извилистыми нейронными сетями (CNN) и рекуррентными нейронными сетями (RNN), но что такое временная классификация Connectionist (CTC)? Я хотел бы...