Вопросы с тегом «machine-learning»

48
Рекуррентные и рекурсивные нейронные сети: что лучше для НЛП?

Существуют рекуррентные нейронные сети и рекурсивные нейронные сети. Оба обычно обозначаются одной и той же аббревиатурой: RNN. Согласно Википедии , Рекуррентный NN на самом деле является Рекурсивным NN, но я не совсем понимаю объяснение. Более того, я не могу найти, что лучше (с примерами или...

47
Классовый дисбаланс в контролируемом машинном обучении

Это вопрос в целом, не относящийся к какому-либо методу или набору данных. Как мы решаем проблему дисбаланса классов в обучении с использованием контролируемой машины, где число 0 составляет около 90%, а число 1 составляет около 10% в вашем наборе данных. Как оптимально обучить классификатор. Одним...

47
С чего начать со статистики для опытного разработчика

В первой половине 2015 года я прошел курс обучения машинному обучению (автор Andrew Ng, курс GREAT). И изучил основы машинного обучения (линейная регрессия, логистическая регрессия, SVM, нейронные сети ...) Кроме того, я был разработчиком в течение 10 лет, поэтому изучение нового языка...

47
Какие есть варианты градиентного спуска?

Градиентный спуск имеет проблему застревания в локальных минимумах. Нам нужно запустить экспоненциальное время градиентного спуска, чтобы найти глобальные минимумы. Кто-нибудь может рассказать мне о каких-либо альтернативах градиентного спуска, применяемых в обучении нейронных сетей, наряду с их...

47
Понимание Наивного Байеса

От StatSoft, Inc. (2013), Электронный учебник статистики , «Наивный байесовский классификатор» : Чтобы продемонстрировать концепцию наивной байесовской классификации, рассмотрим пример, показанный на иллюстрации выше. Как указано, объекты могут быть классифицированы как ЗЕЛЕНЫЙ или КРАСНЫЙ. Моя...

46
Понимание «почти все локальные минимумы имеют значение функции, очень похожее на глобальный оптимум»

В недавнем сообщении в блоге Rong Ge было сказано, что: Считается, что для многих задач, включая изучение глубинных сетей, почти все локальные минимумы имеют очень близкое значение функции к глобальному оптимуму, и, следовательно, нахождение локального минимума достаточно хорошо. Откуда эта...

46
Почему сверточные нейронные сети не используют машину опорных векторов для классификации?

В последние годы сверточные нейронные сети (CNN) стали современным средством распознавания объектов в компьютерном зрении. Как правило, CNN состоит из нескольких сверточных слоев, за которыми следуют два полностью связанных слоя. Интуиция в этом заключается в том, что сверточные слои изучают лучшее...

46
Зависит ли оптимальное количество деревьев в случайном лесу от количества предикторов?

Может кто-нибудь объяснить, почему нам нужно большое количество деревьев в случайном лесу, когда количество предикторов велико? Как мы можем определить оптимальное количество...

45
Каковы основные теоремы в машинном (глубоком) обучении?

Аль Рахими недавно выступил с весьма провокационным докладом в NIPS 2017, сравнивая современное машинное обучение с алхимией. Одним из его утверждений является то, что нам нужно вернуться к теоретическим разработкам, чтобы иметь простые теоремы, доказывающие основополагающие результаты. Когда он...

45
Линейное ядро ​​и нелинейное ядро ​​для опорных векторов машины?

При использовании машины опорных векторов есть ли какие-либо рекомендации по выбору линейного ядра или нелинейного ядра, например, RBF? Я когда-то слышал, что нелинейное ядро ​​имеет тенденцию не работать хорошо, когда количество функций велико. Есть ли какие-либо ссылки на этот...

45
Разница между GradientDescentOptimizer и AdamOptimizer (TensorFlow)?

Я написал простой MLP в TensorFlow, который моделирует XOR-Gate . Таким образом, для: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] он должен произвести следующее: output_data = [[0.], [1.], [1.], [0.]] Сеть имеет входной слой, скрытый слой и выходной слой с 2, 5 и 1 нейроном каждый. В...

45
Все модели бесполезны? Возможна ли какая-то точная модель - или полезная?

Этот вопрос был в моей голове более месяца. Выпуск Amstat News за февраль 2015 года содержит статью профессора Беркли Марка ван дер Лаана, которая ругает людей за использование неточных моделей. Он утверждает, что при использовании моделей статистика становится искусством, а не наукой. По его...

44
Почему мультиколлинеарность не проверяется в современной статистике / машинном обучении

В традиционной статистике при построении модели мы проверяем мультиколлинеарность, используя такие методы, как оценки коэффициента инфляции дисперсии (VIF), но в машинном обучении вместо этого мы используем регуляризацию для выбора признаков и, похоже, не проверяем, коррелированы ли функции вообще....

44
Разница между случайным лесом и чрезвычайно рандомизированными деревьями

Я понял, что Случайный Лес и Чрезвычайно Рандомизированные Деревья отличаются в том смысле, что расщепления деревьев в Случайном Лесу являются детерминированными, тогда как они случайны в случае Чрезвычайно Рандомизированных Деревьев (чтобы быть более точным, следующее разделение является лучшим...

44
Как ядра применяются к картам объектов для создания других карт функций?

Я пытаюсь понять сверточную часть сверточных нейронных сетей. Глядя на следующий рисунок: У меня нет проблем с пониманием первого слоя свертки, где у нас есть 4 разных ядра (размером ), которые мы сворачиваем с входным изображением для получения 4 карт характеристик.к × кК×Кk \times k Что я не...

43
Понимание роли дисконтного фактора в обучении с подкреплением

Я учу себя изучению подкрепления и пытаюсь понять концепцию дисконтированного вознаграждения. Таким образом, награда необходима, чтобы сообщить системе, какие пары состояние-действие хороши, а какие плохи. Но то, что я не понимаю, - то, почему дисконтированное вознаграждение необходимо. Почему...

43
Может ли машинное обучение расшифровать хэши SHA256?

У меня есть хэш-код SHA256 из 64 символов. Я надеюсь обучить модель, которая может предсказать, будет ли открытый текст, используемый для генерации хеша, начинаться с 1 или нет. Независимо от того, является ли это «возможным», какой алгоритм будет наилучшим подходом? Мои первые мысли: Создайте...

42
Является ли машинное обучение менее полезным для понимания причинности, и, следовательно, менее интересным для социальных наук?

Мое понимание различий между машинным обучением / другими методами статистического прогнозирования и видом статистики, которую используют ученые-социологи (например, экономисты), заключается в том, что экономисты, похоже, очень заинтересованы в понимании влияния одной или нескольких переменных -...

42
Почему внизу?

Предположим, я хочу узнать классификатор, который предсказывает, является ли электронная почта спамом. И предположим, что только 1% писем являются спамом. Проще всего было бы изучить тривиальный классификатор, который говорит, что ни одно из писем не является спамом. Этот классификатор дал бы нам...

42
Что такое maxout в нейронной сети?

Кто-нибудь может объяснить, что делают блоки maxout в нейронной сети? Как они работают и чем они отличаются от обычных единиц? Я попытался прочитать статью «Maxout Network» за 2013 год, написанную Goodfellow et al. (из группы профессора Йошуа Бенжио), но я не совсем...