Наука о данных - страница 20

13

Как смещение должно быть инициализировано и упорядочено?

Я прочитал пару статей об инициализации ядра, и многие из них упоминают, что они используют L2-регуляризацию ядра (часто с ).λ = 0,0001λ=0.0001\lambda = 0.0001 Кто-нибудь делает что-то иное, чем инициализация смещения с постоянным нулем и не регуляризация? Документы инициализации ядра Мишкин и...

neural-network

13

Есть ли у нейронных сетей объяснимость, как у деревьев решений?

В Деревьях решений мы можем понять выходные данные древовидной структуры, а также можем визуализировать, как Дерево Решений принимает решения. Таким образом, деревья решений имеют объяснимость (их вывод можно легко объяснить.) Есть ли у нас объяснимость в нейронных сетях, как с деревьями...

neural-network

13

Забудьте слой в периодической нейронной сети (RNN) -

Я пытаюсь выяснить размеры каждой переменной в RNN в слое забудьте, однако я не уверен, что я на правильном пути. Следующая картинка и уравнение взяты из поста Колы в блоге «Понимание сетей LSTM» : где: xtxtx_t - ввод вектора размера m∗1m∗1m*1 ht−1ht−1h_{t-1} - скрытое состояние вектора размера...

neural-network rnn

13

Преимущества pandas dataframe для обычной реляционной базы данных

В Data Science многие, кажется, используют фреймы данных pandas в качестве хранилища данных. Каковы особенности панд, которые делают его превосходным хранилищем данных по сравнению с обычными реляционными базами данных, такими как MySQL , которые используются для хранения данных во многих других...

pandas databases

13

Почему инициализация весов и смещений должна быть выбрана около 0?

Я прочитал это: Чтобы обучить нашу нейронную сеть, мы инициализируем каждый параметр W (l) ijWij (l) и каждый b (l) ibi (l) к небольшому случайному значению около нуля (скажем, согласно нормальному (0, 02) нормальному (0) , ϵ2) распределение для некоторого малого ϵϵ, скажем 0,01) из учебников...

deep-learning stanford-nlp randomized-algorithms

13

Почему в свертках всегда используются нечетные числа в качестве filter_size

Если мы посмотрим на 90-99% статей, опубликованных с использованием CNN (ConvNet). Подавляющее большинство из них использует размер фильтра нечетных чисел : {1, 3, 5, 7} для наиболее часто используемых. Эта ситуация может привести к некоторой проблеме: при таких размерах фильтров операция свертки...

deep-learning convnet computer-vision convolution

13

Должен ли я использовать графический процессор или процессор для вывода?

Я управляю нейронной сетью глубокого обучения, которая была обучена графическим процессором. Теперь я хочу развернуть это на нескольких хостах для вывода. Вопрос в том, каковы условия, чтобы решить, следует ли мне использовать GPU или CPU для вывода? Добавление более подробной информации из...

deep-learning gpu

13

Сколько функций для выборки с использованием случайных лесов

На странице Википедии, которая цитирует «Элементы статистического обучения», написано: Как правило, для задачи классификации с функциями, ⌊ √ппp функции используются в каждом разделении.⌊ р-√⌋⌊п⌋\lfloor \sqrt{p}\rfloor Я понимаю, что это довольно обоснованное предположение, и оно, вероятно,...

statistics random-forest optimization evaluation sampling

13

Почему автоэнкодеры для уменьшения размера симметричны?

Я ни в коем случае не эксперт по автоэнкодерам или нейронным сетям, так что извините, если это глупый вопрос. В целях уменьшения размеров или визуализации кластеров в многомерных данных мы можем использовать автоэнкодер для создания двумерного представления (с потерями) путем проверки выходных...

neural-network dimensionality-reduction autoencoder

13

Что такое вложение графов?

Недавно я наткнулся на встраивание графиков, таких как DeepWalk и LINE. Тем не менее, я до сих пор не имею четкого представления о том, что подразумевается под вложением графов и когда его использовать (приложения)? Любые предложения...

graphs

13

Интервал прогнозирования вокруг прогноза временных рядов LSTM

Существует ли метод для расчета интервала прогнозирования (распределения вероятностей) вокруг прогноза временного ряда из нейронной сети LSTM (или другой рекуррентной)? Скажем, например, я прогнозирую 10 выборок в будущем (от t + 1 до t + 10), основываясь на последних 10 наблюдаемых выборках (от...

machine-learning deep-learning time-series prediction lstm

13

Одна горячая альтернатива кодирования для больших категориальных значений?

У меня есть датафрейм с большими категориальными значениями более 1600 категорий, есть ли способ найти альтернативы, чтобы у меня не было более 1600 столбцов. Я нашел эту интересную ссылку ниже http://amunategui.github.io/feature-hashing/#sourcecode Но они конвертируются в класс / объект, который я...

machine-learning dataset dimensionality-reduction encoding

13

Как реализовать прогнозирование последовательности «один ко многим» и «многие ко многим» в Керасе?

Я изо всех сил пытаюсь интерпретировать разницу кодирования Keras для маркировки последовательностей «один ко многим» (например, классификация отдельных изображений) и «многие ко многим» (например, классификация последовательностей изображений). Я часто вижу два разных вида кодов: Тип 1, где...

keras rnn lstm sequence

13

Есть ли возможность изменить показатель, используемый обратным вызовом ранней остановки в Керасе?

При использовании обратного вызова ранней остановки в Keras обучение останавливается, когда некоторая метрика (обычно потеря проверки) не увеличивается. Есть ли способ использовать другую метрику (например, точность, отзыв, f-мера) вместо потери проверки? Все примеры, которые я видел до сих пор,...

machine-learning neural-network deep-learning keras

13

Что это значит, когда мы говорим, что большинство точек в гиперкубе находятся на границе?

Если у меня есть 50-мерный гиперкуб. И я определяю его границу как или где - размерность гиперкуба. Тогда вычисление доли точек на границе гиперкуба составит . Что это значит? Значит ли это, что остальное пространство пусто? Если точек находятся на границе, то точки внутри куба не должны быть...

machine-learning math

13

Как вы применяете SMOTE в текстовой классификации?

Техника избыточной выборки синтетического меньшинства (SMOTE) - это метод избыточной выборки, используемый в проблеме с несбалансированным набором данных. До сих пор у меня есть идея, как применить его к общим структурированным данным. Но возможно ли применить его к проблеме классификации текста?...

unbalanced-classes text smote

13

Запрос Natural Language to SQL

Я работал над разработкой системы «Преобразование естественного языка в SQL-запрос». Я прочитал ответы на подобные вопросы, но не смог получить информацию, которую искал. Ниже приведена блок-схема для такой системы, которую я получил от алгоритма преобразования естественного языка в запросы SQL для...

machine-learning nlp sql natural-language-process

13

Почему добавление слоя отсева улучшает производительность глубокого / машинного обучения, учитывая, что выпадение подавляет некоторые нейроны из модели?

Если удаление некоторых нейронов приводит к более эффективной модели, почему бы не использовать более простую нейронную сеть с меньшим количеством слоев и меньшим количеством нейронов? Зачем строить большую, более сложную модель в начале, а потом подавлять...

machine-learning deep-learning keras regularization dropout

13

В чем разница между повышением частоты дискретизации и билинейным повышением частоты дискретизации в CNN?

Я пытаюсь понять эту статью и не уверен, что такое билинейное повышение частоты дискретизации. Кто-нибудь может объяснить это на высоком уровне?

deep-learning convnet cnn convolution

13

Почему генетические алгоритмы не используются для оптимизации нейронных сетей?

Насколько я понимаю, генетические алгоритмы являются мощными инструментами для многоцелевой оптимизации. Кроме того, обучение нейронных сетей (особенно глубоких) является сложным и имеет много проблем (невыпуклые функции стоимости - локальные минимумы, исчезающие и взрывные градиенты и т. Д.)....

neural-network optimization genetic-algorithms