Наука о данных

13
Как смещение должно быть инициализировано и упорядочено?

Я прочитал пару статей об инициализации ядра, и многие из них упоминают, что они используют L2-регуляризацию ядра (часто с ).λ = 0,0001λ=0.0001\lambda = 0.0001 Кто-нибудь делает что-то иное, чем инициализация смещения с постоянным нулем и не регуляризация? Документы инициализации ядра Мишкин и...

13
Есть ли у нейронных сетей объяснимость, как у деревьев решений?

В Деревьях решений мы можем понять выходные данные древовидной структуры, а также можем визуализировать, как Дерево Решений принимает решения. Таким образом, деревья решений имеют объяснимость (их вывод можно легко объяснить.) Есть ли у нас объяснимость в нейронных сетях, как с деревьями...

13
Забудьте слой в периодической нейронной сети (RNN) -

Я пытаюсь выяснить размеры каждой переменной в RNN в слое забудьте, однако я не уверен, что я на правильном пути. Следующая картинка и уравнение взяты из поста Колы в блоге «Понимание сетей LSTM» : где: xtxtx_t - ввод вектора размера m∗1m∗1m*1 ht−1ht−1h_{t-1} - скрытое состояние вектора размера...

13
Преимущества pandas dataframe для обычной реляционной базы данных

В Data Science многие, кажется, используют фреймы данных pandas в качестве хранилища данных. Каковы особенности панд, которые делают его превосходным хранилищем данных по сравнению с обычными реляционными базами данных, такими как MySQL , которые используются для хранения данных во многих других...

13
Почему инициализация весов и смещений должна быть выбрана около 0?

Я прочитал это: Чтобы обучить нашу нейронную сеть, мы инициализируем каждый параметр W (l) ijWij (l) и каждый b (l) ibi (l) к небольшому случайному значению около нуля (скажем, согласно нормальному (0, 02) нормальному (0) , ϵ2) распределение для некоторого малого ϵϵ, скажем 0,01) из учебников...

13
Почему в свертках всегда используются нечетные числа в качестве filter_size

Если мы посмотрим на 90-99% статей, опубликованных с использованием CNN (ConvNet). Подавляющее большинство из них использует размер фильтра нечетных чисел : {1, 3, 5, 7} для наиболее часто используемых. Эта ситуация может привести к некоторой проблеме: при таких размерах фильтров операция свертки...

13
Должен ли я использовать графический процессор или процессор для вывода?

Я управляю нейронной сетью глубокого обучения, которая была обучена графическим процессором. Теперь я хочу развернуть это на нескольких хостах для вывода. Вопрос в том, каковы условия, чтобы решить, следует ли мне использовать GPU или CPU для вывода? Добавление более подробной информации из...

13
Сколько функций для выборки с использованием случайных лесов

На странице Википедии, которая цитирует «Элементы статистического обучения», написано: Как правило, для задачи классификации с функциями, ⌊ √ппp функции используются в каждом разделении.⌊ р-√⌋⌊п⌋\lfloor \sqrt{p}\rfloor Я понимаю, что это довольно обоснованное предположение, и оно, вероятно,...

13
Почему автоэнкодеры для уменьшения размера симметричны?

Я ни в коем случае не эксперт по автоэнкодерам или нейронным сетям, так что извините, если это глупый вопрос. В целях уменьшения размеров или визуализации кластеров в многомерных данных мы можем использовать автоэнкодер для создания двумерного представления (с потерями) путем проверки выходных...

13
Что такое вложение графов?

Недавно я наткнулся на встраивание графиков, таких как DeepWalk и LINE. Тем не менее, я до сих пор не имею четкого представления о том, что подразумевается под вложением графов и когда его использовать (приложения)? Любые предложения...

13
Интервал прогнозирования вокруг прогноза временных рядов LSTM

Существует ли метод для расчета интервала прогнозирования (распределения вероятностей) вокруг прогноза временного ряда из нейронной сети LSTM (или другой рекуррентной)? Скажем, например, я прогнозирую 10 выборок в будущем (от t + 1 до t + 10), основываясь на последних 10 наблюдаемых выборках (от...

13
Одна горячая альтернатива кодирования для больших категориальных значений?

У меня есть датафрейм с большими категориальными значениями более 1600 категорий, есть ли способ найти альтернативы, чтобы у меня не было более 1600 столбцов. Я нашел эту интересную ссылку ниже http://amunategui.github.io/feature-hashing/#sourcecode Но они конвертируются в класс / объект, который я...

13
Как реализовать прогнозирование последовательности «один ко многим» и «многие ко многим» в Керасе?

Я изо всех сил пытаюсь интерпретировать разницу кодирования Keras для маркировки последовательностей «один ко многим» (например, классификация отдельных изображений) и «многие ко многим» (например, классификация последовательностей изображений). Я часто вижу два разных вида кодов: Тип 1, где...

13
Есть ли возможность изменить показатель, используемый обратным вызовом ранней остановки в Керасе?

При использовании обратного вызова ранней остановки в Keras обучение останавливается, когда некоторая метрика (обычно потеря проверки) не увеличивается. Есть ли способ использовать другую метрику (например, точность, отзыв, f-мера) вместо потери проверки? Все примеры, которые я видел до сих пор,...

13
Что это значит, когда мы говорим, что большинство точек в гиперкубе находятся на границе?

Если у меня есть 50-мерный гиперкуб. И я определяю его границу как или где - размерность гиперкуба. Тогда вычисление доли точек на границе гиперкуба составит . Что это значит? Значит ли это, что остальное пространство пусто? Если точек находятся на границе, то точки внутри куба не должны быть...

13
Как вы применяете SMOTE в текстовой классификации?

Техника избыточной выборки синтетического меньшинства (SMOTE) - это метод избыточной выборки, используемый в проблеме с несбалансированным набором данных. До сих пор у меня есть идея, как применить его к общим структурированным данным. Но возможно ли применить его к проблеме классификации текста?...

13
Запрос Natural Language to SQL

Я работал над разработкой системы «Преобразование естественного языка в SQL-запрос». Я прочитал ответы на подобные вопросы, но не смог получить информацию, которую искал. Ниже приведена блок-схема для такой системы, которую я получил от алгоритма преобразования естественного языка в запросы SQL для...

13
Почему добавление слоя отсева улучшает производительность глубокого / машинного обучения, учитывая, что выпадение подавляет некоторые нейроны из модели?

Если удаление некоторых нейронов приводит к более эффективной модели, почему бы не использовать более простую нейронную сеть с меньшим количеством слоев и меньшим количеством нейронов? Зачем строить большую, более сложную модель в начале, а потом подавлять...

13
В чем разница между повышением частоты дискретизации и билинейным повышением частоты дискретизации в CNN?

Я пытаюсь понять эту статью и не уверен, что такое билинейное повышение частоты дискретизации. Кто-нибудь может объяснить это на высоком уровне?

13
Почему генетические алгоритмы не используются для оптимизации нейронных сетей?

Насколько я понимаю, генетические алгоритмы являются мощными инструментами для многоцелевой оптимизации. Кроме того, обучение нейронных сетей (особенно глубоких) является сложным и имеет много проблем (невыпуклые функции стоимости - локальные минимумы, исчезающие и взрывные градиенты и т. Д.)....