Наука о данных

18
Поиск гиперпараметра для LSTM-RNN с использованием Keras (Python)

Из Keras RNN Tutorial: «RNNs сложны. Выбор размера пакета важен, выбор потерь и оптимизатора важен и т. Д. Некоторые конфигурации не сходятся». Так что это более общий вопрос о настройке гиперпараметров LSTM-RNN на Keras. Я хотел бы знать о подходе к поиску лучших параметров для вашего RNN. Я начал...

18
Лучший практический алгоритм для сходства предложений

У меня есть два предложения, S1 и S2, оба из которых имеют количество слов (обычно) ниже 15. Каковы наиболее практичные и успешные (машинное обучение) алгоритмы, которые, возможно, легко реализовать (нейронная сеть в порядке, если архитектура не такая сложная, как Google Inception и т. Д.). Я ищу...

18
Как бороться с строковыми метками в мультиклассовой классификации с керасом?

Я новичок в области машинного обучения и кера, и сейчас я занимаюсь многоклассовой классификацией изображений с помощью кера. На входе помечено изображение. После некоторой предварительной обработки данные обучения представлены в списке Python как: [["dog", "path/to/dog/imageX.jpg"],["cat",...

18
Ролевая производная сигмоидальной функции в нейронных сетях

Я пытаюсь понять роль производной сигмовидной функции в нейронных сетях. Сначала я строю сигмовидную функцию и производную всех точек из определения, используя python. Какова роль этой производной? import numpy as np import matplotlib.pyplot as plt def sigmoid(x): return 1 / (1 + np.exp(-x)) def...

17
Данные в нашей реляционной СУБД становятся большими, не пора ли перейти на NoSQL?

Мы создали приложение социальной сети для целей электронного обучения. Это экспериментальный проект, который мы исследуем в нашей лаборатории. Некоторое время он использовался в некоторых примерах, и данные в нашей реляционной СУБД (SQL Server 2008) становятся большими. Теперь это несколько...

17
Какие-нибудь «практические правила» в отношении количества функций в зависимости от количества экземпляров? (небольшие наборы данных)

Мне интересно, есть ли какие-либо эвристики по количеству признаков и количеству наблюдений. Очевидно, что если число признаков равно количеству наблюдений, модель будет соответствовать. Используя разреженные методы (LASSO, эластичная сетка), мы можем удалить несколько функций, чтобы уменьшить...

17
Выберите алгоритм двоичной классификации

У меня есть проблема двоичной классификации: Примерно 1000 образцов в тренировочном наборе 10 атрибутов, включая двоичные, числовые и категориальные Какой алгоритм является лучшим выбором для этого типа проблемы? По умолчанию я собираюсь начать с SVM (предварительно имея номинальные значения...

17
Обнаружение кошек визуально с помощью обнаружения аномалий

У меня есть хобби-проект, который я собираюсь посвятить как способ увеличить свой пока ограниченный опыт машинного обучения. Я взял и закончил Coursera MOOC по этой теме. Мой вопрос касается осуществимости проекта. Задача следующая: Соседние кошки время от времени посещают мой сад, что мне не...

17
Ищете хороший пакет для обнаружения аномалий во временных рядах

Существует ли комплексный пакет с открытым исходным кодом (предпочтительно на python или R), который можно использовать для обнаружения аномалий во временных рядах? В scikit-learn есть один класс SVM-пакета, но он не предназначен для данных временных рядов. Я ищу более сложные пакеты, которые,...

17
Визуализация графа с миллионом вершин

Какой лучший инструмент для визуализации (рисования вершин и ребер) графа с 1000000 вершинами? На графике около 50000 ребер. И я могу вычислить расположение отдельных вершин и ребер. Я думаю о написании программы для генерации SVG. Любые другие предложения?...

17
Как этика должна применяться в науке о данных

Недавно произошел фурор с Facebook, который экспериментировал со своими пользователями, чтобы узнать, смогут ли они изменить эмоции пользователя, и теперь они взволнованы . Хотя я не профессиональный специалист по данным, я читал об этике науки о данных из книги Кэти О'Нил «Ведение данных» и хотел...

17
Зачем использовать набор проверки и набор тестов?

Рассмотрим нейронную сеть: Для данного набора данных мы делим его на наборы для обучения, проверки и тестирования. Предположим, что мы делаем это в классическом соотношении 60:20:20, тогда мы предотвращаем переобучение, проверяя сеть, проверяя ее на наборе проверки. Тогда зачем тестировать его на...

17
Должны ли мы применять нормализацию и к тестовым данным?

Я делаю проект по проблеме идентификации автора. Я применил нормализацию tf-idf для обучения данных, а затем обучил SVM на этих данных. Теперь при использовании классификатора я должен также нормализовать тестовые данные. Я чувствую, что основная цель нормализации - сделать так, чтобы обучающий...

17
Почему ReLU лучше, чем другие функции активации

Здесь ответ относится к исчезающему и взрывному градиенту, который был sigmoidпохож на функции активации, но, я думаю, Reluимеет недостаток, и это его ожидаемое значение. нет ограничений на вывод Reluи поэтому его ожидаемое значение не равно нулю. Я помню время , прежде чем популярность , Reluчто...

17
Пример Keras Callback для сохранения модели после каждой эпохи?

Может кто-нибудь опубликовать простой пример использования Keras обратного вызова для сохранения модели после каждой эпохи? Я могу найти примеры экономии веса, но я хочу иметь возможность сохранять полностью функционирующую модель после каждой тренировочной...

17
В чем преимущество разделения файла tfrecord на осколки?

Я работаю над распознаванием речи с Tensorflow и планирую тренировать LSTM NN с массивом массивных волн. Из-за увеличения производительности я планирую использовать tfrecords. В Интернете есть несколько примеров (Inception for ex.), Где файлы tfrecords разбиты на фрагменты. У меня такой вопрос:...

17
Что означает нотация mAP @ [. 5: .95]?

Для обнаружения общий способ определить, было ли одно предложение объекта правильным, является Пересечением по Объединению (IoU, IU). Он берет набор предложенных пикселей объекта и набор истинных пикселей B объекта и вычисляет:AAAВВB IoU(A,B)=A∩BA∪BIoU(A,B)=A∩BA∪BIoU(A, B) = \frac{A \cap B}{A \cup...

17
Объединение разреженных и плотных данных в машинном обучении для повышения производительности

У меня есть редкие признаки, которые являются прогнозирующими, также у меня есть некоторые плотные признаки, которые также являются прогнозирующими. Мне нужно объединить эти функции вместе, чтобы улучшить общую производительность классификатора. Дело в том, что когда я пытаюсь объединить их вместе,...

17
K-means: Какие есть хорошие способы выбрать эффективный набор начальных центроидов?

Когда используется случайная инициализация центроидов, разные прогоны K-средних дают разные общие SSE. И это имеет решающее значение в производительности алгоритма. Каковы некоторые эффективные подходы к решению этой проблемы? Недавние подходы...