Наука о данных

11
Как определить пользовательскую метрику производительности в Керасе?

Я попытался определить пользовательскую метрическую функцию (F1-Score) в Keras (бэкэнд Tensorflow) согласно следующему: def f1_score(tags, predicted): tags = set(tags) predicted = set(predicted) tp = len(tags & predicted) fp = len(predicted) - tp fn = len(tags) - tp if tp>0:...

11
Невозможно определить слой линейного вложения в сверточную нейронную сеть?

У меня есть сетевая архитектура из статьи «Изучение мелкозернистого сходства изображений с глубоким ранжированием», и я не могу понять, как выходные данные из трех параллельных сетей объединяются с использованием слоя линейного внедрения. Единственная информация, приведенная на этом слое, в статье...

11
Нейронная сеть Tensorflow TypeError: Аргумент Fetch имеет недопустимый тип

Я делаю простую нейронную сеть, используя тензор потока, с данными, которые я собрал сам, однако, это не сотрудничает: PI столкнулся с ошибкой, которую я не могу исправить или исправить, и я буду рад вашей помощи. Сообщение об ошибке: TypeError: Аргумент Fetch 2861.6152 из 2861.6152 имеет...

11
Извлечь информацию из предложения

Я создаю простой чат-бот. Я хочу получить информацию из ответа пользователя. Пример сценария: Bot : Hi, what is your name? User: My name is Edwin. Я хочу извлечь имя Эдвин из предложения. Тем не менее, пользователь может ответить по-разному, например, User: Edwin is my name. User: I am Edwin. User:...

11
Поезд на партиях в Tensorflow

В настоящее время я пытаюсь обучить модель для большого файла CSV (> 70 ГБ с более чем 60 миллионов строк). Для этого я использую tf.contrib.learn.read_batch_examples. Я изо всех сил пытаюсь понять, как эта функция на самом деле читает данные. Если я использую размер пакета, например, 50 000,...

11
Машинное обучение против глубокого обучения

Меня немного смущает различие между терминами «машинное обучение» и «глубокое обучение». Я прогуглил это и прочитал много статей, но это все еще не очень ясно для меня. Известное определение машинного обучения Тома Митчелла: Компьютерная программа называется извлечь из опыта Е относительно...

11
GPU ускоренная обработка данных для R в Windows

В настоящее время я работаю над большими данными, в которых мы активно используем R для анализа данных. У меня в компьютере GTX1070 по игровым причинам. Таким образом, я подумал, что было бы действительно здорово, если бы я мог использовать это для ускорения обработки некоторых вещей, которые мои...

11
Сколько данных достаточно для обучения моей модели машинного обучения?

Я некоторое время работал над машинным обучением и биоинформатикой, и сегодня у меня был разговор с коллегой по основным общим вопросам интеллектуального анализа данных. Мой коллега (который является экспертом по машинному обучению) сказал, что, по его мнению, возможно, наиболее важный практический...

11
Заставьте Keras работать на многоядерной многоядерной системе

Я работаю над моделью Seq2Seq, используя LSTM от Keras (используя Theano background), и я хотел бы распараллелить процессы, потому что даже нескольким МБ данных требуется несколько часов для обучения. Ясно, что графические процессоры намного лучше в параллелизации, чем процессоры. На данный момент...

11
В чем разница между векторизатором хеширования и векторизатором tfidf?

Я конвертирую корпус текстовых документов в векторы слов для каждого документа. Я пробовал это с помощью TfidfVectorizer и HashingVectorizer Я понимаю, что HashingVectorizerа не принимает во внимание IDFоценки, как TfidfVectorizerделает. Причина, по которой я все еще работаю с,...

11
В чем разница между дилатацией и деконволюцией?

Эти две операции свертки очень распространены в глубоком обучении прямо сейчас. Я читал о расширенном сверточном слое в этой статье: WAVENET: ОБЩАЯ МОДЕЛЬ ДЛЯ СЫРЬЕГО АУДИО и Деконволюция в этой статье: полностью сверточные сети для семантической сегментации Оба, кажется, улучшают изображение, но в...

11
Количество и размер плотных слоев в CNN

Большинство сетей, которые я видел, имеют один или два плотных слоя перед последним слоем softmax. Есть ли принципиальный способ выбора количества и размера плотных слоев? Являются ли два плотных слоя более репрезентативными, чем один, для одного и того же числа параметров? Следует ли применять...

11
Странное поведение с оптимизатором Адама, когда тренируешься слишком долго

Я пытаюсь обучить один персептрон (1000 входных единиц, 1 выходной, без скрытых слоев) на 64 случайно сгенерированных точках данных. Я использую Pytorch с помощью оптимизатора Adam: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000, 1 x =...

11
Когда мы говорим, что набор данных не классифицируется?

Я много раз анализировал набор данных, по которому я не мог провести какую-либо классификацию. Чтобы увидеть, могу ли я получить классификатор, я обычно использовал следующие шаги: Создайте графические зависимости метки от числовых значений. Уменьшите размерность до 2 или 3, чтобы увидеть,...

11
Что такое LSTM, BiLSTM и когда их использовать?

Я очень новичок в области глубокого обучения, и мне особенно интересно знать, что такое LSTM и BiLSTM и когда их использовать (основные области применения). Почему LSTM и BILSTM более популярны, чем RNN? Можем ли мы использовать эти архитектуры глубокого обучения в неконтролируемых...

11
Найти оптимальный P (X | Y), учитывая, что у меня есть модель, которая имеет хорошие показатели при обучении на P (Y | X)

Входные данные: -> особенности футболки (цвет, логотип и т. Д.)XXX -> маржа прибылиYYY Я натренировал случайный лес на вышеуказанных и Y и добился разумной точности на тестовых данных. Так что яXXXYYY .P(Y|X)P(Y|X)P(Y|X) Теперь я хотел бы найти то есть распределение вероятностей X объектов,...

11
Как я могу соответствовать категориальным типам данных для классификации случайных лесов?

Мне нужно найти точность набора обучающих данных, применяя алгоритм случайного леса. Но мой тип набора данных - как категориальный, так и числовой. Когда я пытался уместить эти данные, я получаю сообщение об ошибке. 'Вход содержит NaN, бесконечность или значение, слишком большое для dtype ('...

11
Является ли 100% точность модели при превышении данных вне выборки?

Я только что закончил курс машинного обучения для R на cognitiveclass.ai и начал экспериментировать со случайными лесами. Я сделал модель, используя библиотеку randomForest из R. Модель классифицируется по двум классам: хороший и плохой. Я знаю, что, когда модель переоснащена, она хорошо работает...

11
Нейронные сети - Найти наиболее похожие изображения

Я работаю с Python, scikit-learn и keras. У меня есть 3000 тысяч изображений лицевых часов, таких как следующие: Watch_1 , Watch_2 , Watch_3 . Я хочу написать программу, которая получит в качестве входных данных фотографию настоящих часов, которые могут быть сделаны в менее идеальных условиях, чем...

11
Используя предварительно обученный классификатор CNN и примените его к другому набору данных изображений

Как бы вы оптимизировать с заранее обученных neural network применять его в отдельную проблему? Вы бы просто добавили больше слоев в предварительно обученную модель и протестировали ее на своем наборе данных? Например, если задача состояла в том, чтобы использовать CNN для классификации групп обоев...