Наука о данных

11
Что такое горячее кодирование в тензорном потоке?

В настоящее время я делаю курс по тензорному потоку, в котором они использовали tf.one_hot (индексы, глубина). Теперь я не понимаю, как эти индексы превращаются в эту двоичную последовательность. Может кто-нибудь, пожалуйста, объясните мне точный процесс...

11
Как предсказать будущие значения временного горизонта с помощью Keras?

Я только что построил эту нейронную сеть LSTM с Keras import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import Sequential...

11
Параметр scikit-learn n_jobs об использовании процессора и памяти

В большинстве оценок в scikit-learn в n_jobsпараметре fit/ predictmethod есть параметр для создания параллельных заданий с использованием joblib. Я заметил, что его установка -1создает всего 1 процесс Python и максимально увеличивает количество ядер, в результате чего загрузка ЦП достигает 2500%...

11
Выпадение на каких слоях LSTM?

LSTMРекомендуется ли использовать многослойный режим с выпадающим списком для всех скрытых слоев, а также для выходных плотных слоев? В статье Хинтона (в которой предлагалось Dropout) он помещал Dropout только на плотные слои, но это было потому, что скрытые внутренние слои были сверточными....

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

11
Как использовать Scikit-Learn Label Propagation для структурированных графиков данных?

В рамках моего исследования я заинтересован в распространении меток на графике. Меня особенно интересуют эти два метода: Сяоцзинь Чжу и Зубин Гахрамани. Обучение на помеченных и немаркированных данных с распространением меток. Технический отчет CMU-CALD-02-107, Университет Карнеги-Меллона, 2002 г....

11
Как принцип бритвы Оккама будет работать в машинном обучении

Следующий вопрос, показанный на картинке, был задан на одном из недавних экзаменов. Я не уверен, если я правильно понял принцип Бритвы Оккама или нет. В соответствии с распределением и границами решения, приведенными в вопросе, и после бритвы Оккама, граница решения B в обоих случаях должна быть...

10
Кластеризация данных клиентов, хранящихся в ElasticSearch

У меня есть куча профилей клиентов, хранящихся в elasticsearchкластер. Эти профили теперь используются для создания целевых групп для наших подписок на электронную почту. Целевые группы в настоящее время формируются вручную с использованием возможностей поиска с использованием эластичного поиска...

10
Каковы ограничения памяти R?

В обзоре « Прикладное прогнозирующее моделирование » рецензент заявляет : Одна критика, которую я имею в отношении педагогики статистического обучения (SL), - это отсутствие соображений производительности вычислений при оценке различных методов моделирования. С его акцентом на начальной загрузке и...

10
Является ли это сравнение Neo4j со временем выполнения СУБД правильным?

Справочная информация: Ниже приводится книга « Базы данных графиков» , в которой описывается тест производительности, упомянутый в книге « Neo4j в действии» : Отношения в графе естественно образуют пути. Запрос или обход графика включает в себя следующие пути. Из-за принципиально ориентированной на...

10
Почему трудно обеспечить эффективность при использовании библиотек?

Любая небольшая обработка базы данных может быть легко решена с помощью скриптов Python / Perl / ..., которые используют библиотеки и / или даже утилиты из самого языка. Тем не менее, когда дело доходит до производительности, люди склонны обращаться к языкам C / C ++ / низкого уровня. Кажется, что...

10
Какой метод индексирования данных наиболее эффективен?

Как все мы знаем, существуют некоторые методы индексации данных, использующиеся известными приложениями индексирования, такими как Lucene (для java) или Lucene.NET (для .NET), MurMurHash, B + Tree и т. Д. Для No-Sql / Object Ориентированная база данных (которую я пытаюсь написать / немного поиграть...

10
Квалификация для докторских программ

Ян Лекун упомянул в своей АМА, что он считает, что иметь докторскую степень очень важно, чтобы получить работу в топ-компании. У меня есть степень магистра в области статистики, мой студент изучал экономику и прикладную математику, но сейчас я изучаю программы ML PhD. Большинство программ говорят,...

10
Отладка нейронных сетей

Я построил искусственную нейронную сеть в Python, используя функцию оптимизации scipy.optimize.minimize (Conjugate Gradient). Я реализовал проверку градиента, дважды проверил все и т.д., и я уверен, что он работает правильно. Я запускал его несколько раз, и он достигает «Оптимизация успешно...

10
Как мне выяснить, можно ли построить подмножества на обычной диаграмме Эйлера?

В некоторых случаях может быть невозможно нарисовать диаграммы Эйлера с перекрывающимися кругами, чтобы представить все перекрывающиеся подмножества в правильных пропорциях. Этот тип данных затем требует использования полигонов или других фигур для представления каждого набора. Имея дело с данными,...

10
Как отладить анализ данных?

Я столкнулся со следующей проблемой, которая, по моему мнению, довольно типична. У меня есть большие данные, скажем, несколько миллионов строк. Я провел некоторый нетривиальный анализ, например, SQL-запрос, состоящий из нескольких подзапросов. Я получаю некоторый результат, утверждая, например, что...

10
Лучшие языки для научных вычислений [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое...

10
Обнаружение выбросов газа - проект нейронной сети. Плохие результаты

Я попытался обнаружить выбросы в потреблении энергетического газа в некоторых голландских зданиях, построив модель нейронной сети. У меня очень плохие результаты, но я не могу найти причину. Я не эксперт, поэтому я хотел бы спросить вас, что я могу улучшить и что я делаю неправильно. Это полное...

10
Изучение порядковой регрессии в R?

Я работаю над проектом и нуждаюсь в ресурсах, чтобы ускорить меня. Набор данных составляет около 35000 наблюдений по 30 или около того переменным. Около половины переменных являются категориальными, в то время как некоторые имеют много разных возможных значений, то есть, если вы разделите...