Наука о данных

12
Как рассчитать VC-размерность?

Я изучаю машинное обучение, и я хотел бы знать, как рассчитать VC-измерение. Например: h(x)={10if a≤x≤belse h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} , с параметрами(a,b)∈R2(a,b)∈R2(a,b) ∈ R^2 . Каково его...

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

12
глубокое обучение для задач, не связанных с имиджем и не являющихся НЛП?

Пока есть много интересных приложений для глубокого изучения в области компьютерного зрения или обработки естественного языка. Как это в других более традиционных областях? Например, у меня есть традиционные социально-демографические переменные плюс, возможно, много лабораторных измерений и я хочу...

12
Важность признаков с категоричными признаками высокой кардинальности для регрессии (числовая переменная отклонения)

Я пытался использовать значения функций из случайных лесов, чтобы выполнить эмпирический выбор объектов для задачи регрессии, в которой все объекты являются категориальными и многие из них имеют много уровней (порядка 100-1000). Учитывая, что горячее кодирование создает фиктивную переменную для...

12
Как узнать, что модель начала переоснащаться?

Я надеюсь, что следующие выдержки дадут представление о том, каким будет мой вопрос. Это из http://neuralnetworksanddeeplearning.com/chap3.html Затем обучение постепенно замедляется. Наконец, примерно в эпоху 280 точность классификации почти перестает улучшаться. Более поздние эпохи просто видят...

12
Обнаружение аномалий с нейронной сетью

У меня есть большой многомерный набор данных, который генерируется каждый день. Каков будет хороший подход для выявления любых «аномалий» по сравнению с предыдущими днями? Является ли это подходящей проблемой, которую можно решить с помощью нейронных сетей? Любые предложения приветствуются....

12
почему мы должны справиться с дисбалансом данных?

Мне нужно знать, почему мы должны бороться с дисбалансом данных. Я знаю, как с этим справляться, и различными методами для решения проблемы, которая заключается в повышении или понижении или использовании Smote. Например, если у меня редкое заболевание 1% из 100, и, скажем, я решил иметь...

12
Так в чем же подвох с LSTM?

Я расширяю свои знания о пакете Keras и работаю с некоторыми из доступных моделей. У меня есть проблема двоичной классификации НЛП, которую я пытаюсь решить, и я применяю разные модели. Поработав с некоторыми результатами и прочитав все больше и больше о LSTM, кажется, что этот подход намного...

12
Многозадачное обучение в Керасе

Я пытаюсь реализовать общие слои в Keras. Я вижу, что Keras имеет keras.layers.concatenate, но я не уверен в документации о его использовании. Могу ли я использовать его для создания нескольких общих слоев? Как лучше всего реализовать простую общую нейронную сеть, как показано ниже, с...

12
Многомерный и многомерный прогноз временных рядов (RNN / LSTM) Керас

Я пытался понять, как представлять и формировать данные для составления многомерного и многомерного прогноза временных рядов с использованием Keras (или TensorFlow), но я все еще очень неясен после прочтения многих постов / учебников / документации в блоге о том, как представлять данные в...

12
Существует ли правило большого пальца для проектирования нейронных сетей?

Я знаю, что архитектура нейронной сети в основном основана на самой проблеме и типах ввода / вывода, но все же - всегда есть «квадратная», когда начинается ее создание. Итак, мой вопрос - учитывая входной набор данных MxN (M - количество записей, N - количество объектов) и C возможных классов...

12
Почему бы не всегда использовать технику оптимизации ADAM?

Похоже, что оптимизатор адаптивной оценки моментов (Адам) почти всегда работает лучше (быстрее и надежнее, достигая глобального минимума) при минимизации функции стоимости в обучении нейронных сетей. Почему не всегда использовать Адама? Зачем вообще использовать RMSProp или оптимизаторы...

12
Эффективное уменьшение размерности для большого набора данных

У меня есть набор данных с ~ 1M строк и ~ 500K разреженных объектов. Я хочу уменьшить размерность до порядка 1K-5K плотных объектов. sklearn.decomposition.PCAне работает с разреженными данными, и я пытался использовать, sklearn.decomposition.TruncatedSVDно получаю ошибку памяти довольно быстро....

12
Может ли нейронная сеть вычислить

В духе знаменитой шутки Tensorflow Fizz Buzz и проблемы XOr я начал думать, возможно ли спроектировать нейронную сеть, которая реализует функцию ?Y= х2y=x2y = x^2 Учитывая некоторое представление числа (например, как вектор в двоичной форме, так что число 5представляется как [1,0,1,0,0,0,0,...]),...

11
Могут ли алгоритмы сокращения карт, написанные для MongoDB, быть перенесены в Hadoop позже?

В нашей компании у нас есть база данных MongoDB, содержащая много неструктурированных данных, по которым нам нужно запускать алгоритмы преобразования карт для генерации отчетов и других анализов. У нас есть два подхода для выбора необходимого анализа: Один из подходов заключается в извлечении...

11
Алгоритм генерации правил классификации

Таким образом, у нас есть потенциал для приложения машинного обучения, которое довольно точно вписывается в традиционную проблемную область, решаемую классификаторами, то есть у нас есть набор атрибутов, описывающих элемент, и «корзина», в которой они заканчиваются. Однако вместо того, чтобы...

11
Data Science ориентированный набор данных / исследовательский вопрос для диссертации MSc Statistics

Я хотел бы изучить «науку о данных». Этот термин кажется мне немного расплывчатым, но я ожидаю, что он потребует: машинное обучение (а не традиционная статистика); достаточно большой набор данных для анализа кластеров. Какие есть хорошие наборы данных и проблемы, доступные статистику с некоторым...

11
Как обрабатывать запросы на естественном языке?

Мне любопытно, что запросы на естественном языке. Стэнфорд обладает мощным набором программного обеспечения для обработки естественного языка . Я также видел библиотеку Apache OpenNLP и общую архитектуру для текстовой инженерии . Существует невероятное количество применений для обработки...

11
Является ли логистическая регрессия на самом деле алгоритмом регрессии?

Обычное определение регрессии (насколько мне известно) - это прогнозирование непрерывной выходной переменной из заданного набора входных переменных . Логистическая регрессия - это двоичный алгоритм классификации, поэтому он дает категориальный результат. Это действительно алгоритм регрессии? Если...