Наука о данных - страница 23

12

Я изучаю машинное обучение, и я хотел бы знать, как рассчитать VC-измерение. Например: h(x)={10if a≤x≤belse h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} , с параметрами(a,b)∈R2(a,b)∈R2(a,b) ∈ R^2 . Каково его...

machine-learning classification vc-theory

12

Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

12

Причина для квадратных изображений в глубоком обучении

224x224224x224224x224 100x200100x200100x200

deep-learning image-classification image-recognition

12

глубокое обучение для задач, не связанных с имиджем и не являющихся НЛП?

Пока есть много интересных приложений для глубокого изучения в области компьютерного зрения или обработки естественного языка. Как это в других более традиционных областях? Например, у меня есть традиционные социально-демографические переменные плюс, возможно, много лабораторных измерений и я хочу...

deep-learning

12

Важность признаков с категоричными признаками высокой кардинальности для регрессии (числовая переменная отклонения)

Я пытался использовать значения функций из случайных лесов, чтобы выполнить эмпирический выбор объектов для задачи регрессии, в которой все объекты являются категориальными и многие из них имеют много уровней (порядка 100-1000). Учитывая, что горячее кодирование создает фиктивную переменную для...

scikit-learn feature-selection random-forest xgboost categorical-data

12

Как узнать, что модель начала переоснащаться?

Я надеюсь, что следующие выдержки дадут представление о том, каким будет мой вопрос. Это из http://neuralnetworksanddeeplearning.com/chap3.html Затем обучение постепенно замедляется. Наконец, примерно в эпоху 280 точность классификации почти перестает улучшаться. Более поздние эпохи просто видят...

neural-network overfitting

12

Обнаружение аномалий с нейронной сетью

У меня есть большой многомерный набор данных, который генерируется каждый день. Каков будет хороший подход для выявления любых «аномалий» по сравнению с предыдущими днями? Является ли это подходящей проблемой, которую можно решить с помощью нейронных сетей? Любые предложения приветствуются....

tensorflow keras anomaly-detection

12

почему мы должны справиться с дисбалансом данных?

Мне нужно знать, почему мы должны бороться с дисбалансом данных. Я знаю, как с этим справляться, и различными методами для решения проблемы, которая заключается в повышении или понижении или использовании Smote. Например, если у меня редкое заболевание 1% из 100, и, скажем, я решил иметь...

classification dataset sampling class-imbalance

12

Так в чем же подвох с LSTM?

Я расширяю свои знания о пакете Keras и работаю с некоторыми из доступных моделей. У меня есть проблема двоичной классификации НЛП, которую я пытаюсь решить, и я применяю разные модели. Поработав с некоторыми результатами и прочитав все больше и больше о LSTM, кажется, что этот подход намного...

neural-network nlp lstm recurrent-neural-net

12

Многозадачное обучение в Керасе

Я пытаюсь реализовать общие слои в Keras. Я вижу, что Keras имеет keras.layers.concatenate, но я не уверен в документации о его использовании. Могу ли я использовать его для создания нескольких общих слоев? Как лучше всего реализовать простую общую нейронную сеть, как показано ниже, с...

machine-learning neural-network deep-learning keras multitask-learning

12

Многомерный и многомерный прогноз временных рядов (RNN / LSTM) Керас

Я пытался понять, как представлять и формировать данные для составления многомерного и многомерного прогноза временных рядов с использованием Keras (или TensorFlow), но я все еще очень неясен после прочтения многих постов / учебников / документации в блоге о том, как представлять данные в...

python keras rnn lstm

12

Существует ли правило большого пальца для проектирования нейронных сетей?

Я знаю, что архитектура нейронной сети в основном основана на самой проблеме и типах ввода / вывода, но все же - всегда есть «квадратная», когда начинается ее создание. Итак, мой вопрос - учитывая входной набор данных MxN (M - количество записей, N - количество объектов) и C возможных классов...

neural-network

12

Почему бы не всегда использовать технику оптимизации ADAM?

Похоже, что оптимизатор адаптивной оценки моментов (Адам) почти всегда работает лучше (быстрее и надежнее, достигая глобального минимума) при минимизации функции стоимости в обучении нейронных сетей. Почему не всегда использовать Адама? Зачем вообще использовать RMSProp или оптимизаторы...

neural-network optimization

12

Эффективное уменьшение размерности для большого набора данных

У меня есть набор данных с ~ 1M строк и ~ 500K разреженных объектов. Я хочу уменьшить размерность до порядка 1K-5K плотных объектов. sklearn.decomposition.PCAне работает с разреженными данными, и я пытался использовать, sklearn.decomposition.TruncatedSVDно получаю ошибку памяти довольно быстро....

python scikit-learn dimensionality-reduction

12

Может ли нейронная сеть вычислить

В духе знаменитой шутки Tensorflow Fizz Buzz и проблемы XOr я начал думать, возможно ли спроектировать нейронную сеть, которая реализует функцию ?Y= х2y=x2y = x^2 Учитывая некоторое представление числа (например, как вектор в двоичной форме, так что число 5представляется как [1,0,1,0,0,0,0,...]),...

machine-learning neural-network

11

Могут ли алгоритмы сокращения карт, написанные для MongoDB, быть перенесены в Hadoop позже?

В нашей компании у нас есть база данных MongoDB, содержащая много неструктурированных данных, по которым нам нужно запускать алгоритмы преобразования карт для генерации отчетов и других анализов. У нас есть два подхода для выбора необходимого анализа: Один из подходов заключается в извлечении...

scalability apache-hadoop map-reduce mongodb

11

Алгоритм генерации правил классификации

Таким образом, у нас есть потенциал для приложения машинного обучения, которое довольно точно вписывается в традиционную проблемную область, решаемую классификаторами, то есть у нас есть набор атрибутов, описывающих элемент, и «корзина», в которой они заканчиваются. Однако вместо того, чтобы...

machine-learning classification

11

Data Science ориентированный набор данных / исследовательский вопрос для диссертации MSc Statistics

Я хотел бы изучить «науку о данных». Этот термин кажется мне немного расплывчатым, но я ожидаю, что он потребует: машинное обучение (а не традиционная статистика); достаточно большой набор данных для анализа кластеров. Какие есть хорошие наборы данных и проблемы, доступные статистику с некоторым...

statistics education knowledge-base definitions

11

Как обрабатывать запросы на естественном языке?

Мне любопытно, что запросы на естественном языке. Стэнфорд обладает мощным набором программного обеспечения для обработки естественного языка . Я также видел библиотеку Apache OpenNLP и общую архитектуру для текстовой инженерии . Существует невероятное количество применений для обработки...

nlp

11

Является ли логистическая регрессия на самом деле алгоритмом регрессии?

Обычное определение регрессии (насколько мне известно) - это прогнозирование непрерывной выходной переменной из заданного набора входных переменных . Логистическая регрессия - это двоичный алгоритм классификации, поэтому он дает категориальный результат. Это действительно алгоритм регрессии? Если...

algorithms logistic-regression