Наука о данных - страница 15

15

Параллельные и распределенные вычисления

В чем разница между параллельными и распределенными вычислениями? Когда речь идет о масштабируемости и эффективности, очень часто можно увидеть решения, связанные с вычислениями, в кластерах машин, а иногда это называется параллельной обработкой или распределенной обработкой. В определенном смысле...

definitions parallel distributed

15

Как указать важные атрибуты?

Предположим, что набор данных со слабой структурой (например, веб-таблицы / связанные открытые данные) состоит из множества источников данных. Не существует общей схемы, за которой следуют данные, и каждый источник может использовать атрибуты синонимов для описания значений (например,...

machine-learning statistics feature-selection

15

R: машинное обучение на GPU

Существуют ли какие-либо пакеты машинного обучения для R, которые могут использовать графический процессор для повышения скорости обучения (что-то вроде theano из мира питонов)? Я вижу, что есть пакет под названием gputools, который позволяет выполнять код в gpu, но я ищу более полную библиотеку...

machine-learning r gpu

15

K-средства против онлайн K-средства

K-средних - это хорошо известный алгоритм кластеризации, но есть также онлайн-вариант такого алгоритма (онлайн-K-средства). Каковы плюсы и минусы этих подходов и когда следует отдавать предпочтение каждому из...

clustering algorithms k-means

15

Различие функций активации в нейронных сетях в целом

Я изучил типы функций активации для нейронных сетей. Сами функции довольно просты, но различие в применении не совсем понятно. Разумно различать логические и линейные функции, в зависимости от желаемого двоичного / непрерывного вывода, но в чем преимущество сигмоидальной функции перед простой...

neural-network activation-function

15

Интуиция за ограниченной машиной Больцмана (RBM)

Я прошел курс Джеффа Хинтона по нейронным сетям на Coursera, а также познакомился с ограниченными машинами Больцмана , все еще не понимая интуицию, лежащую в основе УОКР. Зачем нам нужно вычислять энергию в этой машине? И какая польза от вероятности в этой машине? Я также видел это видео . В видео...

unsupervised-learning rbm

15

Как добавить новую категорию в модель глубокого обучения?

Скажем, я прошел обучение по обучению в предварительно обученной сети, чтобы распознать 10 объектов. Как добавить 11-й элемент, который сеть может классифицировать, не теряя при этом все 10 категорий, которые я уже обучил, или информацию из исходной предварительно обученной модели? Друг сказал мне,...

neural-network deep-learning

15

Почему мы преобразуем перекос данных в нормальное распределение

Я проходил решение конкурса цен на жилье на Kaggle ( ядро Human Analog по ценам на жилье : методы предварительной регрессии ) и наткнулся на эту часть: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed...

regression feature-extraction feature-engineering kaggle feature-scaling

15

Почему переменные данных обучения и испытаний определяются с использованием заглавной буквы (в Python)?

Я надеюсь, что этот вопрос является наиболее подходящим на этом сайте ... В Python обычно имя класса определяется с использованием заглавной буквы в качестве первого символа, например class Vehicle: ... Однако в области машинного обучения часто данные обучения и испытаний определяются как Xи Y- не...

python dataset

15

Наука о данных без знания конкретной темы, стоит ли заниматься карьерой? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Data Stack Exchange. Закрыто 5 лет назад . Недавно я разговаривал с кем-то и упомянул о моем интересе к анализу данных и о том, кого я намереваюсь...

education beginner career

15

Предсказание сходства предложений

Я пытаюсь решить следующую проблему: у меня есть набор предложений в качестве моего набора данных, и я хочу иметь возможность набрать новое предложение и найти предложение, которое новое наиболее похоже в наборе данных. Пример будет выглядеть так: Новое предложение: " I opened a new mailbox"...

python nlp scikit-learn similarity text

15

Я хотел бы знать, насколько точно рекомендации пользователей и продуктов отличаются друг от друга. Это определяет, что На основе пользователя : Рекомендовать элементы путем поиска похожих пользователей. Это часто сложнее масштабировать из-за динамического характера пользователей. На основе...

machine-learning data-mining algorithms recommender-system

15

Инструменты Data Science с использованием Scala

Я знаю, что Spark полностью интегрирован со Scala. Это вариант использования специально для больших наборов данных. Какие другие инструменты имеют хорошую поддержку Scala? Подходит ли Scala для больших наборов данных? Или это также подходит для небольших наборов...

scalability scala

15

Параметризация регрессии угла поворота

Допустим, у меня есть стрелка сверху вниз, и я хочу предсказать угол, под которым эта стрелка. Это будет от до градусов или от до . Проблема в том, что эта цель круговая, и градусов - это одно и то же, что является инвариантностью, которую я хотел бы включить в свою цель, что должно значительно...

neural-network deep-learning loss-function parameter-estimation

15

Сходство между двумя словами

Я ищу библиотеку Python, которая помогает мне определить сходство между двумя словами или предложениями. Я буду выполнять преобразование аудио в текст, что приведет к появлению английского словаря или словарных слов (это может быть имя человека или компании). После этого мне нужно сравнить его с...

nlp nltk

15

Как масштабировать массив целых чисел со знаком в диапазоне от 0 до 1?

Я использую мозг для обучения нейронной сети на наборе функций, который включает в себя как положительные, так и отрицательные значения. Но Brain требует входных значений от 0 до 1. Как лучше всего нормализовать мои...

machine-learning neural-network feature-scaling normalization javascript

15

В чем преимущество сохранения размера партии равным 2?

При обучении моделей машинному обучению, почему иногда выгодно поддерживать размер пакета в степени 2? Я подумал, что было бы лучше использовать размер, который больше всего подходит для вашей памяти GPU / RAM. Этот ответ утверждает, что для некоторых пакетов степень 2 лучше, чем размер пакета....

machine-learning training

15

В чем разница между RNN, основанными на словах и символах?

Читая о генерации текста с помощью Recurrent Neural Networks, я заметил, что некоторые примеры были реализованы для генерации текста слово за словом, а другие - символ за символом, без указания причины. Итак, в чем разница между моделями RNN, которые предсказывают текст на основе слова, и моделями,...

machine-learning neural-network nlp rnn

15

Keras - Трансферное обучение - изменение формы входного тензора

Этот пост, кажется, указывает на то, что то, чего я хочу достичь, невозможно. Однако я не уверен в этом - учитывая то, что я уже сделал, я не понимаю, почему то, что я хочу сделать, не может быть достигнуто ... У меня есть два набора данных изображений, где у одного есть изображения формы (480,...

keras

15

Раздвижное окно приводит к переоснащению в LSTM?

Буду ли я переоснащать свой LSTM, если я обучу его с помощью метода скользящих окон? Почему люди не используют его для LSTM? Для упрощенного примера предположим, что мы должны предсказать последовательность символов: A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Это плохо (или лучше?), Если я...

lstm backpropagation mini-batch-gradient-descent