Наука о данных

15
Параллельные и распределенные вычисления

В чем разница между параллельными и распределенными вычислениями? Когда речь идет о масштабируемости и эффективности, очень часто можно увидеть решения, связанные с вычислениями, в кластерах машин, а иногда это называется параллельной обработкой или распределенной обработкой. В определенном смысле...

15
Как указать важные атрибуты?

Предположим, что набор данных со слабой структурой (например, веб-таблицы / связанные открытые данные) состоит из множества источников данных. Не существует общей схемы, за которой следуют данные, и каждый источник может использовать атрибуты синонимов для описания значений (например,...

15
R: машинное обучение на GPU

Существуют ли какие-либо пакеты машинного обучения для R, которые могут использовать графический процессор для повышения скорости обучения (что-то вроде theano из мира питонов)? Я вижу, что есть пакет под названием gputools, который позволяет выполнять код в gpu, но я ищу более полную библиотеку...

15
K-средства против онлайн K-средства

K-средних - это хорошо известный алгоритм кластеризации, но есть также онлайн-вариант такого алгоритма (онлайн-K-средства). Каковы плюсы и минусы этих подходов и когда следует отдавать предпочтение каждому из...

15
Различие функций активации в нейронных сетях в целом

Я изучил типы функций активации для нейронных сетей. Сами функции довольно просты, но различие в применении не совсем понятно. Разумно различать логические и линейные функции, в зависимости от желаемого двоичного / непрерывного вывода, но в чем преимущество сигмоидальной функции перед простой...

15
Интуиция за ограниченной машиной Больцмана (RBM)

Я прошел курс Джеффа Хинтона по нейронным сетям на Coursera, а также познакомился с ограниченными машинами Больцмана , все еще не понимая интуицию, лежащую в основе УОКР. Зачем нам нужно вычислять энергию в этой машине? И какая польза от вероятности в этой машине? Я также видел это видео . В видео...

15
Как добавить новую категорию в модель глубокого обучения?

Скажем, я прошел обучение по обучению в предварительно обученной сети, чтобы распознать 10 объектов. Как добавить 11-й элемент, который сеть может классифицировать, не теряя при этом все 10 категорий, которые я уже обучил, или информацию из исходной предварительно обученной модели? Друг сказал мне,...

15
Почему мы преобразуем перекос данных в нормальное распределение

Я проходил решение конкурса цен на жилье на Kaggle ( ядро Human Analog по ценам на жилье : методы предварительной регрессии ) и наткнулся на эту часть: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed...

15
Почему переменные данных обучения и испытаний определяются с использованием заглавной буквы (в Python)?

Я надеюсь, что этот вопрос является наиболее подходящим на этом сайте ... В Python обычно имя класса определяется с использованием заглавной буквы в качестве первого символа, например class Vehicle: ... Однако в области машинного обучения часто данные обучения и испытаний определяются как Xи Y- не...

15
Наука о данных без знания конкретной темы, стоит ли заниматься карьерой? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Data Stack Exchange. Закрыто 5 лет назад . Недавно я разговаривал с кем-то и упомянул о моем интересе к анализу данных и о том, кого я намереваюсь...

15
Предсказание сходства предложений

Я пытаюсь решить следующую проблему: у меня есть набор предложений в качестве моего набора данных, и я хочу иметь возможность набрать новое предложение и найти предложение, которое новое наиболее похоже в наборе данных. Пример будет выглядеть так: Новое предложение: " I opened a new mailbox"...

15
Разница в рекомендациях, основанных на предметах и ​​пользователях в Mahout

Я хотел бы знать, насколько точно рекомендации пользователей и продуктов отличаются друг от друга. Это определяет, что На основе пользователя : Рекомендовать элементы путем поиска похожих пользователей. Это часто сложнее масштабировать из-за динамического характера пользователей. На основе...

15
Инструменты Data Science с использованием Scala

Я знаю, что Spark полностью интегрирован со Scala. Это вариант использования специально для больших наборов данных. Какие другие инструменты имеют хорошую поддержку Scala? Подходит ли Scala для больших наборов данных? Или это также подходит для небольших наборов...

15
Параметризация регрессии угла поворота

Допустим, у меня есть стрелка сверху вниз, и я хочу предсказать угол, под которым эта стрелка. Это будет от до градусов или от до . Проблема в том, что эта цель круговая, и градусов - это одно и то же, что является инвариантностью, которую я хотел бы включить в свою цель, что должно значительно...

15
Сходство между двумя словами

Я ищу библиотеку Python, которая помогает мне определить сходство между двумя словами или предложениями. Я буду выполнять преобразование аудио в текст, что приведет к появлению английского словаря или словарных слов (это может быть имя человека или компании). После этого мне нужно сравнить его с...

15
Как масштабировать массив целых чисел со знаком в диапазоне от 0 до 1?

Я использую мозг для обучения нейронной сети на наборе функций, который включает в себя как положительные, так и отрицательные значения. Но Brain требует входных значений от 0 до 1. Как лучше всего нормализовать мои...

15
В чем преимущество сохранения размера партии равным 2?

При обучении моделей машинному обучению, почему иногда выгодно поддерживать размер пакета в степени 2? Я подумал, что было бы лучше использовать размер, который больше всего подходит для вашей памяти GPU / RAM. Этот ответ утверждает, что для некоторых пакетов степень 2 лучше, чем размер пакета....

15
В чем разница между RNN, основанными на словах и символах?

Читая о генерации текста с помощью Recurrent Neural Networks, я заметил, что некоторые примеры были реализованы для генерации текста слово за словом, а другие - символ за символом, без указания причины. Итак, в чем разница между моделями RNN, которые предсказывают текст на основе слова, и моделями,...

15
Keras - Трансферное обучение - изменение формы входного тензора

Этот пост, кажется, указывает на то, что то, чего я хочу достичь, невозможно. Однако я не уверен в этом - учитывая то, что я уже сделал, я не понимаю, почему то, что я хочу сделать, не может быть достигнуто ... У меня есть два набора данных изображений, где у одного есть изображения формы (480,...

15
Раздвижное окно приводит к переоснащению в LSTM?

Буду ли я переоснащать свой LSTM, если я обучу его с помощью метода скользящих окон? Почему люди не используют его для LSTM? Для упрощенного примера предположим, что мы должны предсказать последовательность символов: A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Это плохо (или лучше?), Если я...