Наука о данных

10
Нужно ли нормализовать данные при построении деревьев решений с использованием R?

Итак, наш набор данных на этой неделе имеет 14 атрибутов, и каждый столбец имеет очень разные значения. Один столбец имеет значения ниже 1, а другой - от трех до четырех целых цифр. Мы изучали нормализацию на прошлой неделе, и кажется, что вы должны нормализовать данные, когда они имеют очень...

10
Как почистить IMDB веб-страницу?

Я пытаюсь самостоятельно изучить работу с использованием Python как часть усилий по изучению анализа данных. Я пытаюсь очистить веб-страницу imdb, URL которой следующий: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Я использую модуль...

10
Искра, оптимально разделяющая один RDD на два

У меня есть большой набор данных, который мне нужно разделить на группы в соответствии с конкретными параметрами. Я хочу, чтобы работа выполнялась максимально эффективно. Я могу представить два способа сделать это Вариант 1 - Создать карту из оригинального СДР и отфильтровать def...

10
Онтологии и Семантическая паутина мертвы? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он фокусировался только на одной проблеме, редактируя этот пост . Закрыто 3 года назад . Семантическая паутина мертва? Онтологии мертвы? Я...

10
Как рассчитать дельта-член сверточного слоя, учитывая дельта-члены и веса предыдущего сверточного слоя?

Я пытаюсь обучить искусственную нейронную сеть с двумя сверточными слоями (с1, с2) и двумя скрытыми слоями (с1, с2). Я использую стандартный подход обратного распространения. При обратном проходе я вычисляю член ошибки слоя (дельта) на основе ошибки предыдущего слоя, весов предыдущего слоя и...

10
Что быстрее: PostgreSQL против MongoDB на больших наборах данных JSON?

У меня есть большой набор данных с 9-метровыми объектами JSON по ~ 300 байт каждый. Это сообщения из агрегатора ссылок: в основном ссылки (URL, заголовок и идентификатор автора) и комментарии (текст и идентификатор автора) + метаданные. Они вполне могут быть реляционными записями в таблице, за...

10
Насколько гибка связь между целевой функцией и функцией активации выходного слоя?

Во многих пакетах нейронных сетей кажется стандартным объединение целевой функции, которая должна быть минимизирована, с функцией активации в выходном слое. Например, для линейного выходного слоя, используемого для регрессии, является стандартным (и часто единственным выбором) иметь целевую функцию...

10
Обучение совместному укреплению

У меня уже есть работающая реализация для одного агента, работающего над проблемой динамического ценообразования с целью максимизации дохода. Однако проблема, с которой я работаю, связана с несколькими различными продуктами, которые заменяют друг друга, поэтому динамическое ценообразование их всех...

10
Сколько учебных данных нужно word2vec?

Я хотел бы сравнить разницу между одним и тем же словом, упомянутым в разных источниках. То есть, чем отличаются авторы в использовании плохо определенных слов, таких как «демократия». Краткий план был Возьмите книги с упоминанием термина «демократия» как простой текст В каждой книге заменить...

10
LSTM или другой пакет RNN для R

Я видел впечатляющий результат от моделей LSTM, производящих тексты, подобные Шекспиру. Мне было интересно, существует ли пакет LSTM для R. Я гуглил его, но нашел только пакеты для Python и Julia. (возможно, есть некоторая проблема с производительностью, которая объясняет, почему эти программы...

10
Как ученые придумали правильные параметры и топологию скрытой модели Маркова для использования?

Я понимаю, как скрытая марковская модель используется в геномных последовательностях, таких как поиск гена. Но я не понимаю, как придумать конкретную марковскую модель. Я имею в виду, сколько состояний должна иметь модель? Сколько возможных переходов? Должна ли модель иметь петлю? Как они узнали...

10
Модель векторного пространства косинус tf-idf для поиска похожих документов

Иметь корпус более миллиона документов Для данного документа нужно найти похожие документы с использованием косинуса, как в модели векторного пространства d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Все tf были нормализованы с использованием увеличенной частоты,...

10
Преобразование автоэнкодеров

Я только что прочитал статью Джеффа Хинтона о преобразовании автоэнкодеров Хинтон, Крижевский и Ван: Преобразование авто-кодировщиков . В искусственных нейронных сетях и машинном обучении, 2011. и очень хотел бы поиграть с чем-то вроде этого. Но, прочитав его, я не смог получить достаточно...

10
Text-Classification-Problem: Word2Vec / NN - лучший подход?

Я рассчитываю разработать систему, которая с учетом абзаца текста сможет классифицировать его и определить контекст: Обучается с пользовательскими текстовыми параграфами (например, комментарии / вопросы / ответы) Каждый элемент в обучающем наборе будет помечен. Так, например, («категория 1»,...

10
Пользователь-продукт положительный (нажмите данные) доступны. Как генерировать негатив (данные без кликов)?

Рекомендуется, чтобы у нас были данные о пользовательских продуктах, которые помечены, например, как «клик». Чтобы узнать модель, мне нужны данные по кликам и без кликов. Простейший подход к генерации - это взять пары продуктов пользователя, которые не найдены в данных о кликах. Однако это может...

10
Что делать, если данные тестирования имеют меньше возможностей, чем данные обучения?

Допустим, мы прогнозируем продажи магазина, и мои данные обучения имеют два набора функций: Один о продаже магазина с датами (поле «Магазин» не является уникальным) Один из типов магазинов (поле «Магазин» здесь уникально) Таким образом, матрица будет выглядеть примерно так:...

10
Анализ логов сервера с использованием машинного обучения

Мне было поручено проанализировать журналы сервера нашего приложения, которые содержат журналы исключений, журналы событий журналов базы данных и т. Д. Я новичок в машинном обучении, мы используем Spark с упругим поиском и Sparks MLlib (или PredictionIO). Пример желаемого В результате можно было бы...

10
Создание новых столбцов путем перебора строк в панде.

У меня есть фрейм данных панд (X11), как это: На самом деле у меня есть 99 столбцов до dx99 dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 3569 Я хочу создать дополнительный столбец (столбцы) для значений...

10
Как ИИ учатся действовать, когда проблемное пространство слишком велико

Я учусь лучше всего через эксперименты и пример. Я изучаю нейронные сети, и у меня есть (что я думаю) довольно хорошее понимание классификации и регрессии, а также обучения под наблюдением и без него, но я наткнулся на то, чего не могу понять; Если бы я хотел обучить ИИ играть в сложную игру; Я...