Наука о данных - страница 29

10

Нужно ли нормализовать данные при построении деревьев решений с использованием R?

Итак, наш набор данных на этой неделе имеет 14 атрибутов, и каждый столбец имеет очень разные значения. Один столбец имеет значения ниже 1, а другой - от трех до четырех целых цифр. Мы изучали нормализацию на прошлой неделе, и кажется, что вы должны нормализовать данные, когда они имеют очень...

r beginner

10

Как почистить IMDB веб-страницу?

Я пытаюсь самостоятельно изучить работу с использованием Python как часть усилий по изучению анализа данных. Я пытаюсь очистить веб-страницу imdb, URL которой следующий: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Я использую модуль...

data-mining python scraping

10

Искра, оптимально разделяющая один RDD на два

У меня есть большой набор данных, который мне нужно разделить на группы в соответствии с конкретными параметрами. Я хочу, чтобы работа выполнялась максимально эффективно. Я могу представить два способа сделать это Вариант 1 - Создать карту из оригинального СДР и отфильтровать def...

apache-spark pyspark

10

Онтологии и Семантическая паутина мертвы? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он фокусировался только на одной проблеме, редактируя этот пост . Закрыто 3 года назад . Семантическая паутина мертва? Онтологии мертвы? Я...

knowledge-base

10

Как рассчитать дельта-член сверточного слоя, учитывая дельта-члены и веса предыдущего сверточного слоя?

Я пытаюсь обучить искусственную нейронную сеть с двумя сверточными слоями (с1, с2) и двумя скрытыми слоями (с1, с2). Я использую стандартный подход обратного распространения. При обратном проходе я вычисляю член ошибки слоя (дельта) на основе ошибки предыдущего слоя, весов предыдущего слоя и...

machine-learning data-mining neural-network deep-learning

10

Что быстрее: PostgreSQL против MongoDB на больших наборах данных JSON?

У меня есть большой набор данных с 9-метровыми объектами JSON по ~ 300 байт каждый. Это сообщения из агрегатора ссылок: в основном ссылки (URL, заголовок и идентификатор автора) и комментарии (текст и идентификатор автора) + метаданные. Они вполне могут быть реляционными записями в таблице, за...

data-mining bigdata databases sql mongodb

10

Проекты по науке о данных объяснили шаг за шагом?

Я ищу сайт или книгу, где приводятся несколько практических примеров, объясняющих, как они выбирают соответствующие функции, процедуру выбора модели и т. Д...

machine-learning feature-selection

10

Насколько гибка связь между целевой функцией и функцией активации выходного слоя?

Во многих пакетах нейронных сетей кажется стандартным объединение целевой функции, которая должна быть минимизирована, с функцией активации в выходном слое. Например, для линейного выходного слоя, используемого для регрессии, является стандартным (и часто единственным выбором) иметь целевую функцию...

neural-network gradient-descent

10

Обучение совместному укреплению

У меня уже есть работающая реализация для одного агента, работающего над проблемой динамического ценообразования с целью максимизации дохода. Однако проблема, с которой я работаю, связана с несколькими различными продуктами, которые заменяют друг друга, поэтому динамическое ценообразование их всех...

machine-learning reinforcement-learning

10

Сколько учебных данных нужно word2vec?

Я хотел бы сравнить разницу между одним и тем же словом, упомянутым в разных источниках. То есть, чем отличаются авторы в использовании плохо определенных слов, таких как «демократия». Краткий план был Возьмите книги с упоминанием термина «демократия» как простой текст В каждой книге заменить...

text-mining word-embeddings

10

LSTM или другой пакет RNN для R

Я видел впечатляющий результат от моделей LSTM, производящих тексты, подобные Шекспиру. Мне было интересно, существует ли пакет LSTM для R. Я гуглил его, но нашел только пакеты для Python и Julia. (возможно, есть некоторая проблема с производительностью, которая объясняет, почему эти программы...

r neural-network rnn

10

Как ученые придумали правильные параметры и топологию скрытой модели Маркова для использования?

Я понимаю, как скрытая марковская модель используется в геномных последовательностях, таких как поиск гена. Но я не понимаю, как придумать конкретную марковскую модель. Я имею в виду, сколько состояний должна иметь модель? Сколько возможных переходов? Должна ли модель иметь петлю? Как они узнали...

machine-learning model-selection hyperparameter markov

10

Модель векторного пространства косинус tf-idf для поиска похожих документов

Иметь корпус более миллиона документов Для данного документа нужно найти похожие документы с использованием косинуса, как в модели векторного пространства d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Все tf были нормализованы с использованием увеличенной частоты,...

text-mining similarity

10

Преобразование автоэнкодеров

Я только что прочитал статью Джеффа Хинтона о преобразовании автоэнкодеров Хинтон, Крижевский и Ван: Преобразование авто-кодировщиков . В искусственных нейронных сетях и машинном обучении, 2011. и очень хотел бы поиграть с чем-то вроде этого. Но, прочитав его, я не смог получить достаточно...

neural-network deep-learning autoencoder

10

Text-Classification-Problem: Word2Vec / NN - лучший подход?

Я рассчитываю разработать систему, которая с учетом абзаца текста сможет классифицировать его и определить контекст: Обучается с пользовательскими текстовыми параграфами (например, комментарии / вопросы / ответы) Каждый элемент в обучающем наборе будет помечен. Так, например, («категория 1»,...

neural-network text-mining multiclass-classification word-embeddings

10

Пользователь-продукт положительный (нажмите данные) доступны. Как генерировать негатив (данные без кликов)?

Рекомендуется, чтобы у нас были данные о пользовательских продуктах, которые помечены, например, как «клик». Чтобы узнать модель, мне нужны данные по кликам и без кликов. Простейший подход к генерации - это взять пары продуктов пользователя, которые не найдены в данных о кликах. Однако это может...

machine-learning data-mining

10

Что делать, если данные тестирования имеют меньше возможностей, чем данные обучения?

Допустим, мы прогнозируем продажи магазина, и мои данные обучения имеют два набора функций: Один о продаже магазина с датами (поле «Магазин» не является уникальным) Один из типов магазинов (поле «Магазин» здесь уникально) Таким образом, матрица будет выглядеть примерно так:...

machine-learning regression feature-selection feature-construction missing-data

10

Анализ логов сервера с использованием машинного обучения

Мне было поручено проанализировать журналы сервера нашего приложения, которые содержат журналы исключений, журналы событий журналов базы данных и т. Д. Я новичок в машинном обучении, мы используем Spark с упругим поиском и Sparks MLlib (или PredictionIO). Пример желаемого В результате можно было бы...

machine-learning predictive-modeling apache-spark

10

Создание новых столбцов путем перебора строк в панде.

У меня есть фрейм данных панд (X11), как это: На самом деле у меня есть 99 столбцов до dx99 dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 3569 Я хочу создать дополнительный столбец (столбцы) для значений...

python data-cleaning pandas anaconda

10

Как ИИ учатся действовать, когда проблемное пространство слишком велико

Я учусь лучше всего через эксперименты и пример. Я изучаю нейронные сети, и у меня есть (что я думаю) довольно хорошее понимание классификации и регрессии, а также обучения под наблюдением и без него, но я наткнулся на то, чего не могу понять; Если бы я хотел обучить ИИ играть в сложную игру; Я...

machine-learning neural-network