Я хочу знать, является ли градиентный спуск основным алгоритмом, используемым в оптимизаторах, таких как Adam, Adagrad, RMSProp и некоторых других оптимизаторах.
Я хочу знать, является ли градиентный спуск основным алгоритмом, используемым в оптимизаторах, таких как Adam, Adagrad, RMSProp и некоторых других оптимизаторах.
Например, при поиске в Google результаты возвращаются практически мгновенно. Я понимаю, что Google сортирует и индексирует страницы с помощью алгоритмов и т. Д., Но я считаю невозможным индексировать результаты каждого отдельного запроса (и результаты персонализируются, что делает это еще более...
Рассмотрим поток, содержащий кортежи, (user, new_score) представляющие оценки пользователей в онлайн-игре. Поток может иметь 100-1000 новых элементов в секунду. В игре 200K до 300K уникальных игроков. Я хотел бы иметь несколько постоянных запросов, таких как: Какие игроки опубликовали более x...
Я ищу библиотеку / инструмент для визуализации того, как меняется социальная сеть, когда к ней добавляются новые узлы / ребра. Одним из существующих решений является SoNIA: аниматор социальных сетей . Это позволяет вам делать фильмы, как этот . Документация SoNIA гласит, что в данный момент она не...
Работая над проектами, которые часто называют «средними данными», я смог распараллелить мой код (в основном для моделирования и прогнозирования в Python) в одной системе в любом месте от 4 до 32 ядер. Сейчас я смотрю на масштабирование до кластеров в EC2 (возможно, с помощью StarCluster / IPython,...
Может ли кто-нибудь любезно рассказать мне о компромиссах, возникающих при выборе между Storm и MapReduce в Hadoop Cluster для обработки данных? Конечно, помимо очевидного, что Hadoop (обработка с помощью MapReduce в кластере Hadoop) является системой пакетной обработки, а Storm - системой...
Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 5 лет назад . Будучи новичком в машинном обучении в целом, я хотел бы начать играть и...
Вокруг Hadoop и его экосистемы много ажиотажа. Однако на практике, когда многие наборы данных находятся в терабайтовом диапазоне, не более ли разумно использовать Amazon RedShift для запросов больших наборов данных, вместо того, чтобы тратить время и усилия на создание кластера Hadoop? Кроме того,...
Я понимаю, что методы сжатия можно разделить на два основных набора: Глобальный местный Первый набор работает независимо от обрабатываемых данных, т. Е. Они не зависят от какой-либо характеристики данных и, следовательно, не требуют какой-либо предварительной обработки какой-либо части набора...
Есть этот побочный проект, над которым я работаю, где мне нужно структурировать решение следующей проблемы. У меня есть две группы людей (клиентов). Группа Aнамеревается купить, и группа Bнамеревается продать определенный продукт X. Продукт имеет ряд атрибутов x_i, и моя цель состоит в том, чтобы...
В настоящее время я использую несколько различных классификаторов для различных сущностей, извлеченных из текста, и использую точность / отзыв в качестве сводки того, насколько хорошо работает каждый отдельный классификатор в данном наборе данных. Мне интересно, есть ли реальный способ сравнения...
Насколько мне известно, разработка алгоритмов для решения проблемы Frequen Pattern Mining (FPM), путь улучшения имеет несколько основных контрольных точек. Во-первых, алгоритм Apriori был предложен в 1993 году Agrawal et al. наряду с формализацией проблемы. Алгоритм был в состоянии убрать некоторые...
Я работаю над приложением, которое требует создания очень большой базы данных n-грамм, которые существуют в большом текстовом корпусе. Мне нужны три эффективных типа операций: поиск и вставка, проиндексированные самой n-граммой, и запрос всех n-граммов, которые содержат вложенную n-грамм. Для меня...
В настоящее время я работаю с большим количеством данных о страховых случаях, включая некоторые лабораторные и аптечные претензии. Однако наиболее согласованная информация в наборе данных состоит из диагноза (ICD-9CM) и кодов процедур (CPT, HCSPCS, ICD-9CM). Мои цели: Выявить наиболее влиятельные...
Для экспериментов мы хотели бы использовать эмодзи, встроенные во многие твиты, в качестве базовых данных о правде / обучении для простого количественного анализа настроений. Твиты обычно слишком неструктурированы для НЛП, чтобы работать хорошо. Так или иначе, в Unicode 6.0 есть 722 Emoji, и,...
Я собираюсь классифицировать неструктурированные текстовые документы, а именно сайты неизвестной структуры. Количество классов, которые я классифицирую, ограничено (на данный момент я считаю, что их не более трех). У кого-нибудь есть предложения о том, как мне начать? Возможен ли подход "мешок...
Когда алгоритмы ML, например, Vowpal Wabbit или некоторые из машин факторизации, побеждающих в конкурсе кликов ( Kaggle ), упоминают, что функции «хэшированы», что это на самом деле означает для модели? Допустим, есть переменная, которая представляет идентификатор интернет-добавления, который...
У меня есть непрерывная переменная, отобранная в течение года с нерегулярными интервалами. Некоторые дни имеют более одного наблюдения в час, в то время как другие периоды не имеют ничего в течение нескольких дней. Это делает особенно сложным обнаружение закономерностей во временных рядах,...
Я работал в NLTK некоторое время с использованием Python. Проблема, с которой я сталкиваюсь, заключается в том, что они не могут получить помощь по обучению NER в NLTK с моими пользовательскими данными. Они использовали MaxEnt и обучили его на корпусе ACE. Я много искал в Интернете, но я не смог...
Такие термины, как «наука о данных» и «ученый данных» все чаще используются в наши дни. Многие компании нанимают «ученого данных». Но я не думаю, что это совершенно новая работа. Данные существовали из прошлого, и кто-то должен был иметь дело с данными. Я думаю, что термин «ученый данных»...