Вопросы с тегом «data-mining»

Деятельность, которая ищет шаблоны в больших, сложных наборах данных. Обычно в нем делается акцент на алгоритмических методах, но может также использоваться любой набор связанных навыков, приложений или методологий с этой целью.

133
Кластеризация K-средних для смешанных числовых и категориальных данных

Мой набор данных содержит ряд числовых атрибутов и один категориальный. Скажи NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, где CategoricalAttrпринимает один из трех возможных значений: CategoricalAttrValue1, CategoricalAttrValue2или CategoricalAttrValue3. Я использую стандартную...

61
Обнаружение аномалий с открытым исходным кодом в Python

Проблема: я работаю над проектом, в котором используются файлы журналов, аналогичные тем, которые находятся в пространстве мониторинга ИТ (насколько я понимаю, пространство ИТ). Эти файлы журнала представляют собой данные временных рядов, организованные в сотни / тысячи строк с различными...

58
Машины опорных векторов по-прежнему считаются «современными» в своей нише?

Этот вопрос является ответом на комментарий, который я увидел по другому вопросу. Комментарий касался учебного курса по машинному обучению на Coursera, а также «SVM не так часто используются в наши дни». Я только что закончил соответствующие лекции сам, и мое понимание SVM состоит в том, что они...

34
Каковы некоторые стандартные способы вычисления расстояния между документами?

Когда я говорю «документ», я имею в виду веб-страницы, такие как статьи Википедии и новости. Я предпочитаю ответы, дающие либо ванильные лексические метрики расстояния, либо современные семантические метрики расстояния, с большим предпочтением к...

29
Как сделать SVD и PCA с большими данными?

У меня есть большой набор данных (около 8 ГБ). Я хотел бы использовать машинное обучение для его анализа. Итак, я думаю, что я должен использовать SVD, а затем PCA, чтобы уменьшить размерность данных для эффективности. Однако MATLAB и Octave не могут загрузить такой большой набор данных. Какие...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

25
Зачем нам XGBoost и Random Forest?

Я не был ясен в паре концепций: XGBoost превращает слабых учеников в сильных учеников. В чем преимущество этого? Объединить много слабых учеников вместо одного дерева? Random Forest использует различные образцы из дерева для создания дерева. В чем преимущество этого метода вместо использования...

25
Коэффициент Джини против примеси Джини - деревья решений

Проблема касается построения деревьев решений. Согласно Википедии « коэффициент Джини » не следует путать с « примесью Джини ». Однако обе меры можно использовать при построении дерева решений - они могут поддержать наш выбор при разделении набора элементов. 1) «примесь Джини» - это стандартная...

24
Почему сообщества НЛП и машинного обучения заинтересованы в глубоком обучении?

Я надеюсь, что вы можете мне помочь, так как у меня есть несколько вопросов на эту тему. Я новичок в области глубокого обучения, и хотя я сделал несколько уроков, я не могу связать или отличить понятия друг от...

24
Значение скрытых черт?

Я изучаю матричную факторизацию для рекомендательных систем и вижу, что этот термин latent featuresвстречается слишком часто, но я не могу понять, что он означает. Я знаю, что такое функция, но я не понимаю идею скрытых функций. Не могли бы вы объяснить это? Или, по крайней мере, указать мне бумагу...

22
Как бороться с временными рядами, которые изменяют сезонность или другие закономерности?

Задний план Я работаю над набором данных временных рядов показаний счетчиков энергии. Длина ряда варьируется в зависимости от метра - у некоторых у меня есть несколько лет, у других - всего несколько месяцев и т. Д. Многие демонстрируют значительную сезонность, а часто и несколько слоев - в течение...

22
Является ли Data Science таким же, как Data Mining?

Я уверен, что наука о данных, как будет обсуждаться на этом форуме, имеет несколько синонимов или, по крайней мере, смежные области, где анализируются большие данные. Мой конкретный вопрос касается Data Mining. Я взял аспирантуру в Data Mining несколько лет назад. Каковы различия между Data Science...

19
Какую статистическую модель я должен использовать, чтобы проанализировать вероятность того, что одно событие повлияло на продольные данные

Я пытаюсь найти формулу, метод или модель, которые можно использовать для анализа вероятности того, что конкретное событие повлияло на некоторые продольные данные. Мне трудно понять, что искать в Google. Вот пример сценария: Представьте, что вы владеете бизнесом, в котором ежедневно посещают в...

19
Что такое расстояние Хеллингера и когда его использовать?

Мне интересно знать, что на самом деле происходит на расстоянии Хеллингера (простыми словами). Кроме того, мне также интересно узнать, какие типы проблем мы можем использовать для расстояния Хеллингера? Каковы преимущества использования Hellinger...

18
Word2Vec против Sentence2Vec против Doc2Vec

Недавно я натолкнулся на термины Word2Vec , Sentence2Vec и Doc2Vec, и я был немного сбит с толку, поскольку я новичок в векторной семантике. Может кто-нибудь, пожалуйста, изложите различия в этих методах простыми словами. Каковы наиболее подходящие задачи для каждого...

17
K-means: Какие есть хорошие способы выбрать эффективный набор начальных центроидов?

Когда используется случайная инициализация центроидов, разные прогоны K-средних дают разные общие SSE. И это имеет решающее значение в производительности алгоритма. Каковы некоторые эффективные подходы к решению этой проблемы? Недавние подходы...

16
Одноклассная дискриминационная классификация с несбалансированным, гетерогенным отрицательным фоном?

Я работаю над улучшением существующего контролируемого классификатора, чтобы классифицировать последовательности {белка} как принадлежащие к определенному классу (предшественники нейропептидных гормонов) или нет. Существует около 1150 известных «позитивов» на фоне около 13 миллионов белковых...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

15
Разница в рекомендациях, основанных на предметах и ​​пользователях в Mahout

Я хотел бы знать, насколько точно рекомендации пользователей и продуктов отличаются друг от друга. Это определяет, что На основе пользователя : Рекомендовать элементы путем поиска похожих пользователей. Это часто сложнее масштабировать из-за динамического характера пользователей. На основе...

15
Дерево решений против KNN

В каких случаях лучше использовать дерево решений, а в других случаях - KNN? Зачем использовать один из них в определенных случаях? А другие в разных случаях? (Глядя на его функциональность, а не на алгоритм) У кого-нибудь есть объяснения или ссылки по этому...