Наука о данных

25
LightGBM против XGBoost

Я пытаюсь понять, что лучше (точнее, особенно в задачах классификации) Я искал статьи, сравнивающие LightGBM и XGBoost, но нашел только две: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - что касается только скорости, но не точности....

25
Word2Vec для распознавания именованных объектов

Я собираюсь использовать реализацию word2vec от Google для создания системы распознавания именованных сущностей. Я слышал, что рекурсивные нейронные сети с обратным распространением через структуру хорошо подходят для задач распознавания именованных сущностей, но я не смог найти достойную...

25
Коэффициент Джини против примеси Джини - деревья решений

Проблема касается построения деревьев решений. Согласно Википедии « коэффициент Джини » не следует путать с « примесью Джини ». Однако обе меры можно использовать при построении дерева решений - они могут поддержать наш выбор при разделении набора элементов. 1) «примесь Джини» - это стандартная...

25
Зачем нам XGBoost и Random Forest?

Я не был ясен в паре концепций: XGBoost превращает слабых учеников в сильных учеников. В чем преимущество этого? Объединить много слабых учеников вместо одного дерева? Random Forest использует различные образцы из дерева для создания дерева. В чем преимущество этого метода вместо использования...

24
Почему сообщества НЛП и машинного обучения заинтересованы в глубоком обучении?

Я надеюсь, что вы можете мне помочь, так как у меня есть несколько вопросов на эту тему. Я новичок в области глубокого обучения, и хотя я сделал несколько уроков, я не могу связать или отличить понятия друг от...

24
Лучшие практики для хранения моделей машинного обучения Python

Каковы лучшие практики для сохранения, хранения и обмена моделями машинного обучения? В Python мы обычно храним двоичное представление модели, используя pickle или joblib. Модели, в моем случае, могут быть размером ~ 100Mo. Кроме того, joblib может сохранять одну модель в нескольких файлах, если вы...

24
Scikit-learn: получение SGDClassifier для прогнозирования, а также логистическая регрессия

Способ обучения Логистической регрессии - использование стохастического градиентного спуска, к которому Scikit-Learn предлагает интерфейс. То , что я хотел бы сделать , это принять scikit-Learn - х SGDClassifier и он забьет такой же , как логистическая регрессия здесь . Тем не менее, мне не хватает...

24
Есть ли случайный лес наряд?

Я читал вокруг о случайных лесах, но я не могу найти окончательного ответа о проблеме переоснащения. Согласно оригинальной статье Бреймана, они не должны переодеваться при увеличении количества деревьев в лесу, но, похоже, по этому поводу нет единого мнения. Это создает мне некоторую путаницу по...

24
Всегда ли лучше использовать весь набор данных для обучения окончательной модели?

Обычная техника после обучения, проверки и тестирования предпочтительной модели машинного обучения заключается в использовании полного набора данных, включая подмножество тестирования, для обучения окончательной модели для ее развертывания , например, в продукте. Мой вопрос: всегда ли это лучше?...

24
Любая консоль Online R?

Я ищу онлайн-консоль для языка R. Как будто я пишу код, и сервер должен выполнить и предоставить мне вывод. Похоже на сайт

24
Образ VM для проектов по науке о данных

Поскольку существует множество инструментов, доступных для задач по науке о данных, и неудобно устанавливать все и создавать идеальную систему. Существует ли образ Linux / Mac OS с установленными и доступными для немедленного использования людьми Python, R и другими открытыми инструментами для...

24
Значение скрытых черт?

Я изучаю матричную факторизацию для рекомендательных систем и вижу, что этот термин latent featuresвстречается слишком часто, но я не могу понять, что он означает. Я знаю, что такое функция, но я не понимаю идею скрытых функций. Не могли бы вы объяснить это? Или, по крайней мере, указать мне бумагу...

23
Цель визуализации данных больших размеров?

Существует много методов визуализации наборов данных высокой размерности, таких как T-SNE, isomap, PCA, контролируемая PCA и т. Д. И мы проходим процессы проецирования данных вниз в 2D или 3D-пространство, поэтому у нас есть «красивые картинки». ». Некоторые из этих методов вложения (многократного...

23
K-означает некогерентное поведение, выбирая K с помощью метода Elbow, BIC, объяснение дисперсии и силуэт

Я пытаюсь сгруппировать некоторые векторы с 90 функциями с помощью K-средних. Поскольку этот алгоритм запрашивает у меня количество кластеров, я хочу подтвердить свой выбор с помощью хорошей математики. Я ожидаю иметь от 8 до 10 кластеров. Функции масштабируются по Z-шкале. Метод локтя и дисперсия...

23
Как использовать вывод GridSearch?

В настоящее время я работаю с Python и Scikit для целей классификации, и немного изучаю GridSearch. Я подумал, что это отличный способ оптимизировать параметры моей оценки, чтобы получить наилучшие результаты. Моя методология такая: Разделить мои данные на обучение / тестирование. Используйте...

23
Нужно ли стандартизировать ваши данные перед кластеризацией?

Нужно ли стандартизировать ваши данные перед кластером? В примере scikit learnо DBSCAN, здесь они делают это в строке: X = StandardScaler().fit_transform(X) Но я не понимаю, зачем это нужно. В конце концов, кластеризация не предполагает какого-либо конкретного распределения данных - это...

23
XGBoost сам обрабатывает мультиколлинеарность?

В настоящее время я использую XGBoost для набора данных с 21 функцией (выбранной из списка из 150 функций), а затем горячо закодировал их, чтобы получить ~ 98 функций. Некоторые из этих 98 функций несколько избыточны, например: переменная (функция) также отображается как и...

23
Идеи проекта Data Science [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 5 лет назад . Я не знаю, является ли это правильным местом для того, чтобы задать этот...