Наука о данных

16
Как выбрать функции для нейронной сети?

Я знаю, что нет четкого ответа на этот вопрос, но давайте предположим, что у меня огромная нейронная сеть с большим количеством данных, и я хочу добавить новую функцию ввода. «Лучший» способ - проверить сеть с помощью новой функции и увидеть результаты, но есть ли способ проверить, полезна ли эта...

16
Как повысить точность классификаторов?

Я использую пример OpenCV letter_recog.cpp для экспериментов со случайными деревьями и другими классификаторами. Этот пример имеет реализации шести классификаторов - случайных деревьев, бустинга, MLP, kNN, наивных байесовских и SVM. Используется набор данных для распознавания букв UCI с 20000...

16
Рекомендовать фильмы с дополнительными функциями, используя совместную фильтрацию

Я пытаюсь построить систему рекомендаций, используя совместную фильтрацию. У меня есть обычная [user, movie, rating]информация. Я хотел бы включить дополнительную функцию, такую ​​как «язык» или «продолжительность фильма». Я не уверен, какие методы я мог бы использовать для такой проблемы....

16
Что такое оценка LB в машинном обучении?

Я просматривал статью в блогах Kaggle. Неоднократно автор упоминает «оценку LB» и «соответствие LB») в качестве показателя эффективности машинного обучения (наряду с оценкой перекрестной проверки (CV)). С исследованием значения «LB» я потратил довольно много времени, я понял, что обычно люди...

16
Что такое вес и уклон в глубоком обучении?

Я начинаю изучать машинное обучение с сайта Tensorflow. Я разработал очень элементарное понимание процесса, которому следует программа глубокого обучения (этот метод заставляет меня учиться быстрее, чем читать книги и большие статьи). Есть несколько запутанных вещей, с которыми я столкнулся, 2 из...

16
Извлечение наиболее информативных частей текста из документов

Есть ли какие-либо статьи или дискуссии по поводу извлечения части текста, которая содержит большую часть информации о текущем документе. Например, у меня большой корпус документов из того же домена. Есть части текста, которые содержат ключевую информацию, о которой говорит отдельный документ. Я...

16
Как самостоятельно изучить науку о данных? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 4 года назад . Я веб-разработчик-самоучка и заинтересован в обучении...

16
Метод оценки OOB RandomForestClassifier

Использует ли реализация случайного леса в scikit-learn среднюю точность в качестве метода оценки для оценки ошибки обобщения с выборками из пакета? Это не упоминается в документации, но метод Score () сообщает о средней точности. У меня очень несбалансированный набор данных, и я использую AUC ROC...

16
Как объединить категориальные и непрерывные функции ввода для обучения нейронной сети

Предположим, у нас есть два вида входных функций: категориальные и непрерывные. Категориальные данные могут быть представлены в виде горячего кода A, тогда как непрерывные данные - это просто вектор B в N-мерном пространстве. Кажется, что просто использование concat (A, B) не является хорошим...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

16
Какие задачи обучения подходят для машин опорных векторов?

Какие отличительные признаки или свойства указывают на то, что определенная проблема обучения может быть решена с использованием машин опорных векторов? Другими словами, что, когда вы видите проблему обучения, заставляет вас говорить: «О, я определенно должен использовать SVM для этого», а не...

16
Выбор функций против извлечения функций. Что использовать, когда?

Извлечение функций и выбор функций существенно уменьшают размерность данных, но извлечение функций также делает данные более разделимыми, если я прав. Какой метод предпочтительнее другого и когда? Я подумал, поскольку выбор функции не изменяет исходные данные и их свойства, я предполагаю, что вы...

16
Как предсказать вероятности в xgboost?

Приведенная ниже функция прогнозирования также дает значения -ve, поэтому она не может быть вероятностью. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Я...

16
Панды теперь быстрее, чем data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Тесты data.table не обновлялись с 2014 года. Я слышал где-то, что Pandasсейчас быстрее, чем data.table. Это правда? Кто-нибудь делал какие-либо тесты? Я никогда не использовал Python раньше, но подумал бы о переключении, если...

16
НЛП - Gazetteer обмануть?

В НЛП есть понятие, Gazetteerкоторое может быть весьма полезным для создания аннотаций. Насколько я понимаю: Газетир состоит из набора списков, содержащих имена объектов, таких как города, организации, дни недели и т. Д. Эти списки используются для поиска вхождений этих имен в тексте, например, для...

16
Data Science Подкасты?

Какие подкасты связаны с наукой о данных? Этот вопрос похож на вопрос запроса ссылки на CrossValidated . Подробности / правила: Подкасты (тема и эпизоды) должны быть связаны с наукой о данных. (Например: подкаст, посвященный какой-то другой области, с эпизодом, рассказывающим о науке данных в этой...

15
Параллельные и распределенные вычисления

В чем разница между параллельными и распределенными вычислениями? Когда речь идет о масштабируемости и эффективности, очень часто можно увидеть решения, связанные с вычислениями, в кластерах машин, а иногда это называется параллельной обработкой или распределенной обработкой. В определенном смысле...