Вопросы с тегом «r»

19
Что способствует альфа- и бета-гиперпараметрам при распределении скрытого Дирихле?

У LDA есть два гиперпараметра, настройка их меняет навязанные темы. Что альфа- и бета-гиперпараметры влияют на LDA? Как меняется тема, если один или другой гиперпараметр увеличивается или уменьшается? Почему они гиперпараметры, а не просто...

18
есть ли инструмент для очистки данных для python / pandas, похожий на инструмент R tidyr?

Я работаю над проблемой Kaggle, где некоторые переменные представлены строками, а не столбцами (разрушение сети Telstra). В настоящее время я ищу эквивалент функции collect (), separa (() и spread (), который можно найти в инструменте R...

18
Поиск гиперпараметра для LSTM-RNN с использованием Keras (Python)

Из Keras RNN Tutorial: «RNNs сложны. Выбор размера пакета важен, выбор потерь и оптимизатора важен и т. Д. Некоторые конфигурации не сходятся». Так что это более общий вопрос о настройке гиперпараметров LSTM-RNN на Keras. Я хотел бы знать о подходе к поиску лучших параметров для вашего RNN. Я начал...

17
Что вы используете для создания панели инструментов в R?

Мне нужно создавать периодические (ежедневные, ежемесячные) отчеты панели инструментов веб-аналитики. Они будут статичными и не требуют взаимодействия, поэтому представьте файл PDF в качестве конечного результата. В отчетах будут смешаны таблицы и диаграммы (в основном, спарклайн и маркеры,...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

16
Как предсказать вероятности в xgboost?

Приведенная ниже функция прогнозирования также дает значения -ve, поэтому она не может быть вероятностью. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Я...

16
Панды теперь быстрее, чем data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Тесты data.table не обновлялись с 2014 года. Я слышал где-то, что Pandasсейчас быстрее, чем data.table. Это правда? Кто-нибудь делал какие-либо тесты? Я никогда не использовал Python раньше, но подумал бы о переключении, если...

16
Как самостоятельно изучить науку о данных? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 4 года назад . Я веб-разработчик-самоучка и заинтересован в обучении...

16
Рекомендовать фильмы с дополнительными функциями, используя совместную фильтрацию

Я пытаюсь построить систему рекомендаций, используя совместную фильтрацию. У меня есть обычная [user, movie, rating]информация. Я хотел бы включить дополнительную функцию, такую ​​как «язык» или «продолжительность фильма». Я не уверен, какие методы я мог бы использовать для такой проблемы....

15
удаление строк после определенного символа в данном тексте

У меня есть набор данных, как показано ниже. Я хочу удалить все символы после символа ©. Как я могу сделать это в R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)...

15
Научные проекты с открытым исходным кодом

Вклад в проекты с открытым исходным кодом, как правило, является хорошим способом получить некоторую практику для новичков и попробовать новую область для опытных исследователей данных и аналитиков. Какие проекты вы вносите? Пожалуйста, предоставьте ссылку intro + на...

15
Наука о данных без знания конкретной темы, стоит ли заниматься карьерой? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Data Stack Exchange. Закрыто 5 лет назад . Недавно я разговаривал с кем-то и упомянул о моем интересе к анализу данных и о том, кого я намереваюсь...

15
R: машинное обучение на GPU

Существуют ли какие-либо пакеты машинного обучения для R, которые могут использовать графический процессор для повышения скорости обучения (что-то вроде theano из мира питонов)? Я вижу, что есть пакет под названием gputools, который позволяет выполнять код в gpu, но я ищу более полную библиотеку...

14
Как обработать нулевой фактор в расчете наивного байесовского классификатора?

Если у меня есть набор обучающих данных, и я обучаю его наивному байесовскому классификатору, и у меня есть значение атрибута, вероятность которого равна нулю. Как мне справиться с этим, если позже я хочу предсказать классификацию на новых данных? Проблема в том, что если в расчете есть ноль, то...

14
Делают ли современные библиотеки R и / или Python SQL устаревшим?

Я работаю в офисе, где SQL Server является основой всего, что мы делаем, от обработки данных до очистки. Мой коллега специализируется на написании сложных функций и хранимых процедур для методической обработки входящих данных, чтобы их можно было стандартизировать и использовать в проектах отчетов,...

13
Почему автоэнкодеры для уменьшения размера симметричны?

Я ни в коем случае не эксперт по автоэнкодерам или нейронным сетям, так что извините, если это глупый вопрос. В целях уменьшения размеров или визуализации кластеров в многомерных данных мы можем использовать автоэнкодер для создания двумерного представления (с потерями) путем проверки выходных...

13
Я программист, как мне попасть в область науки о данных?

Прежде всего, этот термин звучит так неясно. В любом случае .. Я программист. Одним из языков, которые я могу кодировать, является Python. Говоря о данных, я могу использовать SQL и выполнять очистку данных. То, что я понял до сих пор после прочтения множества статей, в которых Data Science хороша:...

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

12
Классификация неструктурированного текста

Я собираюсь классифицировать неструктурированные текстовые документы, а именно сайты неизвестной структуры. Количество классов, которые я классифицирую, ограничено (на данный момент я считаю, что их не более трех). У кого-нибудь есть предложения о том, как мне начать? Возможен ли подход "мешок...

12
Предсказание следующего состояния здоровья из прошлых условий в данных претензий

В настоящее время я работаю с большим количеством данных о страховых случаях, включая некоторые лабораторные и аптечные претензии. Однако наиболее согласованная информация в наборе данных состоит из диагноза (ICD-9CM) и кодов процедур (CPT, HCSPCS, ICD-9CM). Мои цели: Выявить наиболее влиятельные...