У LDA есть два гиперпараметра, настройка их меняет навязанные темы. Что альфа- и бета-гиперпараметры влияют на LDA? Как меняется тема, если один или другой гиперпараметр увеличивается или уменьшается? Почему они гиперпараметры, а не просто...
У LDA есть два гиперпараметра, настройка их меняет навязанные темы. Что альфа- и бета-гиперпараметры влияют на LDA? Как меняется тема, если один или другой гиперпараметр увеличивается или уменьшается? Почему они гиперпараметры, а не просто...
Я работаю над проблемой Kaggle, где некоторые переменные представлены строками, а не столбцами (разрушение сети Telstra). В настоящее время я ищу эквивалент функции collect (), separa (() и spread (), который можно найти в инструменте R...
Из Keras RNN Tutorial: «RNNs сложны. Выбор размера пакета важен, выбор потерь и оптимизатора важен и т. Д. Некоторые конфигурации не сходятся». Так что это более общий вопрос о настройке гиперпараметров LSTM-RNN на Keras. Я хотел бы знать о подходе к поиску лучших параметров для вашего RNN. Я начал...
Мне нужно создавать периодические (ежедневные, ежемесячные) отчеты панели инструментов веб-аналитики. Они будут статичными и не требуют взаимодействия, поэтому представьте файл PDF в качестве конечного результата. В отчетах будут смешаны таблицы и диаграммы (в основном, спарклайн и маркеры,...
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...
Приведенная ниже функция прогнозирования также дает значения -ve, поэтому она не может быть вероятностью. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Я...
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Тесты data.table не обновлялись с 2014 года. Я слышал где-то, что Pandasсейчас быстрее, чем data.table. Это правда? Кто-нибудь делал какие-либо тесты? Я никогда не использовал Python раньше, но подумал бы о переключении, если...
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 4 года назад . Я веб-разработчик-самоучка и заинтересован в обучении...
Я пытаюсь построить систему рекомендаций, используя совместную фильтрацию. У меня есть обычная [user, movie, rating]информация. Я хотел бы включить дополнительную функцию, такую как «язык» или «продолжительность фильма». Я не уверен, какие методы я мог бы использовать для такой проблемы....
У меня есть набор данных, как показано ниже. Я хочу удалить все символы после символа ©. Как я могу сделать это в R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)...
Вклад в проекты с открытым исходным кодом, как правило, является хорошим способом получить некоторую практику для новичков и попробовать новую область для опытных исследователей данных и аналитиков. Какие проекты вы вносите? Пожалуйста, предоставьте ссылку intro + на...
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Data Stack Exchange. Закрыто 5 лет назад . Недавно я разговаривал с кем-то и упомянул о моем интересе к анализу данных и о том, кого я намереваюсь...
Существуют ли какие-либо пакеты машинного обучения для R, которые могут использовать графический процессор для повышения скорости обучения (что-то вроде theano из мира питонов)? Я вижу, что есть пакет под названием gputools, который позволяет выполнять код в gpu, но я ищу более полную библиотеку...
Если у меня есть набор обучающих данных, и я обучаю его наивному байесовскому классификатору, и у меня есть значение атрибута, вероятность которого равна нулю. Как мне справиться с этим, если позже я хочу предсказать классификацию на новых данных? Проблема в том, что если в расчете есть ноль, то...
Я работаю в офисе, где SQL Server является основой всего, что мы делаем, от обработки данных до очистки. Мой коллега специализируется на написании сложных функций и хранимых процедур для методической обработки входящих данных, чтобы их можно было стандартизировать и использовать в проектах отчетов,...
Я ни в коем случае не эксперт по автоэнкодерам или нейронным сетям, так что извините, если это глупый вопрос. В целях уменьшения размеров или визуализации кластеров в многомерных данных мы можем использовать автоэнкодер для создания двумерного представления (с потерями) путем проверки выходных...
Прежде всего, этот термин звучит так неясно. В любом случае .. Я программист. Одним из языков, которые я могу кодировать, является Python. Говоря о данных, я могу использовать SQL и выполнять очистку данных. То, что я понял до сих пор после прочтения множества статей, в которых Data Science хороша:...
Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...
Я собираюсь классифицировать неструктурированные текстовые документы, а именно сайты неизвестной структуры. Количество классов, которые я классифицирую, ограничено (на данный момент я считаю, что их не более трех). У кого-нибудь есть предложения о том, как мне начать? Возможен ли подход "мешок...
В настоящее время я работаю с большим количеством данных о страховых случаях, включая некоторые лабораторные и аптечные претензии. Однако наиболее согласованная информация в наборе данных состоит из диагноза (ICD-9CM) и кодов процедур (CPT, HCSPCS, ICD-9CM). Мои цели: Выявить наиболее влиятельные...