Наука о данных

23
Требуется ли перекрестная проверка для моделирования со случайными лесами?

Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном и том же наборе данных). С другой стороны, исходный источник утверждает, что факт ошибки OOB, вычисляемый...

23
Нужно ли стандартизировать ваши данные перед кластеризацией?

Нужно ли стандартизировать ваши данные перед кластером? В примере scikit learnо DBSCAN, здесь они делают это в строке: X = StandardScaler().fit_transform(X) Но я не понимаю, зачем это нужно. В конце концов, кластеризация не предполагает какого-либо конкретного распределения данных - это...

23
Функции кодирования, такие как месяц и час, как категориальные или числовые?

Лучше ли кодировать функции, такие как месяц и час, как фактор или число в модели машинного обучения? С одной стороны, я считаю, что числовое кодирование может быть разумным, поскольку время - это прогрессирующий процесс (за пятым месяцем следует шестой), но с другой стороны, я думаю, что...

23
Идеи проекта Data Science [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 5 лет назад . Я не знаю, является ли это правильным местом для того, чтобы задать этот...

23
XGBoost сам обрабатывает мультиколлинеарность?

В настоящее время я использую XGBoost для набора данных с 21 функцией (выбранной из списка из 150 функций), а затем горячо закодировал их, чтобы получить ~ 98 функций. Некоторые из этих 98 функций несколько избыточны, например: переменная (функция) также отображается как и...

22
Является ли Data Science таким же, как Data Mining?

Я уверен, что наука о данных, как будет обсуждаться на этом форуме, имеет несколько синонимов или, по крайней мере, смежные области, где анализируются большие данные. Мой конкретный вопрос касается Data Mining. Я взял аспирантуру в Data Mining несколько лет назад. Каковы различия между Data Science...

22
Как бороться с временными рядами, которые изменяют сезонность или другие закономерности?

Задний план Я работаю над набором данных временных рядов показаний счетчиков энергии. Длина ряда варьируется в зависимости от метра - у некоторых у меня есть несколько лет, у других - всего несколько месяцев и т. Д. Многие демонстрируют значительную сезонность, а часто и несколько слоев - в течение...

22
Как рассчитать mAP для задачи обнаружения для PASCAL VOC Challenge?

Как рассчитать mAP (среднее значение точности) для задачи обнаружения для таблиц лидеров Vascal Pascal? http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 Там сказано - на странице 11 : http://homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf Средняя точность...

22
Преобразование объектов на входных данных

Я читал о решении этой проблемы OTTO Kaggle, и первое решение, кажется, использует несколько преобразований для входных данных X, например, Log (X + 1), sqrt (X + 3/8) и т. Д. Есть ли общее руководство о том, когда применять какие виды преобразований к различным классификаторам? Я понимаю понятия...

22
Как вы управляете ожиданиями на работе?

Несмотря на все шумихи вокруг науки о данных, машинного обучения и истории успеха, существует много как оправданных, так и завышенных ожиданий от ученых-исследователей и их прогностических моделей. Мой вопрос к практикующим статистикам, специалистам по машинному обучению и специалистам по данным -...

22
Расчет расхождения KL в Python

Я довольно новичок в этом и не могу сказать, что у меня есть полное понимание теоретических концепций этого. Я пытаюсь вычислить расхождение KL между несколькими списками точек в Python. Я использую http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html, чтобы...

22
Совместное использование ноутбуков Jupyter в команде

Я хотел бы настроить сервер, который мог бы поддерживать команду по науке данных следующим образом: быть центральным пунктом для хранения, управления версиями, совместного использования и, возможно, также выполнять записные книжки Jupyter. Некоторые желаемые свойства: Различные пользователи могут...

22
Что является лучшим входом для Word2Vec?

Это больше похоже на общий вопрос НЛП. Что является подходящим входом для обучения встраивания слова, а именно Word2Vec? Должны ли все предложения, принадлежащие статье, быть отдельным документом в корпусе? Или каждая статья должна быть документом в указанном корпусе? Это просто пример...

22
Почему сверточные нейронные сети работают?

Я часто слышал, как люди говорили, почему сверточные нейронные сети все еще плохо поняты. Известно ли, почему сверточные нейронные сети всегда заканчивают тем, что изучают все более сложные функции, когда мы поднимаемся по уровням? Что заставило их создать такой набор функций, и будет ли это также...

21
Являются ли алгоритмы дерева решений линейными или нелинейными

Недавно моего друга спросили, являются ли алгоритмы дерева решений линейными или нелинейными алгоритмами в интервью. Я пытался найти ответы на этот вопрос, но не смог найти удовлетворительного объяснения. Может кто-нибудь ответить и объяснить решение этого вопроса? Кроме того, каковы некоторые...

21
Прогнозирование временных рядов с использованием LSTM: важность обеспечения устойчивости временных рядов

В этой ссылке на Стационарность и разность было упомянуто, что модели, подобные ARIMA, требуют стационарного временного ряда для прогнозирования, поскольку его статистические свойства, такие как среднее значение, дисперсия, автокорреляция и т. Д., Постоянны во времени. Поскольку RNN обладают лучшей...