Вопросы с тегом «data-mining»

20
Функция «Интерес» для вопросов StackExchange

Я пытаюсь собрать пакет сбора данных для сайтов StackExchange и, в частности, я застрял в попытке определить «самые интересные» вопросы. Я хотел бы использовать оценку вопроса, но убрать смещение из-за количества просмотров, но я не знаю, как к этому строго подходить. В идеальном мире я мог бы...

19
Программист хочет проникнуть в область машинного обучения

Я разработчик программного обеспечения (в основном .NET и Python около 5 лет опыта). Что я могу сделать, чтобы помочь мне получить работу в области машинного обучения или что-нибудь еще, что поможет мне начать работать в этой области? Является ли аспирантура жестким...

19
Повышение: почему скорость обучения называется параметром регуляризации?

Параметр скорости обучения ( ) в Gradient Boosting сокращает вклад каждой новой базовой модели - обычно мелкого дерева - который добавляется в серию. Было показано, что резко повышается точность набора тестов, что понятно, так как при меньших шагах минимум функции потерь может быть достигнут более...

19
В чем разница между сбором данных и статистическим анализом?

В чем разница между сбором данных и статистическим анализом? Для некоторого фона мое статистическое образование было, я думаю, довольно традиционным. Поставлен конкретный вопрос, разработано исследование, собраны и проанализированы данные, чтобы дать некоторое представление об этом вопросе. В...

19
В чем практическая разница между правилами ассоциации и деревьями решений в интеллектуальном анализе данных?

Есть ли действительно простое описание практических различий между этими двумя методами? Похоже, что оба они используются для обучения под наблюдением (хотя правила ассоциации могут также обрабатывать без присмотра). Оба могут быть использованы для прогнозирования Самое близкое к «хорошему»...

19
Как предсказать, когда произойдет следующее событие, основываясь на времени предыдущих событий?

Я учусь в старших классах и работаю над проектом по программированию, но у меня нет большого опыта в области статистики и моделирования данных, кроме курса по статистике в старших классах, поэтому я немного растерялся. По сути, у меня есть достаточно большой список (предположим, он достаточно...

18
Смещенные данные в машинном обучении

Я работаю над проектом машинного обучения с данными, которые уже (сильно) смещены при выборе данных. Предположим, у вас есть набор жестко закодированных правил. Как вы строите модель машинного обучения, чтобы заменить ее, когда все данные, которые она может использовать, являются данными, которые...

17
Когда полезна интерактивная визуализация данных?

Готовясь к выступлению, которое я скоро дам, я недавно начал копаться в двух основных (бесплатных) инструментах для интерактивной визуализации данных: GGobi и mondrian - оба предлагают широкий спектр возможностей (даже если они немного глючат). Я хочу попросить вас помочь в формулировании (как для...

16
учебные подходы для сильно несбалансированного набора данных

У меня очень несбалансированный набор тестовых данных. Положительный набор состоит из 100 случаев, а отрицательный - 1500 случаев. Что касается обучения, у меня больше кандидатов: в наборе положительных тренировок 1200 случаев, а в наборе отрицательных - 12000 случаев. Для такого сценария у меня...

16
При каких условиях машины повышения градиента превосходят случайные леса?

Может ли машина повышения градиента Фридмана достичь лучшей производительности, чем «Случайный лес» Бреймана ? Если да, то в каких условиях или какой набор данных может сделать gbm...

15
Значение скрытых черт?

Я пытаюсь понять модели матричной факторизации для рекомендательных систем и всегда читаю «скрытые функции», но что это значит? Я знаю, что означает особенность для учебного набора данных, но я не могу понять идею скрытых возможностей. Каждая статья по теме, которую я могу найти, слишком мелкая....

15
Что такое смешивание данных?

Этот термин часто встречается в темах, связанных с методом . Является ли смешивание конкретным методом в интеллектуальном анализе данных и статистическом обучении? Я не могу получить соответствующий результат от Google. Кажется, смешивание смешивает результаты многих моделей и приводит к лучшему...

15
Обзор программных инструментов интеллектуального анализа данных

Несмотря на то, что я получил образование инженера, я обнаружил, что все больше интересуюсь данными. Прямо сейчас я пытаюсь исследовать область далее. В частности, я хотел бы понять различные категории программных инструментов, которые существуют, и какие инструменты известны в каждой категории и...

14
Как начать читать о майнинге данных?

Я новичок, который собирается начать читать о интеллектуальном анализе данных. У меня есть базовые знания по ИИ и статистике. Поскольку многие говорят, что машинное обучение также играет важную роль в интеллектуальном анализе данных, нужно ли читать о машинном обучении, прежде чем я смогу...

14
Разница между факторизационными машинами и матричной факторизацией?

Я сталкивался с термином «Машины факторизации» в рекомендательных системах. Я знаю, что такое матричная факторизация для рекомендательных систем, но никогда не слышала о факторизационных машинах. Так в чем же...

14
Разница между логистической регрессией и машинами опорных векторов?

Я знаю, что логистическая регрессия находит гиперплоскость, которая разделяет тренировочные образцы. Я также знаю, что опорные векторные машины находят гиперплоскость с максимальным запасом. Мой вопрос: есть ли разница между логистической регрессией (LR) и машинами опорных векторов (SVM) в том, что...

14
Блок-схемы, помогающие выбрать правильную методику анализа и тестирования

Как человек, который нуждается в статистических знаниях, но не является формально обученным статистиком, я бы счел полезным иметь блок-схему (или какое-то дерево решений), чтобы помочь мне выбрать правильный подход для решения конкретной проблемы (например, " нужно ли это и знать то и то и считать...

14
Математика за деревьями классификации и регрессии

Может ли кто-нибудь помочь объяснить некоторые математические основы классификации в CART? Я смотрю, чтобы понять, как происходит два основных этапа. Например, я обучил классификатор CART на наборе данных и использовал тестовый набор данных, чтобы отметить его прогнозную производительность, но: Как...