Вопросы с тегом «data-mining»

Data Mining использует методы из искусственного интеллекта в контексте базы данных для обнаружения ранее неизвестных моделей. Таким образом, методы обычно не контролируются. Это тесно связано, но не идентично машинному обучению. Ключевыми задачами интеллектуального анализа данных являются кластерный анализ, обнаружение выбросов и анализ правил ассоциации.

365
Как понять недостатки К-средних

K-means - широко используемый метод в кластерном анализе. В моем понимании, этот метод НЕ требует ЛЮБЫХ предположений, т. Е. Дает мне набор данных и заранее определенное количество кластеров, k, и я просто применяю этот алгоритм, который минимизирует сумму квадратов ошибок (SSE), в квадрате внутри...

208
В чем разница между сбором данных, статистикой, машинным обучением и искусственным интеллектом?

В чем разница между сбором данных, статистикой, машинным обучением и искусственным интеллектом? Правильно ли будет сказать, что это 4 поля, пытающиеся решить очень похожие проблемы, но с разными подходами? Что именно у них общего и чем они отличаются? Если бы между ними была какая-то иерархия, что...

131
Каппа Коэна на простом английском

Я читаю книгу по интеллектуальному анализу данных, в которой упоминается статистика Каппа как средство оценки эффективности прогнозирования классификаторов. Однако я просто не могу этого понять. Я также проверил Википедию, но это тоже не помогло: https://en.wikipedia.org/wiki/Cohen's_kappa . Как...

127
Получение знаний из случайного леса

Случайные леса считаются черными ящиками, но недавно я подумал, какие знания можно получить из случайного леса? Наиболее очевидной вещью является важность переменных, в простейшем варианте это можно сделать, просто рассчитав количество вхождений переменной. Второе, о чем я думал, это...

73
Работать в области интеллектуального анализа данных без PhD

Некоторое время я был очень заинтересован в интеллектуальном анализе данных и машинном обучении , отчасти потому, что я специализировался в этой области в школе, а также потому, что я действительно гораздо более взволнован, пытаясь решить проблемы, которые требуют немного больше размышлений, чем...

72
Евклидово расстояние обычно не хорошо для разреженных данных?

Я где-то видел, что классические расстояния (например, евклидово расстояние) становятся слабо дискриминирующими, когда у нас имеются многомерные и разреженные данные. Почему? У вас есть пример двух разреженных векторов данных, где евклидово расстояние не работает хорошо? В этом случае какое...

71
Генерация случайной величины с определенной корреляцией с существующей переменной

Для исследования моделирования я должен генерировать случайные переменные , которые показывают prefined (населения) корреляцию с существующей переменной .YYY Я посмотрел на Rпакеты copulaи CDVineкоторые могут производить случайные многомерные распределения с заданной структурой зависимостей. Однако...

71
Навыки трудно найти в машинного обучения?

Кажется, что интеллектуальный анализ данных и машинное обучение стали настолько популярными, что теперь почти каждый студент CS знает о классификаторах, кластеризации, статистической НЛП ... и т. Д. Таким образом, кажется, что в настоящее время найти майнеры данных не сложно. Мой вопрос: какие...

61
Почему только три раздела? (обучение, проверка, тестирование)

Когда вы пытаетесь подогнать модели к большому набору данных, общий совет - разбить данные на три части: набор данных обучения, проверки и тестирования. Это связано с тем, что модели обычно имеют три «уровня» параметров: первый «параметр» - это класс модели (например, SVM, нейронная сеть, случайный...

56
Программное обеспечение, необходимое для очистки данных от графика [закрыто]

У кого-нибудь есть опыт работы с программным обеспечением (желательно бесплатным, предпочтительно с открытым исходным кодом), которое будет снимать данные, нанесенные на декартовы координаты (стандартный, повседневный график), и извлекать координаты точек, нанесенных на график? По сути, это...

54
Актуальна ли выборка во время «больших данных»?

Или тем более "будет"? Большие данные делают статистику и релевантные знания еще более важными, но, похоже, не соответствуют теории выборки. Я видел эту шумиху вокруг «Больших данных» и не могу не задаться вопросом, «почему», я бы хотел все проанализировать ? Разве не было причины, по которой...

51
Есть ли у нас проблема «жалких голосов»?

Я знаю, это может звучать как не по теме, но выслушайте меня. В Stack Overflow и здесь мы получаем голоса за сообщения, все это хранится в табличной форме. Например: идентификатор сообщения идентификатор голосования тип голосования дата и время ------- -------- --------- -------- 10 1 2 2000-1-1...

50
Кластеризация с K-Means и EM: как они связаны?

Я изучал алгоритмы кластеризации данных (обучение без учителя): EM и k-means. Я продолжаю читать следующее: К-среднее является вариантом EM, с предположениями, что кластеры являются сферическими. Может кто-нибудь объяснить вышеприведенное предложение? Я не понимаю, что означает сферическое, и как...

40
Чем отличаются скрытые марковские модели от нейронных сетей?

Я просто промочил статистику, поэтому извините, если этот вопрос не имеет смысла. Я использовал модели Маркова для прогнозирования скрытых состояний (нечестных казино, бросков игральных костей и т. Д.) И нейронных сетей для изучения кликов пользователей в поисковой системе. У обоих были скрытые...

40
Как сделать правильные выводы из «больших данных»?

«Большие данные» повсюду в СМИ. Все говорят, что «большие данные» - это большая вещь для 2012 года, например, опрос KDNuggets на горячие темы 2012 года . Однако у меня есть глубокие опасения здесь. С большими данными, все , кажется , чтобы быть счастливым только , чтобы получить что - нибудь из. Но...

36
Поднимите меру в интеллектуальном анализе данных

Я искал много сайтов, чтобы знать, что именно будет делать лифт? Все результаты, которые я обнаружил, касались его использования в приложениях, а не в самом себе. Я знаю о функции поддержки и доверия. Из Википедии, в области интеллектуального анализа данных, лифт является мерой эффективности модели...

35
Думайте как байесовский, проверяйте как частый человек: что это значит?

Я смотрю на слайды лекций по курсу науки о данных, которые можно найти здесь: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Я, к сожалению, не вижу видео для этой лекции, и в какой-то момент на слайде у докладчика есть следующий текст: Некоторые ключевые принципы Думай как...

34
Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?

Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе...

34
Интеллектуальный анализ данных: как мне найти функциональную форму?

Мне любопытно , повторяемых процедур , которые могут быть использованы , чтобы обнаружить функциональную форму функции , y = f(A, B, C) + error_termгде мой единственный вход множество наблюдений ( y, A, Bи C). Обратите внимание, что функциональная форма fнеизвестна. Рассмотрим следующий набор...