Вопросы с тегом «data-mining»

33
Относительная важность переменной для повышения

Я ищу объяснение того, как относительная важность переменной вычисляется в деревьях с градиентным усилением, которое не является слишком общим / упрощенным, например: Измерения основаны на количестве раз, которое переменная была выбрана для расщепления, взвешенной по квадрату улучшения модели в...

31
Есть ли статистические уроки из эпизода «Библейский кодекс»?

Хотя этот вопрос несколько субъективен, я надеюсь, что в соответствии с рекомендациями часто задаваемых вопросов он квалифицируется как хороший субъективный вопрос . Это основано на вопросе, который Олле Хэггстрем задал мне год назад, и хотя у меня есть некоторые мысли по этому поводу, у меня нет...

30
Какие предметы по математике вы бы предложили для подготовки данных и машинного обучения?

Я пытаюсь составить самостоятельную учебную программу по математике, чтобы подготовиться к изучению интеллектуального анализа данных и машинного обучения. Это мотивировано тем, что я начал курс машинного обучения Эндрю Нга на Coursera и почувствовал, что перед тем, как продолжить, мне нужно...

28
Почему p-значения вводят в заблуждение после пошагового выбора?

Давайте рассмотрим, например, модель линейной регрессии. Я слышал, что в процессе интеллектуального анализа данных после выполнения пошагового выбора на основе критерия AIC вводить в заблуждение взгляды на p-значения для проверки нулевой гипотезы о том, что каждый истинный коэффициент регрессии...

28
Разница между стандартным и сферическим алгоритмами k-средних

Я хотел бы понять, в чем заключается основная разница между стандартными и сферическими алгоритмами кластеризации k-средних. На каждом шаге k-means вычисляет расстояния между векторами элементов и центроидами кластера и переназначает документ этому кластеру, центроид которого является ближайшим....

27
Программное обеспечение для статистики и интеллектуального анализа данных для работы с большими наборами данных

В настоящее время мне нужно проанализировать около 20 миллионов записей и построить модели прогнозирования. До сих пор я опробовал Statistica, SPSS, RapidMiner и R. Среди них Statistica кажется наиболее подходящим для работы с интеллектуальным анализом данных, а пользовательский интерфейс...

25
LSA против PCA (кластеризация документов)

Я изучаю различные методы, используемые в кластеризации документов, и я хотел бы прояснить некоторые сомнения, касающиеся PCA (анализ главных компонентов) и LSA (скрытый семантический анализ). Первое - какие различия между ними? Я знаю, что в PCA декомпозиция SVD применяется к матрице...

25
Какова мера точности данных с несколькими метками?

Рассмотрим сценарий, в котором вам предоставляются матрицы KnownLabel и PredictedLabel. Я хотел бы измерить качество матрицы PredictedLabel по сравнению с матрицей KnownLabel. Но проблема здесь заключается в том, что в KnownLabel Matrix есть несколько строк, только одна 1, а в других нескольких...

25
Каков распорядок дня ученого-машиностроителя?

Я магистрант CS в немецком университете, сейчас пишу свою диссертацию. Я закончу через два месяца, и мне придется принять очень трудное решение, если я продолжу работу над докторской диссертацией или найду работу в отрасли. Мои причины для получения докторской степени: Я очень любопытный человек ,...

23
В чем разница между функцией потерь и функцией принятия решений?

Я вижу, что обе функции являются частью методов интеллектуального анализа данных, таких как Gradient Boosting Regressors. Я вижу, что это тоже отдельные объекты. Каковы отношения между обоими в...

22
Отрицательное биномиальное распределение против биномиального распределения

В чем разница между отрицательным биномиальным распределением и биномиальным распределением? Я попытался читать онлайн, и обнаружил, что отрицательное биномиальное распределение используется, когда точки данных дискретны, но я думаю, что даже биномиальное распределение можно использовать для...

22
Выполнять K-средние (или их близкие родственники) кластеризацию только с матрицей расстояний, а не с данными по точкам

Я хочу выполнить кластеризацию K-средних на имеющихся у меня объектах, но объекты не описываются как точки в пространстве, то есть objects x featuresнабором данных. Тем не менее, я могу вычислить расстояние между любыми двумя объектами (оно основано на функции подобия). Итак, я избавляюсь от...

21
Если кластеризация k-средних является формой моделирования гауссовой смеси, можно ли ее использовать, когда данные не являются нормальными?

Я читаю Бишопа об алгоритме EM для GMM и взаимосвязи между GMM и k-means. В этой книге говорится, что k-means - это жестко заданная версия GMM. Мне интересно, означает ли это, что если данные, которые я пытаюсь кластеризовать, не являются гауссовыми, я не могу использовать k-means (или, по крайней...

21
Являются ли деревья решений почти всегда бинарными деревьями?

Почти каждый пример дерева решений, с которым я сталкивался, является двоичным деревом. Это в значительной степени универсально? Поддерживает ли большинство стандартных алгоритмов (C4.5, CART и т. Д.) Только двоичные деревья? Из того, что я понял , CHAID не ограничивается бинарными деревьями, но...

21
Новый революционный способ добычи данных?

Следующий отрывок взят из интервью Швагера «Рынок хедж-фондов Wizzards» (май 2012 года) с постоянно успешным менеджером хедж-фонда Джаффреем Вудриффом: На вопрос: «Каковы некоторые из худших ошибок, которые люди допускают при извлечении данных?»: Многие люди думают, что они в порядке, потому что...

21
Перекрестная проверка (обобщение ошибок) после выбора модели

Примечание: регистр n >> p Я читаю Элементы статистического обучения, и есть различные упоминания о «правильном» способе перекрестной проверки (например, стр. 60, стр. 245). В частности, мой вопрос заключается в том, как оценить итоговую модель (без отдельного набора тестов) с использованием...

21
Как узнать, являются ли данные линейно разделимыми?

Данные имеют много функций (например, 100), а количество экземпляров равно 100 000. Данные редки. Я хочу соответствовать данным, используя логистическую регрессию или SVM. Как я узнаю, являются ли объекты линейными или нелинейными, чтобы я мог использовать трюк ядра, если он...

21
Первый шаг для больших данных ( , )

Предположим, вы анализируете огромный набор данных из миллиардов наблюдений в день, где каждое наблюдение имеет несколько тысяч разреженных и, возможно, избыточных числовых и категориальных переменных. Скажем, есть одна проблема регрессии, одна проблема неуравновешенной двоичной классификации и...

20
Дистанционное наблюдение: под наблюдением, под наблюдением или оба?

«Дистанционный контроль» - это схема обучения, в которой классификатор обучается с использованием слабо маркированного обучающего набора (данные обучения автоматически маркируются на основе эвристики / правил). Я думаю, что как контролируемое обучение, так и полууправляемое обучение могут включать...

20
Где и почему глубокое обучение сияет?

Со всеми разговорами в средствах массовой информации и шумихой о глубоком изучении в эти дни я прочитал некоторые элементарные вещи об этом. Я только что обнаружил, что это просто еще один метод машинного обучения для изучения шаблонов на основе данных. Но мой вопрос: где и почему этот метод...