Вопросы с тегом «data-mining»

11
Вариационный вывод на простом английском

Посмотрев видео на YouTube, я чувствую, что не могу точно определить, что такое вариационный вывод. Я могу следовать процедурам, пока смотрю видео лекции об этом. Но сложно определить, что на самом деле. Надеюсь услышать об...

11
Есть ли в этом модельном подходе

Мне недавно сказали, что процесс, которому я следовал (компонент тезиса MS), мог быть замечен как переоснащение. Я хочу лучше понять это и посмотреть, согласны ли другие. Целью этой части статьи является Сравните производительность деревьев градиентной ускоренной регрессии со случайными лесами в...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

11
Является ли f-мера синонимом точности?

Я понимаю, что f-мера (основанная на точности и отзыве) - это оценка точности классификатора. Кроме того, f-мера предпочтительнее точности, когда у нас есть несбалансированный набор данных. У меня есть простой вопрос (который больше об использовании правильной терминологии, чем о технологии). У...

11
Когда использовать примеси Джини, а когда использовать получение информации?

Может кто-нибудь объяснить мне, когда использовать примеси Джини и информацию для деревьев решений? Можете ли вы дать мне ситуации / примеры того, когда лучше всего использовать...

10
Сомнительное использование принципов обработки сигналов для определения тенденции

Я предлагаю попытаться найти тенденцию в некоторых очень шумных долгосрочных данных. Данные в основном представляют собой еженедельные измерения чего-то, что переместилось на 5 мм за период около 8 месяцев. Данные с точностью до 1 мм и очень шумные, регулярно меняются +/- 1 или 2 мм в неделю. У нас...

10
В чем разница между функциональным анализом данных и анализом многомерных данных

В статистической литературе имеется много ссылок на « функциональные данные » (то есть данные, которые являются кривыми), и параллельно, на « высокоразмерные данные » (то есть, когда данные являются векторами с высокой размерностью). Мой вопрос о разнице между этими двумя типами данных. Говоря о...

10
Документированные / воспроизводимые примеры успешного применения эконометрических методов в реальных условиях?

Этот вопрос может показаться очень широким, но вот что я ищу. Я знаю, что есть много прекрасных книг об эконометрических методах и много отличных пояснительных статей об эконометрических методах. Существуют даже превосходные воспроизводимые примеры эконометрики, как описано в этом перекрестном...

10
K-означает: сколько итераций в практических ситуациях?

У меня нет отраслевого опыта в области интеллектуального анализа данных или больших данных, поэтому я хотел бы услышать, как вы поделились своим опытом. Люди на самом деле используют k-means, PAM, CLARA и т. Д. В действительно большом наборе данных? Или они просто случайно выбирают из него образец?...

10
Первый быстрый взгляд на набор данных

Прошу прощения за мое невежество, но ... Я продолжаю оказываться в ситуации, когда сталкиваюсь с кучей новых данных, которые мне удалось найти. Эти данные обычно выглядят примерно так: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat...

10
Как я могу найти корреляции между сбоями и системными средами?

В свое свободное время я работаю над небольшой веб-системой, которая собирает отчеты о сбоях (но не о других, не сообщающих об ошибках), отправляемых из приложений Delphi для Windows. Для устранения неполадок пользователи хотели бы иметь функцию интеллектуального анализа данных, чтобы найти...

10
Как я могу сгруппировать строки по общим темам?

Например, я пытаюсь сгруппировать строки о программировании с другими строками о программировании, строки о физике с другими строками о физике и т. Д. По широкому кругу тем. Несмотря на вопиющий теоретический лингвистический аспект проблемы, я собираюсь сделать это с помощью программирования /...

10
Относительно использования биграммы (N-грамма) для построения векторного элемента для текстового документа

Традиционный подход к построению объектов для интеллектуального анализа текста - это подход «мешок слов», и его можно усовершенствовать с помощью tf-idf для настройки вектора объектов, характеризующего данный текстовый документ. В настоящее время я пытаюсь использовать модель языка биграмм или...

10
R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод,...

10
Откуда появился термин «выучить модель»

Часто я слышал, что майнеры данных используют этот термин. Как статистик, который работал над проблемами классификации, я знаком с термином «обучить классификатора», и я предполагаю, что «выучить модель» означает то же самое. Я не против термина «обучить классификатора». Кажется, это изображает...

10
Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние...

10
Методы добычи данных в кампании Обамы

Я наткнулся на эту статью о команде интеллектуального анализа данных в предвыборной кампании Обамы. К сожалению, статья очень размыта о фактическом механизме статистических алгоритмов. Однако это звучало так, как будто общие методы известны в социальных и политических науках. Поскольку это не моя...

10
Каковы хорошие показатели для оценки качества соответствия PCA, чтобы выбрать количество компонентов?

Что является хорошим показателем для оценки качества анализа главных компонентов (PCA)? Я выполнил этот алгоритм на наборе данных. Моей целью было уменьшить количество функций (информация была очень избыточной). Я знаю, что процент сохраняемой дисперсии является хорошим показателем того, сколько...