Вопросы с тегом «information-retrieval»

32
Статистическая классификация текста

Я программист без статистического образования, и в настоящее время я смотрю на различные методы классификации для большого количества различных документов, которые я хочу классифицировать по заранее определенным категориям. Я читал о KNN, SVM и NN. Однако у меня есть некоторые проблемы с началом...

21
Измерение сходства документов

Для кластеризации (текстовых) документов вам нужен способ измерения сходства между парами документов. Две альтернативы: Сравните документы как векторы терминов, используя косинусное сходство - и TF / IDF в качестве весовых коэффициентов для терминов. Сравните распределение вероятностей каждого...

21
Как спроецировать новый вектор на пространство PCA?

После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли...

12
Средняя средняя точность против среднего взаимного ранга

Я пытаюсь понять, когда уместно использовать MAP и когда следует использовать MRR. Я нашел эту презентацию, в которой говорится, что MRR лучше всего использовать, когда число релевантных результатов меньше 5, а лучше всего, когда оно равно 1. В других случаях MAP подходит. У меня есть два вопроса:...

9
Понимание и применение анализа настроений

Мне только что поручили проект проведения анализа настроений для некоторых коллекций документов. По словам Гуглинга, появилось много исследований, связанных с настроениями. Мои вопросы: Каковы основные методы / алгоритмы анализа настроений в области машинного обучения и статистического анализа?...

9
Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты...

9
Парелл между LSA и pLSA

В оригинальной статье pLSA автор Томас Хоффман проводит параллель между структурами данных pLSA и LSA, которые я хотел бы обсудить с вами. Фон: Вдохновляясь Информация индексирование Предположим , у нас есть коллекция из NNN документов D={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, d_2, ....,...