Вопросы с тегом «machine-learning»

9
Парелл между LSA и pLSA

В оригинальной статье pLSA автор Томас Хоффман проводит параллель между структурами данных pLSA и LSA, которые я хотел бы обсудить с вами. Фон: Вдохновляясь Информация индексирование Предположим , у нас есть коллекция из NNN документов D={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, d_2, ....,...

9
Обучение на реляционных данных

Настройки Многие алгоритмы работают с одним отношением или таблицей, в то время как многие реальные базы данных хранят информацию в нескольких таблицах (Domingos, 2003). Вопрос: Какие типы алгоритмов хорошо усваиваются из нескольких (реляционных) таблиц. В частности, меня интересуют алгоритмы,...

9
Совместная фильтрация через матричную факторизацию с функцией логистических потерь

Рассмотрим проблему совместной фильтрации. У нас есть матрица размера #users * #items. если пользователь i любит элемент j, если пользователь i не любит элемент j иесли нет данных о (i, j) паре. Мы хотим предсказать для будущего пользователя, пары предметов.MMMMя , дж= 1Mя,Jзнак равно1M_{i,j} = 1Mя...

9
Определить оптимальную скорость обучения для градиентного спуска в линейной регрессии

Как определить оптимальную скорость обучения для градиентного спуска? Я думаю, что я мог бы автоматически настроить его, если функция стоимости возвращает большее значение, чем в предыдущей итерации (алгоритм не будет сходиться), но я не совсем уверен, какое новое значение он должен...

9
Путаница, связанная с линейными динамическими системами

Я читал эту книгу епископом «Распознавание образов и машинное обучение». У меня была путаница, связанная с выводом линейной динамической системы. В LDS мы предполагаем, что скрытые переменные непрерывны. Если Z обозначает скрытые переменные, а X обозначает наблюдаемые переменные p ( zN| Zn - 1) =...

9
Использование алгоритма EM для связывания записей

Мне интересно связать записи между двумя наборами данных по имени, фамилии и году рождения. Можно ли это сделать с помощью алгоритма EM, и если да, то как? В качестве примера рассмотрим следующую запись в 1-м: Карл Маккарти, 1967. Я буду искать по всем записям во втором наборе данных и назначать...

9
Использование инструментов анализа текста / естественного языка для эконометрики

Я не уверен, является ли этот вопрос полностью уместным здесь, если нет, пожалуйста, удалите. Я аспирант по экономике. Для проекта, который исследует проблемы социального страхования, у меня есть доступ к большому количеству отчетов об административных делах (> 200 тыс.), Которые касаются оценки...

9
Статистическая теория обучения VS вычислительная теория обучения?

Каковы отношения и различия между статистической теорией обучения и вычислительной теорией обучения ? Они о той же теме? Решить те же проблемы и использовать те же методы? Например, первый говорит, что это теория предсказания (регрессия, классификация,...

9
Как единообразный априор приводит к одинаковым оценкам по максимальной вероятности и моде апостериорного?

Я изучаю различные методы оценки по точкам и читаю, что при использовании оценок MAP и ML, когда мы используем «единообразный априор», оценки идентичны. Может ли кто-нибудь объяснить, что такое «равномерный» априор, и привести несколько (простых) примеров, когда оценки MAP и ML будут...

9
LDA против персептрона

Я пытаюсь понять, как LDA «вписывается» в другие контролируемые методы обучения. Я уже прочитал некоторые из сообщений LDA-esque здесь о LDA. Я уже знаком с персептроном, но сейчас изучаю LDA. Как LDA «вписывается» в семейство контролируемых алгоритмов обучения? Каковы могут быть его недостатки по...

9
R / Caret: обучающие и тестовые наборы против перекрестной проверки?

Это может быть, возможно, глупый вопрос, но при создании модели с каретой и использовании чего-то вроде LOOCVили (даже более точно) LGOCV, какая польза от разделения данных на наборы обучающих и тестовых наборов, если это, по сути, шаг перекрестной проверки в любом случае? Я прочитал некоторые из...

9
Какие алгоритмы машинного обучения можно масштабировать с помощью hadoop / map-Reduce

Масштабируемые алгоритмы машинного обучения в наши дни кажутся шумом. Каждая компания обрабатывает только большие данные . Существует ли учебник, в котором обсуждается, какие алгоритмы машинного обучения можно масштабировать с помощью параллельных архитектур, таких как Map-Reduce, а какие - нет?...

9
Скрытая марковская модель для прогнозирования событий

Вопрос : Является ли установка ниже разумной реализации скрытой марковской модели? У меня есть набор данных 108,000наблюдений (взятых в течение 100 дней) и приблизительно 2000событий на протяжении всего периода наблюдения. Данные выглядят как на рисунке ниже, где наблюдаемая переменная может...

9
Связь информации временного ряда из источников с несколькими пространственными разрешениями / масштабами

У меня есть много спутниковых растровых изображений, доступных с разных датчиков. Из них, более грубые имеют очень большое временное разрешение. Растры среднего разрешения, как правило, имеют меньше дат получения, но все же некоторая информация доступна. Более тонкие разрешения имеют очень низкое...

9
Когда правильное правило оценки является лучшей оценкой обобщения в условиях классификации?

Типичный подход к решению проблемы классификации состоит в том, чтобы идентифицировать класс моделей-кандидатов, а затем выполнить выбор модели с использованием некоторой процедуры, такой как перекрестная проверка. Обычно выбирается модель с наивысшей точностью или некоторая связанная функция,...

9
Как сделать многомерное машинное обучение? (прогнозирование нескольких зависимых переменных)

Я пытаюсь предсказать группы предметов, которые кто-то купит ... то есть у меня есть несколько коллинеарных зависимых переменных. Вместо того, чтобы строить 7 или около того независимых моделей, чтобы предсказать вероятность того, что кто-то купит каждый из 7 предметов, а затем объединить...

9
Как найти оптимальные значения параметров настройки в бустинге деревьев?

Я понимаю, что в модели деревьев повышения есть 3 параметра настройки, т.е. количество деревьев (количество итераций) параметр усадки количество разбиений (размер каждого составляющего дерева) У меня вопрос: для каждого из параметров настройки, как мне найти его оптимальное значение? А какой метод?...

9
Как доказать правильность предположения о многообразии?

В машинном обучении часто предполагается, что набор данных лежит на гладком низкоразмерном многообразии (предположение о многообразии), но есть ли способ доказать, что при условии выполнения определенных условий набор данных действительно (приблизительно) генерируется из низкоразмерного гладкого...