Я хотел бы использовать бинарную модель логистической регрессии в контексте потоковых данных (многомерных временных рядов), чтобы предсказать значение зависимой переменной данных (то есть строки), которые только что прибыли, учитывая прошлые наблюдения. Насколько я знаю, логистическая регрессия традиционно используется для посмертного анализа, где каждая зависимая переменная уже установлена (либо путем проверки, либо по характеру исследования).
Что происходит в случае временных рядов, хотя мы хотим сделать прогноз (на лету) о зависимой переменной в терминах исторических данных (например, во временном окне последних секунд) и, конечно, в предыдущем оценки зависимой переменной?
И если вы видите вышеупомянутую систему с течением времени, как она должна быть построена, чтобы регрессия работала? Должны ли мы обучать его сначала, помечая, скажем, первые 50 строк наших данных (т.е. устанавливая зависимую переменную в 0 или 1), а затем используем текущую оценку вектора для оценки новой вероятности Зависимая переменная, равная 0 или 1, для данных, которые только что поступили (т.е. новая строка, которая была только что добавлена в систему)?
Чтобы сделать мою проблему более ясной, я пытаюсь построить систему, которая анализирует набор данных строка за строкой и пытается сделать прогноз двоичного результата (зависимой переменной), учитывая знания (наблюдение или оценку) всех предыдущих зависимых или объяснительных переменные, которые поступили в фиксированное временное окно. Моя система находится в Rerl и использует R для вывода.
источник
Ответы:
Есть два метода для рассмотрения:
Используйте только последние N входных выборок. Предполагая, что ваш входной сигнал имеет размерность D, у вас есть N * D выборок на метку истинности заземления. Таким образом, вы можете тренироваться, используя любой понравившийся вам классификатор, включая логистическую регрессию. Таким образом, каждый выход считается независимым от всех других выходов.
Используйте последние N входных выборок и последние N выходов, которые вы сгенерировали. Проблема тогда похожа на декодирование Витерби . Вы можете генерировать недвоичные оценки на основе входных выборок и комбинировать оценки нескольких выборок, используя декодер Витерби. Это лучше, чем метод 1. Если вы сейчас что-то о временном отношении между выходами.
источник