В настоящее время я работаю над проектом, в котором, как и всем нам, мне нужно понять, как выход связан с входом . Особенность в том, что данные выдаются мне по одному фрагменту за раз, поэтому я хочу обновлять свой анализ каждый раз, когда получаю новый . Я считаю, что это называется «оперативной» обработкой, а не «пакетной» обработкой, когда у вас есть все необходимые данные и вы выполняете свои расчеты, используя все данные одновременно.х ( у , х ) ( у , х )
Итак, я искал идеи и наконец пришел к выводу, что мир разделен на три части:
Первая часть - земля статистики и эконометрики. Люди там делают OLS, GLS, инструментальные переменные, ARIMA, тесты, разницу различий, PCA и еще много чего. На этой земле преобладает линейность и выполняется только «пакетная» обработка.
Вторая часть - остров машинного обучения и других слов, таких как искусственный интеллект, контролируемое и неконтролируемое обучение, нейронные сети и SVM. Обе «пакетной» и «он-лайн» обработки выполняются здесь.
Третья часть - это целый континент, который я только что открыл, в основном населенный инженерами-электриками. Там люди часто добавляют слово «фильтр» для своих инструментов, и они изобрели большие питания , как алгоритм Уидроу-Гоффа, рекурсивных наименьших квадратов , с фильтром Винера , в фильтр Калмана , и , вероятно , других вещей , которые я до сих пор не обнаружены. По-видимому, в основном они выполняют обработку в режиме онлайн, поскольку она лучше соответствует их потребностям.
Итак, мой вопрос: есть ли у вас глобальное видение всего этого? У меня сложилось впечатление, что эти три части света не слишком много говорят друг с другом. Я ошибся? Существует ли великая единая теория понимания того, как относится к ? Знаете ли вы какие-либо ресурсы, где могут быть заложены основы этой теории?X
Я не уверен, что этот вопрос действительно имеет смысл, но я немного растерялся между всеми этими теориями. Я представляю ответ на вопрос "использовать ли это или то?" будет "это зависит от того, что вы хотите сделать (и от ваших данных)". Однако я чувствую, что эти три мира пытаются ответить на один и тот же вопрос ( ?), И поэтому должно быть возможно иметь более высокий взгляд на все это и глубоко понять, что делает каждую технику особенной.
источник
Ответы:
Мой опыт подсказывает мне, что с точки зрения пакетной и онлайн-трансляции иногда вы комбинируете и то, и другое. Я имею в виду, что вы позволяете выполнять тяжелые, то есть сложные задачи, связанные с формулировкой модели, в автономном режиме, а затем применяете быстрые / адаптивные процедуры для использования этих моделей. Мы обнаружили, что «новые данные» можно использовать тремя способами; 1. просто прогнозировать; 2. пересмотреть параметры известной модели и 3. пересмотреть параметры и, возможно, пересмотреть модель. Эти три подхода были использованы для «живого анализа», и, конечно, время выполнения одного из этих трех этапов зависит как от используемого программного обеспечения, так и от имеющегося оборудования.
Теперь к вашему другому вопросу о том, как моделировать у против х. Я предпочитаю использовать расширенную версию регрессии (называемую «Передаточные функции» или «Модели ARMAX») в качестве основы для извлечения влияния истории y и текущих и pas значений x. Очень важно проверить правильность гауссовских требований и включить в качестве необходимых прокси как пропущенную детерминированную структуру (через обнаружение выбросов), так и пропущенную стохастическую структуру через компонент ARMA. Кроме того, необходимо убедиться, что он не использовал слишком много данных (тесты на постоянство параметров) и что любая непостоянная дисперсия ошибки является следствием детерминистической / стохастической дисперсии ошибки и / или связи между ожидаемым значением y и дисперсией невязки.
Исторически (или, если хотите, истерически) разные философские мысли пытались сформулировать подходы. Можно показать, что многие из специальных моделей, используемых нашими предками, являются подмножествами Передаточной функции, но есть наборы данных, которые можно представить, которые могут бросить вызов предположениям Передаточной функции. Хотя эти наборы данных могут существовать, не следует предполагать, что они окажут непосредственное влияние на вас, если анализ не даст такой вывод.
Тексты, такие как Вэй (Аддисон-Уэсли) или Бокс-Дженкинс, должны предоставить разумную дорожную карту, чтобы поддержать мои компоненты и привести вас к еще некоторым «ответам»
Кстати, это отличный вопрос!
Кроме того, если у вас есть какие-либо данные, которые вы хотите использовать, я мог бы продемонстрировать различные варианты, изложенные здесь. Пожалуйста, опубликуйте свои данные в Интернете, чтобы все могли их увидеть и использовать в своих попытках соотнести «у с х».
источник
Брейман обращается к этой проблеме в « Статистическом моделировании: две культуры ». Первый ответ на отличный вопрос.
источник
Я подозреваю, что ответ на этот вопрос - что-то вроде «нет бесплатного обеда». Возможно, причина, по которой статистики, компьютерщики и инженеры-электрики разработали разные алгоритмы, заключается в том, что они заинтересованы в решении разного рода проблем.
источник
Я бы сказал, что эти три группы, которые вы указали, действительно являются только двумя группами:
Все ветви, связанные с фильтрацией сигналов, основаны на двух аспектах: извлечение признаков (вейвлеты, Габор и Фурье), которые относятся к распознаванию образов, и дискретное преобразование Фурье, которое относится к жесткой математике. На самом деле, цифровая фильтрация ближе к инженерной стороне, поскольку она пытается решить эту проблему распознавания образов с помощью простых алгоритмов с низкими вычислительными затратами. Но по сути это машинное обучение.
Кроме того, Filtering, Wavelets, Gabor и Fourier широко используются в обработке изображений, являясь ядром искусственного зрения.
Разница существует между статистикой и машинным обучением.
источник