У вас есть глобальное видение тех методов анализа?

24

В настоящее время я работаю над проектом, в котором, как и всем нам, мне нужно понять, как выход связан с входом . Особенность в том, что данные выдаются мне по одному фрагменту за раз, поэтому я хочу обновлять свой анализ каждый раз, когда получаю новый . Я считаю, что это называется «оперативной» обработкой, а не «пакетной» обработкой, когда у вас есть все необходимые данные и вы выполняете свои расчеты, используя все данные одновременно.х ( у , х ) ( у , х )yx(y,x)(y,x)

Итак, я искал идеи и наконец пришел к выводу, что мир разделен на три части:

  • Первая часть - земля статистики и эконометрики. Люди там делают OLS, GLS, инструментальные переменные, ARIMA, тесты, разницу различий, PCA и еще много чего. На этой земле преобладает линейность и выполняется только «пакетная» обработка.

  • Вторая часть - остров машинного обучения и других слов, таких как искусственный интеллект, контролируемое и неконтролируемое обучение, нейронные сети и SVM. Обе «пакетной» и «он-лайн» обработки выполняются здесь.

  • Третья часть - это целый континент, который я только что открыл, в основном населенный инженерами-электриками. Там люди часто добавляют слово «фильтр» для своих инструментов, и они изобрели большие питания , как алгоритм Уидроу-Гоффа, рекурсивных наименьших квадратов , с фильтром Винера , в фильтр Калмана , и , вероятно , других вещей , которые я до сих пор не обнаружены. По-видимому, в основном они выполняют обработку в режиме онлайн, поскольку она лучше соответствует их потребностям.

Итак, мой вопрос: есть ли у вас глобальное видение всего этого? У меня сложилось впечатление, что эти три части света не слишком много говорят друг с другом. Я ошибся? Существует ли великая единая теория понимания того, как относится к ? Знаете ли вы какие-либо ресурсы, где могут быть заложены основы этой теории?XYX

Я не уверен, что этот вопрос действительно имеет смысл, но я немного растерялся между всеми этими теориями. Я представляю ответ на вопрос "использовать ли это или то?" будет "это зависит от того, что вы хотите сделать (и от ваших данных)". Однако я чувствую, что эти три мира пытаются ответить на один и тот же вопрос ( ?), И поэтому должно быть возможно иметь более высокий взгляд на все это и глубоко понять, что делает каждую технику особенной.y=f(x)

Артур
источник
Я думаю, что первые две области говорят друг с другом намного больше в эти дни. Отличный вопрос!
Зак
Динамит тема и хорошо написанный вопрос!
rolando2
1
Пожалуйста, сделайте это CW.
кардинал
1
Я бы назвал себя статистиком, но я делаю много онлайновых вещей, делаю нелинейное моделирование разного рода и играю хотя бы в небольшом ИИ. Я думаю, что различия в типичных инструментах больше связаны с типами проблем, с которыми люди сталкиваются. Там, где их проблемы сходятся, рано или поздно они склонны находить или изобретать одни и те же инструменты (часто под разными именами и с немного разными прибамбасами).
Glen_b

Ответы:

4

Мой опыт подсказывает мне, что с точки зрения пакетной и онлайн-трансляции иногда вы комбинируете и то, и другое. Я имею в виду, что вы позволяете выполнять тяжелые, то есть сложные задачи, связанные с формулировкой модели, в автономном режиме, а затем применяете быстрые / адаптивные процедуры для использования этих моделей. Мы обнаружили, что «новые данные» можно использовать тремя способами; 1. просто прогнозировать; 2. пересмотреть параметры известной модели и 3. пересмотреть параметры и, возможно, пересмотреть модель. Эти три подхода были использованы для «живого анализа», и, конечно, время выполнения одного из этих трех этапов зависит как от используемого программного обеспечения, так и от имеющегося оборудования.

Теперь к вашему другому вопросу о том, как моделировать у против х. Я предпочитаю использовать расширенную версию регрессии (называемую «Передаточные функции» или «Модели ARMAX») в качестве основы для извлечения влияния истории y и текущих и pas значений x. Очень важно проверить правильность гауссовских требований и включить в качестве необходимых прокси как пропущенную детерминированную структуру (через обнаружение выбросов), так и пропущенную стохастическую структуру через компонент ARMA. Кроме того, необходимо убедиться, что он не использовал слишком много данных (тесты на постоянство параметров) и что любая непостоянная дисперсия ошибки является следствием детерминистической / стохастической дисперсии ошибки и / или связи между ожидаемым значением y и дисперсией невязки.

Исторически (или, если хотите, истерически) разные философские мысли пытались сформулировать подходы. Можно показать, что многие из специальных моделей, используемых нашими предками, являются подмножествами Передаточной функции, но есть наборы данных, которые можно представить, которые могут бросить вызов предположениям Передаточной функции. Хотя эти наборы данных могут существовать, не следует предполагать, что они окажут непосредственное влияние на вас, если анализ не даст такой вывод.

Тексты, такие как Вэй (Аддисон-Уэсли) или Бокс-Дженкинс, должны предоставить разумную дорожную карту, чтобы поддержать мои компоненты и привести вас к еще некоторым «ответам»

Кстати, это отличный вопрос!

Кроме того, если у вас есть какие-либо данные, которые вы хотите использовать, я мог бы продемонстрировать различные варианты, изложенные здесь. Пожалуйста, опубликуйте свои данные в Интернете, чтобы все могли их увидеть и использовать в своих попытках соотнести «у с х».

оборота IrishStat
источник
Спасибо за Ваш ответ! Я рассмотрю это более подробно, как только у меня будет время, и, возможно, я вернусь к вам. Должен сказать, что я не знал модель ARMAX. Я предполагаю, что был бы непосредственно в полностью эндогенной VAR. Что касается данных, на самом деле мы все еще создаем другие материалы для нашего проекта, поэтому у меня нет много соответствующих данных прямо сейчас. Но большое спасибо, вы должны услышать от меня снова!
Артур
«проверить гауссовские требования»: не является ли гауссовское / непараметрическое / забытое моделирование (темп Бреймана) глубоким расколом?
Денис
2

Брейман обращается к этой проблеме в « Статистическом моделировании: две культуры ». Первый ответ на отличный вопрос.

Квант Гай
источник
Поблагодарить! Ваша ссылка не работает для меня, эта работает, и эта ведет прямо в PDF. Я только случайно прочитал реферат и некоторую часть в тексте, и это выглядит очень интересно. Парни, кажется, полностью "анти классическая статистика", хотя. Еще раз спасибо.
Артур
Отлично - обновил ссылку. Это весело читать - наслаждайтесь!
Рам Ахлувалия
Здесь обсуждались «две культуры» Бреймана : некоторые интересные моменты, но трудно изменить или даже объяснить свое мышление.
Денис
1

Я подозреваю, что ответ на этот вопрос - что-то вроде «нет бесплатного обеда». Возможно, причина, по которой статистики, компьютерщики и инженеры-электрики разработали разные алгоритмы, заключается в том, что они заинтересованы в решении разного рода проблем.

Zach
источник
0

Я бы сказал, что эти три группы, которые вы указали, действительно являются только двумя группами:

  • Статистика
  • Машинное обучение, искусственный интеллект и распознавание образов.

Все ветви, связанные с фильтрацией сигналов, основаны на двух аспектах: извлечение признаков (вейвлеты, Габор и Фурье), которые относятся к распознаванию образов, и дискретное преобразование Фурье, которое относится к жесткой математике. На самом деле, цифровая фильтрация ближе к инженерной стороне, поскольку она пытается решить эту проблему распознавания образов с помощью простых алгоритмов с низкими вычислительными затратами. Но по сути это машинное обучение.

Кроме того, Filtering, Wavelets, Gabor и Fourier широко используются в обработке изображений, являясь ядром искусственного зрения.

Разница существует между статистикой и машинным обучением.

a.desantos
источник