Я должен использовать квадратное экспоненциальное ядро (SE) для регрессии гауссовских процессов. Преимущества этого ядра: 1) просто: всего 3 гиперпараметра; 2) гладкое: это ядро гауссово.
Почему людям так нравится «гладкость»? Я знаю, что ядро Гаусса бесконечно дифференцируемо, но так ли это важно? (Пожалуйста, дайте мне знать, если есть другие причины, почему ядро SE так популярно.)
PS: мне сказали, что большинство сигналов в реальном мире (без шума) являются гладкими , поэтому разумно использовать гладкие ядра для их моделирования. Может ли кто-нибудь помочь мне понять эту концепцию?
machine-learning
kakanana
источник
источник
Ответы:
« Natura non facit saltus » - это старый принцип философии. Кроме того, красота и гармония являются такими принципами. Другим философским принципом, влияющим на статистику, является качественное мышление: традиционно мы думаем не о размерах эффекта, а о том, есть ли эффект или нет. Это позволило проверить гипотезу. Оценщики слишком точны для вашего восприятия природы. Прими это как есть.
Статистика должна служить восприятию человека. Так что точки разрыва не нравятся. Можно сразу спросить: почему именно на этом разрыв? Особенно в оценке плотности, эти точки разрыва в основном из-за не асимптотической природы реальных данных. Но вы не хотите узнавать о вашем конкретном конечном образце, а о базовом естественном факте. Если вы считаете, что эта природа не прыгает, вам нужны плавные оценки.
Со строгой математической точки зрения вряд ли этому есть причина. Также со времен Лейбница и Ньютона стали известны явления природы, которые не являются гладкими. Поговорите с естествоиспытателем, на которого вы работаете. Испытайте его взгляд на гладкость / непрерывность, а затем сделайте то, что вы оба решили сделать наиболее полезным для его понимания.
источник
Есть еще две причины практических вопросов. Первая заключается в том, что с аналитическими функциями гораздо проще работать математически, поэтому они доказывают теоремы о ваших алгоритмах и дают им более прочную основу.
источник
Есть много мотивов, в зависимости от проблемы. Но идея та же: добавьте априорные знания о какой-то проблеме, чтобы найти лучшее решение и справиться со сложностью. Еще один способ выразить это: выбор модели. Вот хороший пример выбора модели .
Другая идея, тесно связанная с этим, состоит в том, чтобы найти меру сходства выборок данных (есть разные термины, которые относятся к этой идее: топографические отображения, метрика расстояния, многократное обучение, ...).
Теперь рассмотрим практический пример: оптическое распознавание символов. Если вы берете изображение персонажа, вы ожидаете, что классификатор будет иметь дело с инвариантами: если вы поворачиваете, смещаете или масштабируете изображение, оно должно быть в состоянии обнаружить его. Кроме того, если вы примените какую-то одну модификацию слегка к входным данным, вы можете ожидать, что ответ / поведение вашего классификатора также будет незначительно отличаться, поскольку оба образца (исходный и измененный очень похожи). Вот где приходит принуждение к гладкости.
Существует множество работ, посвященных этой идее, но эта (трансформационная инвариантность в распознавании образов, касательное расстояние и касательное распространение, Симард и др.) Иллюстрирует эти идеи очень подробно
источник