Вычисление среднего наклона: гармоническое или среднее арифметическое?

11

Я должен рассчитать средний процент подъема наклона для большого набора данных, базовый метод подробно описан здесь. Тем не менее, я начал задаваться вопросом, может ли гармоническое среднее быть более подходящим, чем стандартное арифметическое среднее, поскольку это технически скорость изменения. Я не видел такого поворота в других дискуссиях по усреднению наклона по точкам, областям, линиям и т. Д. Это должно быть довольно просто сделать.

редактировать: цель вычисления среднего наклона в этом случае состоит в том, чтобы сгенерировать один параметр (из многих), который будет использоваться при моделировании порогов инициации канала. У меня есть набор местоположений заголовков каналов, собранных в полевых условиях, в которых я буду собирать данные о накоплении потока, различных усредненных параметрах наклона и т. Д. И буду использовать множественную линейную регрессию, чтобы попытаться описать пороги накопления в терминах других параметров.

Джей Гварнери
источник
4
Это зависит от того, почему вы вычисляете средний уклон. Какова цель? Какую физическую величину вы пытаетесь измерить? Хотя многие формы средних являются законными, остерегайтесь гармонического среднего: оно вызывает проблемы, когда любой наклон равен нулю, что часто случается.
whuber

Ответы:

10

Средний уклон звучит как натуральное количество, но это довольно странная вещь. Например, средний наклон плоской горизонтальной плоскости равен нуль, но при добавлении крошечного случайного, нулевой среднего шума на ЦМР эту равнину, средний уклон может идти только вверх. Другие странные поведения - это зависимость среднего наклона от разрешения ЦМР, которую я здесь задокументировал , и его зависимость от того, как была создана ЦМР. Например, некоторые матрицы высот, созданные из контурных карт, на самом деле слегка террасированы - с крошечными резкими скачками, где лежат контурные линии - но в остальном являются точными представлениями поверхности в целом. Эти резкие скачки, если в процессе усреднения получить слишком много или слишком мало веса, могут изменить средний наклон.

Поднятие взвешивания важно, потому что, по сути, среднее гармоническое (и другие средства) дифференциально взвешивают наклоны. Чтобы понять это, рассмотрим гармоническое среднее только двух положительных чисел x и y . По определению,

Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y

где весами являются a = y / (x + y) и b = x / (x + y). (Они заслуживают того, чтобы называться «весами», потому что они положительны и суммируются с единицей. Для среднего арифметического веса весы a = 1/2 и b = 1/2). Очевидно, что вес прикреплен к й , равно у / (х + у), является большим , когда х является малым по сравнению с у . Таким образом, гармоника означает перевес меньших значений.

Это может помочь расширить вопрос. Среднее гармоническое - это одно из семейства средних значений, параметризованных действительным значением p . Подобно тому , как среднее гармоническое получается путем усреднения обратных по х и у (а затем принимать обратную их среднее значение ), в общем , мы можем усреднить РТН полномочия х и у (а затем взять 1 / PTH силу результата ). Случаи p = 1 и p = -1 являются средним арифметическим и гармоническим значением соответственно. (Мы можем определить среднее для p = 0, взяв пределы и, таким образом, получить геометрическое среднее как член этого семейства.) Как pуменьшается от 1, меньшие значения все больше и больше взвешиваются; и когда p увеличивается от 1, большие значения становятся все более и более взвешенными. Отсюда следует, что среднее значение может увеличиваться только при увеличении p и должно уменьшаться при уменьшении p . (Это видно на втором рисунке ниже, где все три линии либо плоские, либо увеличиваются слева направо.)

С практической точки зрения, мы могли бы вместо этого изучить поведение различных средств уклонов и добавить эти знания в наш аналитический инструментарий: когда мы ожидаем, что уклоны вступят в отношения таким образом, что меньшим уклонам следует дать больше влияние, мы могли бы выбрать среднее значение с р менее 1; и наоборот, мы могли бы увеличить p выше 1, чтобы подчеркнуть самые большие уклоны. Для этого рассмотрим различные формы дренажных профилей в окрестности точки.

Чтобы показать, что может продолжаться, я рассмотрел три качественно различных местных ландшафта : один, где все склоны равны (что является хорошим ориентиром); Другой случай, когда мы локально находимся на дне чаши: вокруг нас склоны равны нулю, но затем постепенно увеличиваются и в конечном итоге вокруг края становятся сколь угодно большими. Обратная ситуация возникает, когда близлежащие склоны умеренные, но затем выровняются от нас. Казалось бы, это охватывает реально широкий спектр поведения.

Вот псевдо-3D графики этих трех типов дренажных форм:

Сюжеты в 3D

Здесь я вычислил средний наклон каждого - с одинаковым цветовым кодированием - как функцию p , позволяя p варьироваться от -1 (среднее значение гармоники) до 2.

Наклон означает против п

Конечно, синяя линия горизонтальна: независимо от того, какое значение р принимает, среднее значение постоянного наклона не может быть ничем иным, кроме той константы (которая была установлена ​​в 1 для справки). Высокие уклоны вокруг дальнего края красного шара сильно влияют на средние уклоны при изменении p : обратите внимание, насколько они велики, когда p превышает 1. Горизонтальный край на третьей (золотисто-зеленой) поверхности вызывает среднее гармоническое (p = - 1) быть нулем.

Следует отметить, что относительные положения трех кривых изменяются при p = 0 (среднее геометрическое значение): для p, больше 0, у красной чаши средние уклоны больше, чем у синей, в то время как при отрицательном p у красной чаши среднее значение меньше. склоны, чем синие. Таким образом, ваш выбор p может изменить даже относительное ранжирование средних склонов.

Глубокое влияние среднего гармонического (p = -1) на желто-зеленую форму должно дать нам паузу: оно показывает, что когда в дренаже достаточно небольших уклонов, среднее значение гармоники может быть настолько маленьким, что оно подавляет любое влияние все остальные склоны.

В духе исследовательского анализа данных вы могли бы рассмотреть различные p - возможно, позволяющие ему варьироваться от 0 до немного больше 1, чтобы избежать экстремальных весов - и найти, какое значение создает наилучшую связь между средним наклоном и переменной, которую вы моделирование (например, пороги инициализации канала). «Лучший» обычно понимается в смысле «наиболее линейный» или «создание постоянных [гомоскедастических] остатков» в регрессионной модели.

Whuber
источник
Спасибо за тщательный анализ! Я должен немного поразмышлять над этим.
Джей Гварнери
1

Я предпринял эмпирический подход, чтобы найти дополнительный ответ на превосходный теоретический ответ whuber. Я решил рассчитать наклон в градусах и усреднить его, используя угловое среднее . Затем я вычислил среднее арифметическое и гармоническое значение процентного наклона. Я создал набор точек выборки, случайно расположенных в области исследования. Я запросил 2000 баллов с минимальной дистанцией 100 м, что дало 1326 баллов. Я выбрал значения каждого растрового значения среднего наклона в каждой точке и преобразовал процентное значение в градусы, используя формулу Degrees = atan(percent/100). Мое предположение здесь состоит в том, что среднее угловое значение будет давать «правильный» средний наклон в градусах, и любое процентное среднее значение, которое будет ближе к нему, будет правильной процедурой.

Затем я сравнил все ненулевые значения, используя критерий Крускала-Уоллеса (при условии, что для большинства значений с нулевым наклоном он будет равен нулю во всех трех, и что нулевые значения будут маскировать различия между методами). Я обнаружил значительную разницу между тремя (хи-квадрат = 17,9570, DF = 2, р = 0,0001), поэтому я дополнительно изучил данные, используя процедуру Данна, используя альфа = 0,05 (Elliot and Hynan 2011) . Конечный результат состоит в том, что среднее арифметическое и гармоническое значение значительно отличаются друг от друга, но более значительно отличается от среднего углового значения:

Comparison           Diff        SE        q         q(0.05)    Conclude                      
------------------------------------------------------------------------------                
arith     harm      164.12    38.78     4.23       2.394    Reject                            
arith     angular   75.3      38.8      1.94       2.394    Do not reject                     
angular   harm      88.82     38.68     2.3        2.394    Do not reject                     

Если все мои предположения были правильными (они вполне могут быть неверными), это означает, что хотя гармонические и арифметические средства создают разные значения друг от друга, они оба «близки» к среднему угловому значению, чтобы быть приемлемым. Здесь есть два других предостережения, о которых я могу подумать (пожалуйста, добавьте любые другие, если вы думаете о них):

  1. Больший размер выборки может найти значительную разницу между средним процентным значением и средним угловым значением. Тем не менее, мой размер выборки составлял ~ 1000 точек только для ненулевых значений.
  2. Поскольку мои выборочные точки были размещены без учета дренажных бассейнов, может быть какая-то псевдорепликация, поскольку любой средний уклон будет связан со средними уклонами над ним.
Джей Гварнери
источник
1
Это интересно (+1), но остерегайтесь ограничений. (1) Да, если вы выберете больший размер выборки, вы обнаружите, что все различия значительны. Поэтому не имеет смысла проводить тест на статистическую гипотезу: вы хотите , чтобы сосредоточиться на сумму разницы между процедурами. (2) Ваши результаты полностью зависят от фактических свойств ваших данных. Они будут отличаться от других наборов данных. (3) Среднее угловое значение полезно в качестве эталона, но оно ни в коем случае не является предпочтительным значением. То, что использовать в качестве эталона, полностью зависит от того, как среднее будет использоваться в дальнейшем анализе или картировании.
whuber
0

Учитывая предположение, что никакие параметры, определяющие наклон, неизвестны, любой статистик сказал бы использовать наклон, который минимизирует среднеквадратичные отклонения данных от него. (Конечно, примеры whuber не подходят, поскольку он выбрал математически сгенерированные рельефы, но для реальных рельефов предположение о неизвестных параметрах должно быть верным.)

johnsankey
источник
Этот ответ приветствуется, но я думаю, что он неправильно понимает ситуацию. Наиболее важно то, что эти наклоны не используются для подгонки кривых: концепция «среднеквадратичных отклонений данных» просто не применима. Во-вторых, я выбрал качественные типы рельефа, чтобы охватить широкий спектр того, что действительно будет встречаться, поэтому я утверждаю, что они дают полезную информацию о том, чего ожидать. Реальные наборы данных не способствуют пониманию того, что здесь происходит, потому что не существует такого понятия, как «истинный» средний уклон. Главный вопрос в том, какие средние значения будут полезными или информативными.
whuber
1
Кстати, я считаю, что у меня есть некоторые квалификации в качестве статистика. Это не делает мое мнение по этому вопросу лучше или хуже: как и с кем-либо еще, я должен подкрепить это как можно более четко и объективно, и я вполне подвержен ошибкам и необходимости передумать: ). Я просто предлагаю этот пункт в качестве контраргумента на ваше замечание "любой статистик".
whuber
Я полагаю, что вопрос о том, что подходит полезно, зависит от того, для чего будет использоваться уклон. Например, для потенциального спада суши более крутые склоны будут взвешиваться выше по сравнению с мягкими склонами в соответствии с моделью спада в зависимости от модели уклона, тогда подход RMS соответствия должен быть действительным. Другие весовые модели будут использоваться в соответствии с другими применениями. Короче говоря, смоделируйте все, что мы знаем, с помощью взвешивания или других средств, а затем положитесь на RMS, как на модель для всего, чего мы не делаем, - это то, что я предлагаю.
Джонсонки
Я согласен с предпосылкой этого комментария, Джон, но я не понимаю, как следует твой вывод. Если более крутые склоны должны принимать более тяжелые веса, то, похоже, RMS - это именно то, что вы не хотите делать, потому что он взвешивает все отклонения одинаково, независимо от уклона. Более того, RMS как квадратичная функция потерь не может быть универсальной заменой того, чего могут достичь другие методы, включая нелинейные повторные выражения наклона и использование альтернативных функций потерь (как, например, используются надежные методы подбора).
whuber
RMS включает в себя весы
johnsankey