... предполагая, что я могу расширить их знания об отклонениях интуитивно (интуитивно понимая «дисперсию» ) или сказав: это среднее расстояние между значениями данных и «средним» - и поскольку дисперсия находится в квадрате единицы, мы берем квадратный корень, чтобы сохранить единицы, и это называется стандартным отклонением.
Давайте предположим, что многое сформулировано и (надеюсь) понято «получателем». Теперь, что такое ковариация и как можно объяснить это простым английским языком без использования каких-либо математических терминов / формул? (Т.е. интуитивное объяснение.;)
Обратите внимание: я знаю формулы и математику, лежащую в основе концепции. Я хочу быть в состоянии «объяснить» то же самое в легкой для понимания форме, не включая математику; то есть, что вообще означает «ковариация»?
источник
Ответы:
Иногда мы можем «расширять знания» необычным или другим подходом. Мне бы хотелось, чтобы этот ответ был доступен для детских садов, а также повеселиться, чтобы все достали ваши карандаши!
Учитывая парные данные, нарисуйте их диаграмму рассеяния. (Младшим ученикам может понадобиться учитель, чтобы создать это для них. :-) Каждая пара точек , на этом графике определяет прямоугольник: это самый маленький прямоугольник, стороны которого параллельны оси, содержащие эти точки. Таким образом, точки находятся либо в верхнем правом и нижнем левом углах («положительное» отношение), либо в верхнем левом и нижнем правом углах («отрицательное» отношение).(x,y) (xi,yi) (xj,yj)
Нарисуйте все возможные такие прямоугольники. Раскрасьте их прозрачно, сделав положительные прямоугольники красными (скажем), а отрицательные прямоугольники «анти-красными» (синие). Таким образом, везде, где прямоугольники перекрываются, их цвета либо улучшаются, когда они одинаковы (синий и синий, либо красный и красный), либо отменяются, если они разные.
( На этой иллюстрации положительного (красного) и отрицательного (синего) прямоугольника перекрытие должно быть белым; к сожалению, это программное обеспечение не имеет истинного «анти-красного» цвета. Перекрытие серое, поэтому оно затемнит сюжет, но в целом чистое количество красного цвета правильное. )
Теперь мы готовы к объяснению ковариации.
Ковариация - это чистое количество красного на графике (рассматривая синий как отрицательные значения).
Вот несколько примеров с 32 бинормальными точками, взятыми из распределений с заданными ковариациями, упорядоченными от самых отрицательных (самые голубые) до самых положительных (самые красные).
Они нарисованы на общих осях, чтобы сделать их сопоставимыми. Прямоугольники слегка очерчены, чтобы помочь вам увидеть их. Это обновленная (2019 г.) версия оригинала: она использует программное обеспечение, которое корректно отменяет красный и голубой цвета в перекрывающихся прямоугольниках.
Давайте выведем некоторые свойства ковариации. Понимание этих свойств будет доступно любому, кто на самом деле нарисовал несколько прямоугольников. :-)
Билинейность. Поскольку количество красного цвета зависит от размера графика, ковариация прямо пропорциональна шкале на оси X и шкале на оси Y.
Корреляция. Ковариация увеличивается, когда точки приближаются к наклонной линии вверх, и уменьшается, когда точки приближаются к наклонной линии вниз. Это связано с тем, что в первом случае большинство прямоугольников являются положительными, а во втором случае большинство отрицательных.
Связь с линейными ассоциациями. Поскольку нелинейные ассоциации могут создавать смеси положительных и отрицательных прямоугольников, они приводят к непредсказуемым (и не очень полезным) ковариациям. Линейные ассоциации могут быть полностью интерпретированы с помощью двух предыдущих характеристик.
Чувствительность к выбросам. Геометрический выброс (одна точка, стоящая в стороне от массы) создаст много больших прямоугольников вместе со всеми остальными точками. Одно это может создать чистое положительное или отрицательное количество красного в общей картине.
Кстати, это определение ковариации отличается от обычного только универсальной константой пропорциональности (независимо от размера набора данных). Математически склонный не будет иметь проблем с выполнением алгебраической демонстрации того, что приведенная здесь формула всегда в два раза больше обычной ковариации.
источник
Чтобы уточнить мой комментарий, я использовал преподавание ковариации как меру (среднего) ко-вариации между двумя переменными, скажем, и .x y
Полезно вспомнить основную формулу (легко объяснить, не нужно говорить о математических ожиданиях для вводного курса):
так что мы ясно видим, что каждое наблюдение может вносить положительный или отрицательный вклад в ковариацию, в зависимости от произведения их отклонения от среднего значения двух переменных, и . Обратите внимание, что я не говорю о величине здесь, но просто о знаке вклада i-го наблюдения.(xi,yi) x¯ y¯
Это то, что я изобразил на следующих диаграммах. Искусственные данные были получены с использованием линейной модели (слева, ; справа, , где были взяты из гауссовского распределения с нулевым средним и , и из равномерного распределения на интервале ).y=1.2x+ε y=0.1x+ε ε SD=2 x [0,20]
Вертикальные и горизонтальные столбцы представляют среднее значение и соответственно. Это означает, что вместо «просмотра отдельных наблюдений» из источника мы можем сделать это из . Это равносильно переводу по осям X и Y. В этой новой системе координат каждое наблюдение, расположенное в верхнем правом или нижнем левом квадранте, вносит положительный вклад в ковариацию, тогда как наблюдения, расположенные в двух других квадрантах, вносят отрицательный вклад в нее. В первом случае (слева) ковариация равна 30,11, и распределение в четырех квадрантах приведено ниже:x y (0,0) (x¯,y¯)
Понятно, что когда выше среднего, то и соответствующие (wrt. ). Глазная форма двумерного облака точек, когда значения увеличиваются, значения имеют тенденцию к увеличению. (Но помните, что мы могли бы также использовать тот факт, что существует четкая связь между ковариацией и наклоном линии регрессии, т.е. .)xi yi y¯ x y b=Cov(x,y)/Var(x)
Во втором случае (справа тот же ) ковариация равна 3,54, и распределение по квадрантам является более «однородным», как показано ниже:xi
Другими словами, существует увеличение числа случая , когда «ы и » ы не covary в том же направлении WRT. их средства.xi yi
Обратите внимание, что мы можем уменьшить ковариацию, масштабируя либо либо . На левой панели ковариация (или ) уменьшается в десять раз (3,01). Поскольку единицы измерения и разброс значений и (относительно их средних) затрудняют интерпретацию значения ковариации в абсолютном выражении, мы обычно масштабируем обе переменные по их стандартным отклонениям и получаем коэффициент корреляции. Это означает, что в дополнение к перецентрированию нашего графика рассеяния вx y (x/10,y) (x,y/10) x y (x,y) (x¯,y¯) мы также масштабируем x- и y-единицу с точки зрения стандартного отклонения, что приводит к более понятной мере линейной ковариации между и .x y
источник
Ковариантность - это мера того, насколько одна переменная возрастает, когда повышается другая.
источник
Я отвечаю на свой вопрос, но я подумал, что было бы здорово, если бы люди, перебирающие этот пост, ознакомились с некоторыми объяснениями на этой странице .
Я перефразирую один из очень хорошо сформулированных ответов (пользователь 'Zhop'). Я делаю это на тот случай, если этот сайт закрывается или страница закрывается, когда кто-то через некоторое время получает доступ к этому сообщению;)
Добавление еще одного (от CatofGrey), которое помогает увеличить интуицию:
Эти два вместе заставили меня понять ковариацию, поскольку я никогда не понимал это прежде! Просто удивительно!!
источник
Мне очень нравится ответ Уубер, поэтому я собрал еще несколько ресурсов. Ковариация описывает как степень распространения переменных, так и характер их отношений.
Ковариация использует прямоугольники, чтобы описать, насколько далеко наблюдение от среднего значения на графике рассеяния:
Если прямоугольник имеет длинные стороны и большую ширину или короткие стороны и короткую ширину, это свидетельствует о том, что две переменные перемещаются вместе.
Если у прямоугольника есть две стороны, которые являются относительно длинными для этой переменной, и две стороны, которые являются относительно короткими для другой переменной, это наблюдение обеспечивает доказательство того, что переменные не очень хорошо движутся вместе.
Если прямоугольник находится во 2-м или 4-м квадранте, то, когда одна переменная больше среднего, другая меньше среднего. Увеличение одной переменной связано с уменьшением другой.
Я нашел отличную визуализацию этого на http://sciguides.com/guides/covariance/. Это объясняет, что такое ковариация, если вы просто знаете среднее.
источник
Вот еще одна попытка объяснить ковариацию с помощью картинки. Каждая панель на рисунке ниже содержит 50 точек, смоделированных из двумерного распределения с корреляцией между x & y 0,8 и отклонениями, как показано на метках строк и столбцов. Ковариация показана в правом нижнем углу каждой панели.
Любой, кто заинтересован в улучшении этого ... вот код R:
источник
Мне понравился ответ @whuber - до этого у меня была лишь смутная идея о том, как можно представить визуализацию ковариации, но эти прямоугольные графики гениальны.
Однако, поскольку формула для ковариации включает в себя среднее значение, а в первоначальном вопросе ОП говорилось, что «получатель» действительно понимает концепцию среднего, я подумал, что у меня будет трещина в адаптации прямоугольных графиков @ whuber для сравнения каждой точки данных с означает х и у, так как это больше представляет то, что происходит в формуле ковариации. Я думал, что на самом деле это выглядит довольно интуитивно:
Синяя точка в середине каждого графика означает среднее значение x (x_mean) и среднее значение y (y_mean).
Прямоугольники сравнивают значения x - x_mean и y - y_mean для каждой точки данных.
Прямоугольник зеленый, если либо:
Прямоугольник красный, если либо:
Ковариация (и корреляция) может быть как сильно отрицательной, так и сильно положительной. Когда на графике преобладает один цвет больше, чем другой, это означает, что данные в основном следуют последовательному шаблону.
Фактическое значение ковариации для двух разных переменных x и y - это, как правило, сумма всех зеленых областей за вычетом всей красной области, затем деленная на общее количество точек данных - фактически среднее значение «зеленость-против-красная» графика ,
Как это звучит / выглядит?
источник
Дисперсия - это степень, с которой случайное отклонение изменяется относительно ожидаемого значения. Из-за стохастического характера основного процесса, который представляет случайная величина.
Ковариантность - это степень изменения двух разных случайных величин относительно друг друга. Это может произойти, когда случайные величины управляются одним и тем же базовым процессом или его производными. Либо процессы, представленные этими случайными переменными, влияют друг на друга, либо это один и тот же процесс, но одна из случайных переменных является производной от другой.
источник
Я бы просто объяснил корреляцию, которая довольно интуитивна. Я бы сказал: «Корреляция измеряет силу взаимосвязи между двумя переменными X и Y. Корреляция находится между -1 и 1 и будет близка к 1 по абсолютной величине, когда связь сильная. Ковариация - это просто корреляция, умноженная на стандартные отклонения две переменные. Таким образом, в то время как корреляция безразмерна, ковариация находится в произведении единиц для переменной X и переменной Y.
источник
Двумя переменными, которые будут иметь высокую положительную ковариацию (корреляцию), будет количество людей в комнате и количество пальцев в комнате. (По мере того, как число людей увеличивается, мы ожидаем, что количество пальцев также увеличится.)
То, что может иметь отрицательную ковариацию (корреляцию), будет возраст человека и количество волосяных фолликулов на голове. Или количество прыщей на лице человека (в определенной возрастной группе) и сколько у них свиданий в неделю. Мы ожидаем, что люди с большим количеством лет будут иметь меньше волос, и люди с большим количеством прыщей будут иметь меньше дат .. Это отрицательно коррелирует.
источник