контекст
Популярный вопрос на этом сайте: « Каковы общие статистические грехи? ». Один из грехов упоминалось при условии , что «корреляция подразумевает причинно - следственную связь ...» ссылка
Затем в комментариях с 5 ответами предлагается: «Google зарабатывает 65 миллиардов долларов в год, не заботясь о разнице».
Риск чрезмерного анализа лёгкой шутки, я подумал, что это может быть полезным предметом обсуждения для уточнения различия между корреляцией и причинно-следственной связи и практической значимости различия; и, возможно, это могло бы выделить что-то о связи между машинным обучением и различием между корреляцией и причинностью.
Я предполагаю, что комментарий касается технологий, лежащих в основе генерации результатов поисковых систем, и технологий, связанных с показом рекламы.
Вопрос
- В какой степени различие между корреляцией и причинно-следственной связью имеет отношение к получению дохода Google, возможно, уделяя особое внимание получению дохода с помощью технологий, связанных с показом рекламы, и качественным результатам поиска?
источник
Ответы:
Простой ответ заключается в том, что Google (или кто-либо еще) должен заботиться о различии в той степени, в которой они намерены вмешаться . Причинно-следственная информация говорит вам о последствиях вмешательств (действий) в данной области.
Если, например, Google желает повысить рейтинг кликов по объявлениям, увеличить количество пользователей GMail или Google+ или побудить пользователей использовать Google, а не Bing, им необходимо знать влияние потенциальных действий (например, увеличение размер шрифта рекламы, продвижение Google+ в печатных журналах или публикация различий между результатами поиска Google и Bing соответственно). Корреляция достаточно хороша, чтобы заставить поисковую систему Google работать хорошо, но для их других систем (и их бизнеса в целом) различие часто имеет значение.
Стоит отметить, что Google (и многие фирмы с веб-бизнесом) постоянно проводят онлайн-эксперименты. Это один из самых простых и лучших способов выявления и оценки причинных зависимостей.
источник
Во-первых, это просто шутка и неверна. В Google много очень талантливых статистиков, экспертов по поиску информации, лингвистов, экономистов, некоторых психологов и других. Эти люди проводят много времени, обучая многих статистиков о разнице между корреляцией и причинно-следственной связью. Учитывая, что это большая организация, могут быть карманы, даже большие, невежества, но утверждение определенно неверно. Более того, большая часть этого образования стоит перед клиентами, особенно рекламодателями.
Более глубокий ответ: разница чрезвычайно важна. Просто посмотрите на ранжирование результатов поиска и позвольте мне выйти за рамки просто «корреляции», чтобы включить показатели сходства, функции оценки и т. Д. Некоторые страницы оцениваются как хорошие результаты для определенных запросов. У них есть различные функции предикторов, которые важны для их ранжирования. В отличие от этих хороших страниц, которые являются хорошими результатами для запросов, есть набор веб-страниц, которые являются страницами, которые являются очень плохими результатами для тех же самых запросов. Однако создатели этих страниц тратят много усилий, чтобы они выглядели как хорошие страницы с числовой точки зрения.такие как текстовые совпадения, интернет-ссылки и многое другое. Однако то, что эти страницы в числовом выражении «похожи» на хорошие страницы, не означает, что на самом деле это хорошие страницы. Поэтому Google вложил и будет продолжать прилагать много усилий, чтобы определить, какие разумные функции различают (разделяют) хорошие и плохие страницы.
Это не совсем корреляция и причинность, но это глубже, чем это. Хорошие страницы для определенных запросов могут отображаться в числовое пространство, где они кажутся похожими и отличными от многих нерелевантных или плохих страниц, но только то, что результаты находятся в той же области функционального пространства, не означает, что они получены из того же подмножества «высокого качества» в Интернете.
Более простой ответ: очень простая перспектива состоит в том, чтобы обратиться к ранжированию результатов. Лучший результат должен быть первым, но то, что что-то занимает первое место, не означает, что это лучший результат. По некоторым показателям оценки вы можете обнаружить, что рейтинг Google соотносится с золотым стандартом оценки качества, но это не означает, что их рейтинг подразумевает, что результаты действительно в таком порядке с точки зрения качества и релевантности.
Обновление (третий ответ): Со временем есть еще один аспект, который затрагивает всех нас: это то, что лучший результат Google может считаться авторитетным, потому что это лучший результат в Google. Хотя анализ ссылок (например, «PageRank» - один из методов анализа ссылок) - это попытка отразить предполагаемую авторитетность, со временем новые страницы по теме могут просто усилить эту структуру ссылок путем ссылки на лучший результат в Google. На более новой авторитетной странице возникла проблема с заголовком относительно первого результата. Поскольку Google хочет предоставить наиболее релевантную страницу в настоящее время , из-за неявного влияния корреляции на воспринимаемую причинность возникает множество факторов, в том числе так называемое явление «богатые - становятся богаче».
Обновление (четвертый ответ): я понял (для комментария ниже), что было бы полезно прочитать «Аллегорию пещеры» Платона, чтобы получить представление о том, как интерпретировать корреляцию и причинность в результате «размышлений / проекций» реальности и как мы (или наши машины) это воспринимаем. Корреляция, строго ограниченная корреляцией Пирсона, слишком ограничена как интерпретация проблемы недопонимания ассоциации (более широкой, чем просто корреляция) и причинности.
источник
Автор квипа здесь.
Этот комментарий был частично вдохновлен выступлением Дэвида Миса (в Google), где он сказал, и я перефразирую, компании по автострахованию не заботятся о том, чтобы быть мужчиной, приводило к большему количеству несчастных случаев, пока они связаны, они должны взимать больше. Фактически невозможно изменить чей-либо пол в эксперименте, поэтому причина никогда не может быть показана.
Точно так же, Google на самом деле не нужно заботиться о том, что красный цвет заставляет кого-то нажимать на объявление, если он соотносится с большим количеством кликов, они могут брать больше за это объявление.
Это было также вдохновлено этой статьей в Wired: Конец теории: Поток данных делает научный метод устаревшим . Цитата:
«Основополагающая философия Google заключается в том, что мы не знаем, почему эта страница лучше этой страницы: если статистика входящих ссылок говорит, что это так, этого достаточно».
Очевидно, что в Google есть много очень умных людей, которые знают разницу между причинно-следственной связью и корреляцией, но в их случае они могут заработать много денег, не заботясь об этом.
источник
Я согласен с Дэвидом : разница имеет значение, если вы собираетесь вмешаться, и Google может проверить результаты вмешательств, проводя контролируемые эксперименты. (Оптимальный график таких экспериментов зависит от вашего набора причинных гипотез, которые вы узнаете из предыдущих экспериментов плюс данные наблюдений , поэтому корреляции все еще полезны!)
Есть вторая причина, по которой Google может захотеть изучить причинно-следственные связи. Причинно-следственные связи более устойчивы к вмешательствам других игроков. Вмешательства обычно бывают локальными, поэтому они могут изменить одну часть причинной сети, но оставить все остальные причинные механизмы без изменений. Напротив, прогностические отношения могут потерпеть неудачу, если нарушена отдаленная причинная связь. Интернет постоянно меняется, и Google должен быть заинтересован в том, какие функции онлайн-среды более устойчивы к этим изменениям.
источник