Читая следующую статью , я натолкнулся на следующее утверждение:
Как уже упоминалось, он часто представлен без какой-либо ссылки на вероятностные модели, в соответствии с идеей Benzecri [1973] «позволить данным говорить самим за себя».
(Цитата из JP Benzécri. L'analyse des données. Том II: L'analyse des соответствия. Dunod, 1973.)
Из того, как я читаю эту статью, звучит так: «пусть данные говорят сами за себя» означает что-то вроде рассмотрения различных мер в данных без учета функции правдоподобия или процесса генерирования данных .
Хотя раньше я слышал цитату «пусть данные говорят сами за себя», я не задумывался о том, что подразумевается. Является ли моя приведенная выше интерпретация тем, что канонически подразумевается под этой цитатой?
Ответы:
Интерпретация зависит от контекста, но есть некоторые общие контексты, в которых это возникает. Это утверждение часто используется в байесовском анализе, чтобы подчеркнуть тот факт, что в идеале мы хотели бы, чтобы апостериорное распределение в анализе было устойчивым к предыдущим предположениям, чтобы влияние данных «доминировало» над апостериорным. В более общем смысле, цитата обычно означает, что мы хотим, чтобы наша статистическая модель соответствовала структуре данных, а не заставляла данные интерпретацию, которая является не поддающимся проверке структурным допущением модели.
Конкретная цитата, на которую вы ссылаетесь, дополняется дополнительной цитатой: «Модель должна следовать данным, а не наоборот» (перевод от Benzécri J (1973) L'Analyse des Données. Том II: L'Analyse des Correspondances . Dunod, стр. 6). Бензекри утверждал, что статистические модели должны извлекать структуру из данных, а не навязывать структуру. Он считал использование исследовательских графических методов очень важным, чтобы позволить аналитику «позволить данным говорить».
источник
Примерно в 2005 году, когда «Data Mining» была последней угрозой для статистической профессии, я помню, как видел плакат с «Принципами Data Mining», один из которых был «пусть данные говорят» (не помню, если «для себя») был включен). Если вы подумаете об алгоритмах, которые можно считать «интеллектуальным анализом данных», вам на ум придут априорные и рекурсивные методы разделения, два алгоритма, которые могут быть мотивированы без статистических допущений и приводят к довольно простым обобщениям базового набора данных.
@Ben понимает больше истории этой фразы, чем я, но думаю о цитате, приведенной в статье:
мне кажется, что процедура MCA действительно напоминает априорное или рекурсивное разбиение (или ад, среднее арифметическое значение в этом отношении) в том смысле, что она может быть мотивирована вообще без какого-либо моделирования и является механической операцией над набором данных, которая имеет смысл на основе на некоторых первых принципах.
Существует спектр предоставления данных говорить. Полностью байесовские модели с сильными приорами были бы на одном конце. Частые непараметрические модели были бы ближе к другому концу.
источник