Есть ли формальное математическое доказательство того, что решение немецкой проблемы танков является функцией только параметров k (количество наблюдаемых образцов) и m (максимальное значение среди наблюдаемых образцов)? Другими словами, можно ли доказать, что решение не зависит от других значений выборки, кроме максимального значения?
mathematical-statistics
sufficient-statistics
Богдан Александру
источник
источник
Ответы:
Вероятность
Распространенные проблемы в теории вероятностей относятся к вероятности наблюдений при наличии определенной модели и заданных параметров (назовем их ). Например, вероятности для определенных ситуаций в карточных играх или играх в кости часто очень просты.Икс1, х2, . , , , хN θ
Однако во многих практических ситуациях мы имеем дело с обратной ситуацией ( логическая статистика ). То есть: дано наблюдение и теперь модель неизвестна , или, по крайней мере, мы не знаем определенные параметры .Икс1, х2, . , , , хК θθ
В задачах такого типа мы часто ссылаемся на термин, называемый вероятностью параметров, , который представляет собой показатель веры в определенный параметр учетом наблюдений . Этот термин выражается как пропорциональный вероятности для наблюдений при условии, что параметр модели будет гипотетически верным.L ( θ ) θ Икс1, х2, . , ИксК Икс1, х2, . , ИксК θ L (θ, х1, х2, . , ИксК) ∝ вероятность наблюдения х1, х2, . , ИксК учитывая θ
Для данного значения параметра чем более вероятно определенное наблюдение (относительно вероятности с другими значениями параметра), тем больше наблюдение поддерживает этот конкретный параметр (или теорию / гипотезу, которая предполагает этот параметр) , (Относительная) высокая вероятность укрепит наше мнение о значении этого параметра ( об этом можно сказать гораздо более философски ).θ Икс1, х2, . , ИксN
Вероятность возникновения проблемы с немецким танком
Теперь для задачи немецкого танка функция правдоподобия для набора образцов :Икс1, х2, . , ИксК
Наблюдаете ли вы образцы {1, 2, 10} или образцы {8, 9, 10}, не должно иметь значения, когда образцы рассматриваются из равномерного распределения с параметром . Обе выборки одинаково вероятны с вероятностью и, используя идею вероятности, одна выборка не говорит больше о параметре чем другая выборка.θ ( θ3)- 1 θ
Высокие значения {8, 9, 10} могут заставить вас думать / полагать, что должно быть выше. Но только значение {10} действительно дает вам соответствующую информацию о вероятности (значение 10 говорит о том, что будет равно десяти или выше, остальные значения 8 и 9 не вносят в эту информацию никакой информации). ).θ θ θθ θ
Теорема Фишера-Неймана о факторизации
Эта теорема говорит вам, что некоторой статистики (т. Некоторой функции наблюдений, такой как среднее значение, медиана или, как в немецкой задаче танка максимум) достаточно (содержит всю информацию), когда вы можете вынесем, в функции правдоподобия, условия, которые зависят от других наблюдений , так что этот фактор не зависит от как параметр и (и та часть функции правдоподобия, которая связывает данные с гипотетическими значениями параметров, зависит только от статистики, но не от всех данных / наблюдений).T( х1, х2, … , ХК) Икс1, х2, … , ХК θ Икс1, х2, … , ХК
Случай немецкого танка прост. Вы можете видеть выше, что все выражение для приведенного выше правдоподобия уже зависит только от статистики а остальные значения не имеют значения.Макс ( х1, х2, . , ИксК) Икс1, х2, . , ИксК
Маленькая игра как пример
Допустим, мы играем в следующую игру несколько раз: сама является случайной величиной и рисуется с равной вероятностью либо 100, либо 110. Затем мы рисуем образец .θ Икс1, х2, . , , , хК
Мы хотим выбрать стратегию угадывания , основанную на наблюдаемых которая максимизирует нашу вероятность иметь правильное предположение .θ Икс1, х2, . , , , хК θ
Правильной стратегией будет выбор 100, если только одно из чисел в выборке не будет> 100.
У нас может возникнуть соблазн выбрать значение параметра 110 уже тогда, когда многие из имеют тенденцию иметь все высокие значения, близкие к сотне (но ни один из них не превышает 100), но это было бы неправильно. Вероятность такого наблюдения будет больше, когда истинное значение параметра равно 100, чем когда оно равно 110. Поэтому, если мы предположим, что в такой ситуации значение 100 равно значению параметра, мы с меньшей вероятностью допустим ошибку (поскольку Ситуация с этими высокими значениями, близкими к сотне, но все еще ниже ее, возникает чаще в случае, когда истинное значение равно 100, а не в случае, когда истинное значение равно 110).Икс1, х2, . , , , хК
источник
Вы не представили точную формулировку «проблемы», поэтому не совсем ясно, что вы хотите доказать. С байесовской точки зрения апостериорная вероятность зависит от всех данных. Однако каждое наблюдение определенного серийного номера будет поддерживать этот номер в наибольшей степени. То есть при любом наблюдении отношение шансов между апостериорным и предыдущим будет больше для гипотезы «фактическое количество танков равно », чем для «фактического количества танков [число, отличное от ]». Таким образом, если мы начнем с равномерного априора, то будет иметь самый высокий апостериор после наблюдения этого наблюдения.N N N N
Рассмотрим случай, когда у нас есть точка данных и гипотезы . Очевидно, апостериор для равен нулю. И наши постеры для будут больше, чем их предыдущие. Причина этого заключается в том, что в байесовских рассуждениях отсутствие доказательств является доказательством отсутствия. Каждый раз, когда у нас есть возможность, мы могли бы сделать наблюдение, которое уменьшило бы нашу вероятность, но нет, вероятность увеличивается. Поскольку мы могли видеть , что установило бы наши постеры для на ноль, тот факт, что мы этого не видели, означает, что мы должны увеличить наши постеры для13 N= 10 , 13 , 15 N= 10 N= 13 , 15 1616 N= 13 , 15 N= 13 , 15 . Но обратите внимание, что чем меньше число, тем больше чисел, которые мы могли бы увидеть, исключило бы это число. Для , то мы бы отвергли эту гипотезу после просмотра . Но для нам бы понадобилось как минимум чтобы отклонить гипотезу. Поскольку гипотеза является более фальсифицируемой, чем , тот факт, что мы не фальсифицировали является большим доказательством для , чем отсутствие фальсификации является доказательством для .N= 13 14 , 15 , 16 , . , , N= 15 16 N= 13 N= 15 N = 13 N = 13 N = 15 N = 15N= 13 N= 13 N= 15 N= 15
Поэтому каждый раз, когда мы видим точку данных, она устанавливает заднюю часть всего, что ниже нее, на ноль и увеличивает заднюю часть всего остального, причем меньшие числа получают наибольшее усиление. Таким образом, число, которое получает общее наибольшее усиление, будет наименьшим числом, апостериорное значение которого не было установлено равным нулю, то есть максимальным значением наблюдений.
Числа, меньшие максимального, влияют на то, насколько большим будет усиление, которое получает максимум, но это не влияет на общую тенденцию максимального получения максимального усиления. Рассмотрим приведенный выше пример, где мы уже видели . Если следующий номер, который мы видим, равен , какой эффект это даст? Выручает больше, чем , но оба числа уже были отклонены, так что это не имеет значения. Это помогает больше, чем , но уже помогло больше, чем , так что это не влияет на то, какое число помогло больше всего.13 5 5 6 13 15 13 15
источник