Несколько вопросов о статистической случайности

15

Из статистической случайности Википедии :

Глобальная случайность и локальная случайность различны. Большинство философских концепций случайности являются глобальными, потому что они основаны на идее, что «в долгосрочной перспективе» последовательность выглядит действительно случайной, даже если некоторые подпоследовательности не будут выглядеть случайными. Например, в «действительно» случайной последовательности чисел достаточной длины, вероятно, будут длинные последовательности, состоящие только из нулей, хотя в целом последовательность может быть случайной. Локальная случайность относится к идее, что могут быть минимальные длины последовательностей, при которых случайные распределения аппроксимируются.Длинные отрезки тех же цифр, даже те, которые генерируются «по-настоящему» случайными процессами, уменьшат «локальную случайность» выборки (она может быть только локально случайной для последовательностей из 10 000 цифр; взятие последовательностей менее чем 1000 может не показаться случайным вообще, например).

Последовательность, демонстрирующая паттерн, не является статистически случайной. Согласно принципам теории Рамсея, достаточно крупные объекты обязательно должны содержать данную подструктуру («полный беспорядок невозможен»).

Я не совсем понимаю значения двух предложений, выделенных жирным шрифтом.

  1. Означает ли первое предложение, что что-то делает последовательность локальной случайной на большей длине, а не локальной случайной на меньшей длине?

    Как работает пример в скобках?

  2. Означает ли второе предложение, что последовательность, демонстрирующая шаблон, не может быть статистически случайной? Почему?

Благодарность

Тим
источник
1
хороший вопрос. Я нахожу этот текст немного сбивающим с толку. Я бы подумал, что является ли последовательность случайной или нет, это связано с тем, как она генерируется; не то, что результат. Я подозреваю, что здесь есть лингвистическая проблема - для меня случайный означает, как он генерируется; для здравого смысла (и, возможно, менее ясных философов?) это о чем-то, что кажется беспорядочным?
Питер Эллис
3
@ Питер, вам может быть трудно даже определить случайность, если вы можете ссылаться только на механизм генерации. В конечном счете, поскольку вся полезность случайных последовательностей заключается в числах, которые они содержат - а не в том, как эти числа были получены - должен быть способ определять и проверять случайность исключительно в терминах последовательностей, не так ли?
whuber
1
Конечно, я согласен, что вы можете проверить случайность по ее результатам - на достоверность случайности, не стремясь к доказательству этого. Мне, вероятно, нужно больше прочесть и подумать о философских проблемах определения, основанного на поколении.
Питер Эллис
Я думаю, что случайность - это просто синоним неизвестного. Я тоже нахожу это предложение странным
вероятностный
2
Дилберт
Генри

Ответы:

15

Концепция может быть аккуратно проиллюстрирована некоторым исполняемым кодом. Мы начинаем (in R) с использования хорошего генератора псевдослучайных чисел для создания последовательности из 10 000 нулей и единиц:

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

Это проходит некоторые основные тесты случайных чисел. Например, Т-тест для сравнения среднего значения в имеет р-значение 40.09 %, что позволяет принять гипотезу о том , что нули и единицы равновероятно.1/240,09

Из этих чисел мы продолжаем извлекать подпоследовательность из последовательных значений, начиная с 5081-го значения:1000

x0 <- x[1:1000 + 5080]

Если они выглядят случайными, они также должны пройти те же тесты случайных чисел. Например, давайте проверим, является ли их среднее значение 1/2:

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041 

Низкое значение р (менее 1%) наводит на мысль , среднее значительно больше , чем . Действительно, накопленная сумма этой подпоследовательности имеет сильную тенденцию к росту:1/2

> plot(cumsum(x0-1/2))

Случайная прогулка?

Это не случайное поведение!

Сравнение исходной последовательности (отложенной в виде кумулятивной суммы) с этой подпоследовательностью показывает, что происходит:

Случайная прогулка

9000


Как показали эти простые анализы, ни один тест не может «доказать», что последовательность выглядит случайной. Все, что мы можем сделать, это проверить, достаточно ли отклоняются последовательности от поведения, ожидаемого от случайных последовательностей, чтобы предоставить доказательства того, что они не случайны. Вот как работают батареи тестов случайных чисел : они ищут шаблоны, которые вряд ли возникнут в последовательностях случайных чисел. Время от времени они заставляют нас делать вывод, что действительно случайная последовательность чисел не выглядит случайной: мы отвергаем ее, пытаясь что-то еще.

В долгосрочной перспективе, тем не менее - так же, как мы все мертвы - любой генератор действительно случайных чисел будет генерировать каждую возможную последовательность из 1000 цифр, и это будет происходить бесконечно много раз. Что спасает нас от логического затруднения, так это то, что нам пришлось бы ждать очень долго, чтобы произошла такая очевидная аберрация.

Whuber
источник
Благодарность! Смежный вопрос: при проверке случайности псевдослучайных чисел, генерируемых некоторыми методами, означает ли случайность равномерное распределение? Другими словами, проводится ли тестирование на случайность только для тестирования равномерных распределений? Я спросил об этом, потому что эти более предвзятые распределения кажутся мне менее случайными.
Тим
@Tim: нет, есть много общих тестов для гауссовской случайности, и должно быть возможно построить тесты для любого распределения.
naught101
1
[0,1)
2
Я могу почти «посмотреть» вверху ответа и сказать «Вубер» :) Очень приятно!
кандидат наук
2

В этом отрывке используются термины «локальная случайность» и «глобальная случайность», чтобы различать, что может происходить с конечным числом выборок случайной величины, и распределение вероятности или ожидание случайной величины.

Икся{0,1}θθИтN1NΣязнак равно1NИксязнак равноθ

[0,1][a,б]0a<б1θ

Здесь нет ничего нового.

N

Таким образом, я бы не сжег слишком много клеток мозга, думая об этом отрывке. Это не математически так точно и на самом деле вводит в заблуждение о природе случайности.

Редактировать на основе комментария: @kjetilbhalvorsen +1 к вашему комментарию для исторических знаний. Тем не менее, я все еще думаю, что ценность этих терминов ограничена и вводит в заблуждение. Таблицы, которые вы описываете, по-видимому, вводят в заблуждение, что маленькие выборки, которые имеют, например, выборку, означают далекие от фактического ожидаемого значения или, возможно, невероятную, но, безусловно, возможную длинную последовательность повторяющихся нулей (в моем примере Бернулли), как-то демонстрируют меньше случайности (говоря, что они не демонстрируют эту фальшивую «локальную случайность»). Я не могу придумать ничего более вводящего в заблуждение для начинающего статистика!

Крис А.
источник
Хотя «глобальная случайность» кажется своеобразной, «локальная случайность» имеет историю не менее 20 лет. См. Например , isiweb.ee.ethz.ch/papers/arch/umaure-mass-inspec-1991-1.pdf .
whuber
NN
2
Я помню, я иногда читал это: во времена, когда люди публиковали книги с таблицами «случайных чисел», которые будут использоваться для моделирования, экспериментов и т. Д., Некоторые из них помечали части таблиц как пригодные для использования в небольших симуляциях (демонстрируя «местные»). "случайность") и другие части, которые должны использоваться только для больших симуляций (демонстрирующих "глобальную случайность"). Таким образом, концепции, кажется, указывают на что-то ценное!
kjetil b halvorsen
1
Извините, я не могу вспомнить, где я это прочитал. Но это почти очевидно: помимо философских проблем определения случайности, если у вас очень маленькие симуляции, где вам нужно 1000 случайных чисел, и ваш высококачественный генератор случайных чисел дает вам 1000 нулей, ¿Что вы делаете? Несмотря на то, что такие вхождения возможны и действительно необходимы в «действительно случайной» последовательности, ваша симуляция разрушена!
kjetil b halvorsen
1
Спасибо, ребята, я был, возможно, слишком резок в своем осуждении. Я немного поменяю язык этого.
Крис А.
-1

Я думаю, что авторы поста в Википедии неправильно истолковывают случайность. Да, могут быть отрезки, которые кажутся не случайными, но если процесс, который создал последовательность, действительно случайный, то должен быть вывод. Если определенные последовательности оказываются неслучайными, это ошибочное восприятие читателя (то есть люди предназначены для поиска закономерностей). Наша способность видеть Большую Медведицу, Ориона и т. Д. В ночном небе не является доказательством того, что картины звезд неслучайны. Я согласен, что случайность часто оказывается неслучайной. Если процесс генерирует действительно неслучайные шаблоны для коротких последовательностей, это не случайный процесс.

Я не думаю, что процесс меняется при разных размерах выборки. Вы увеличиваете размер выборки, вы увеличиваете вероятность того, что мы увидим случайную последовательность, которая нам кажется неслучайной. Если есть вероятность 10%, что мы увидим схему в 20 случайных наблюдениях, увеличение общего количества наблюдений до 10000 увеличит вероятность того, что где-нибудь мы увидим неслучайность.

Паурит
источник
2
«Если процесс генерирует действительно неслучайные шаблоны для коротких последовательностей, это не случайный процесс», я боюсь, это совершенно неправильно. Например, в любых 100 оборотах честной монеты мы ожидаем увидеть шесть голов или шесть хвостов подряд - и это «действительно неслучайный образец короткой последовательности» почти по любому значению «случайный». " Я подозреваю, что вы хотели написать что-то, что требует более тщательной квалификации, например, применять «все» перед «короткими последовательностями».
whuber
В самом деле? Я бы подумал , что, так как один ожидает , чтобы увидеть строки головы хвостами от генератора случайных чисел, что , когда мы видим его, мы не должны удивляться. Почему считать это неслучайным? Если бы у одного был генератор чисел, который сделал 100 переворотов, и он целенаправленно избегал 4 или более голов или хвостов подряд, он выглядел бы более случайным, чем действительно случайный процесс, но на самом деле он был бы неслучайным. Наивным взглядом на случайность является отсутствие всех шаблонов, но это было бы неслучайно.
Паурит
Ваш комментарий правильный, но изложение в вашем ответе неясно и даже противоречиво по этому вопросу. Попробуйте объяснить более точно, что вы имеете в виду, например, путем генерации «действительно неслучайных шаблонов для коротких последовательностей» или того, что означает «видеть неслучайность».
whuber
Я не вижу противоречия. Вы, кажется, думаете, что случайные генераторы создают неслучайные шаблоны. Это противоречие. Вы утверждаете, что действительно случайные процессы будут генерировать неслучайные наблюдения. То, что вы описываете, - это некие названия, называемые «иллюзией кластеризации», то есть тенденцией неправильно воспринимать кластеры из случайных распределений. Все, что я говорю, это то, что если процесс создает неслучайные наблюдения, то это не случайно. Вы утверждаете, что ожидаете, что случайный процесс создаст строки неслучайных наблюдений, но вы называете это неслучайным. Классический пример Апофении.
Паурит
1
Трудно вести разговор с собеседником, который неверно оценивает свою позицию, поэтому я преклонюсь перед этим. Сожалею.
whuber