Мне нужно убедиться, что моя карта сайта XML содержит менее мусора (неработающие ссылки). Список URL исчисляется сотнями тысяч, и даже если бы можно было проверить их все 1 на 1, я бы предпочел этого не делать по многим причинам:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Поэтому я думаю, что было бы достаточно выбрать случайное подмножество, проблема в том, что я не знаю вероятностей.
Есть ли простая функция, которую я могу использовать?
Если это поможет, мы можем предположить, что у нас есть априорная информация о вероятности разрыва связи при каждом запуске. Допустим, что при каждом прогоне есть для любой данной ссылки, которая будет сломана.
Ответы:
Так что это зависит от распределения вашего предыдущего мнения о частоте поломок, но: около 3600.
Идея здесь состоит в том, чтобы смоделировать разрывы ссылок как испытание Бернулли, и смоделировать ваши убеждения о частоте разрывов как бета-распределение. Бета-версия сопряжена с дистрибутивом Бернулли , и способ обновления бета-версии при запуске пробной версии довольно прост:
Так что, если мы начнем с распределения и увидим сбои в 0,75% времени, сколько попыток потребуется для того, чтобы 95% массы распределения стали ниже 0,01? Около 3600Бета ( 0 , 0 )
источник
Для выборок с вероятностью неудачи дисперсия числа неудач равна . Таким образом, используя центральную предельную теорему, где - стандартная нормаль, Теперь мы хотим, чтобы выше было равно 95 %, что соответствует . Решая для , я получаю .N р = 0,0075 n p ( 1 - p ) Z
источник