Исходя из области компьютерного зрения, я часто использовал метод RANSAC (Random Sample Consensus) для подгонки моделей к данным с большим количеством выбросов.
Тем не менее, я никогда не видел, чтобы он использовался статистиками, и у меня всегда было впечатление, что его не считают «статистически обоснованным» методом. Почему это так? Это случайный характер, что затрудняет анализ, но так же как и методы начальной загрузки.
Или это просто случай, когда академические бункеры не разговаривают друг с другом?
Ответы:
Я думаю, что ключевым моментом здесь является отбрасывание большой части данных в RANSAC.
В большинстве статистических приложений некоторые распределения могут иметь тяжелые хвосты, и поэтому небольшие числа выборок могут искажать статистическую оценку. Надежные оценки решают эту проблему, взвешивая данные по-разному. RANSAC, с другой стороны, не пытается приспособиться к выбросам, он создан для случаев, когда точки данных действительно не принадлежат, а не просто распределены ненормально.
источник
Для нас это всего лишь один пример сильной регрессии - я полагаю, что она используется и статистиками, но, возможно, не так широко, потому что у нее есть некоторые более известные альтернативы.
источник
Это очень похоже на упаковку, которая часто используется.
источник
Вы отбрасываете данные с помощью RANSAC, возможно, не оправдывая их, но основываясь на увеличении соответствия модели. Отбрасывание данных для увеличения соответствия обычно избегается, поскольку вы можете потерять важные данные. Удаление выбросов без обоснования всегда проблематично.
Конечно, это можно оправдать. Например, если вы знаете, что данные должны следовать заданному шаблону, но также имеются отклонения в данных от шаблона из-за ошибки в измерениях.
источник