Для точек данных, каждая из которых имеет признаков, помечены как , остальные помечены как . Каждый признак принимает значение от случайным образом (равномерное распределение). Какова вероятность того, что существует гиперплоскость, которая может разделить два класса?
Давайте сначала рассмотрим самый простой случай, т.е. .
Ответы:
Предполагая, что в данных нет дубликатов.
Еслиn ≤ d+ 1 , вероятность равна Pr = 1 .
Для других комбинаций( н , д) см. Следующий график:
Я создал этот график, имитируя входные и выходные данные, как указано в ОП. Линейная отделимость была определена как сбой сходимости в модели логистической регрессии из -за эффекта Хаука-Доннера .
Видно, что вероятность возрастает при увеличении . Фактически, мы могли бы подобрать модель, связывающую и , и это было результатом:N н , д п
Код для сюжета (у Юлии):
Код для модели, относящейся к (в Юлии):( н , д) п
источник