( Это относится к моему вопросу программирования о переполнении стека : гауссовский алгоритм кривой Белла (Python и / или C #) .)
На Answers.com я нашел этот простой пример:
- Найти среднее арифметическое (среднее) => Сумма всех значений в наборе, деленная на количество элементов в наборе
- Найти сумму квадратов всех значений в наборе
- Разделите вывод (2) на количество элементов в наборе
- Вычтите квадрат среднего (1) из результата (3)
- Возьмите квадратный корень из результата (4)
Пример: установить A = {1,3,4,5,7}
- (1 + 3 + 4 + 5 + 7) / 5 = 4
- (1 * 1 + 3 * 3 + 4 * 4 + 5 * 5 + 7 * 7) = 1 + 9 + 16 + 25 + 49 = 100
- 100/5 = 20
- 20 - 4 * 4 = 20-16 = 4
- SQRT (4) = 2
(Это из поста на wiki.answers.com .)
Теперь, учитывая все это, как я могу подогнать вышеуказанные данные к кривой колокольчика (такой как кредитный балл) в диапазоне от 200 до 800. Очевидно, что число 5 в приведенном выше наборе будет 500. Но тогда какова формула для определения того, что 3 должно быть в том же масштабе. Несмотря на то, что исходный набор Set A = {1,3,4,5,7} не является кривой колокольчика, я хочу привести его к кривой колокольчика.
Представьте, что это оценки 5 человек. В следующем месяце оценки могут измениться следующим образом: сет A2={1,2,4,5,9}
(один парень теряет очко, а главный получает еще два очка - богатые становятся богаче, а бедные - беднее). Тогда возможно новый парень входит в набор: Сет A3={1,2,4,5,8,9}
.
источник
Ответы:
Масштабированный диапазон , например, от 200 до 800 ( например , для спутниковых спутников ), представляет собой просто изменение единиц измерения . (Это работает точно так же, как изменение температуры в градусах Фаренгейта по сравнению с градусами Цельсия.)
Среднее значение 500 соответствует среднему значению данных. Предполагается, что диапазон соответствует примерно 99,7% данных, когда данные соответствуют нормальному распределению («кривая Белла»). Он гарантированно включить 8/9 данных ( неравенство Чебышева ).
В этом случае формула 1-5 вычисляет стандартное отклонение данных. Это просто новая единица измерения для исходных данных. Это должно соответствовать 100 единицам в новом масштабе. Поэтому, чтобы преобразовать исходное значение в масштабированное значение,
Вычтите среднее.
Разделите на стандартное отклонение.
Умножьте на 100.
Добавьте 500.
Этот подход « нормального подсчета » всегда будет давать оценки от 200 до 800, если у вас есть 370 или меньше значений. Если у вас 1111 или меньше значений, все, кроме самого высокого и самого низкого значения, будут иметь баллы от 200 до 800.
источник
Если обратиться к исходному вопросу о SO и проблеме масштабируемости, преимущество этого подхода состоит в том, что при условии, что любая новая точка данных сама по себе не является новым максимумом или минимумом для набора данных в целом, вы можете применить вышеуказанные вычисления к новой точке данных. получить оценку от 200 до 800, не влияя ни на одну из существующих оценок исходного набора данных. Если новая точка данных является новым максимумом или минимумом, вам придется пересчитать оценки для всего набора данных с этим новым «нормализующим» максимальным или минимальным значением.
источник