В документации говорится:
http://pandas.pydata.org/pandas-docs/dev/basics.html
«Непрерывные значения могут быть дискретизированы с использованием функций cut (интервалы на основе значений) и qcut (интервалы на основе выборочных квантилей)»
Для меня это звучит очень абстрактно ... Я вижу различия в приведенном ниже примере, но что на самом деле означает / означает qcut (образец квантиля)? Когда бы вы использовали qcut вместо cut?
Спасибо.
factors = np.random.randn(30)
In [11]:
pd.cut(factors, 5)
Out[11]:
[(-0.411, 0.575], (-0.411, 0.575], (-0.411, 0.575], (-0.411, 0.575], (0.575, 1.561], ..., (-0.411, 0.575], (-1.397, -0.411], (0.575, 1.561], (-2.388, -1.397], (-0.411, 0.575]]
Length: 30
Categories (5, object): [(-2.388, -1.397] < (-1.397, -0.411] < (-0.411, 0.575] < (0.575, 1.561] < (1.561, 2.547]]
In [14]:
pd.qcut(factors, 5)
Out[14]:
[(-0.348, 0.0899], (-0.348, 0.0899], (0.0899, 1.19], (0.0899, 1.19], (0.0899, 1.19], ..., (0.0899, 1.19], (-1.137, -0.348], (1.19, 2.547], [-2.383, -1.137], (-0.348, 0.0899]]
Length: 30
Categories (5, object): [[-2.383, -1.137] < (-1.137, -0.348] < (-0.348, 0.0899] < (0.0899, 1.19] < (1.19, 2.547]]`
Ответы:
Для начала обратите внимание, что квантили - это просто самый общий термин для таких вещей, как процентили, квартили и медианы. В вашем примере вы указали пять бункеров, поэтому вы запрашиваете
qcut
квинтили.Итак, когда вы запрашиваете квинтили с
qcut
, ячейки будут выбраны так, чтобы у вас было одинаковое количество записей в каждой ячейке. У вас есть 30 записей, поэтому их должно быть по 6 в каждой ячейке (ваш результат должен выглядеть так, хотя точки останова будут отличаться из-за случайной выборки):pd.qcut(factors, 5).value_counts() [-2.578, -0.829] 6 (-0.829, -0.36] 6 (-0.36, 0.366] 6 (0.366, 0.868] 6 (0.868, 2.617] 6
И наоборот,
cut
вы увидите что-то более неравномерное:pd.cut(factors, 5).value_counts() (-2.583, -1.539] 5 (-1.539, -0.5] 5 (-0.5, 0.539] 9 (0.539, 1.578] 9 (1.578, 2.617] 2
Это потому, что
cut
будут выбраны интервалы, которые будут равномерно распределены в соответствии с самими значениями, а не с частотой этих значений. Следовательно, поскольку вы использовали случайную нормаль, вы увидите более высокие частоты во внутренних ячейках и меньшие - во внешних. По сути, это будет табличная форма гистограммы (которая, как вы ожидаете, будет иметь довольно колоколообразную форму с 30 записями).источник
cut
или вас могут больше заботить самые высокие 5% и использоватьqcut
>>> x=np.array([24, 7, 2, 25, 22, 29]) >>> x array([24, 7, 2, 25, 22, 29]) >>> pd.cut(x,3).value_counts() #Bins size has equal interval of 9 (2, 11.0] 2 (11.0, 20.0] 0 (20.0, 29.0] 4 >>> pd.qcut(x,3).value_counts() #Equal frequecy of 2 in each bins (1.999, 17.0] 2 (17.0, 24.333] 2 (24.333, 29.0] 2
источник
Таким образом, qcut обеспечивает более равномерное распределение значений в каждой ячейке, даже если они группируются в пространстве выборки. Это означает, что у вас меньше шансов иметь корзину, полную данных с очень близкими значениями, и другую корзину с 0 значениями. В общем, лучше выборка.
источник
Pd.qcut распределяет элементы массива при делении на основе ((кол-во элементов в массиве) / (кол-во бункеров - 1)), затем делит это много нет. элементов поочередно в каждую ячейку.
Pd.cut распределяет элементы массива при делении на основе ((первый + последний элемент) / (кол-во бункеров-1)), а затем распределяет элементы в соответствии с диапазоном значений, в которые они попадают.
источник