Возьмите следующий фрейм данных:
x = np.tile(np.arange(3),3)
y = np.repeat(np.arange(3),3)
df = pd.DataFrame({"x": x, "y": y})
x y
0 0 0
1 1 0
2 2 0
3 0 1
4 1 1
5 2 1
6 0 2
7 1 2
8 2 2
Мне нужно отсортировать его x
сначала и только вторым y
:
df2 = df.sort(["x", "y"])
x y
0 0 0
3 0 1
6 0 2
1 1 0
4 1 1
7 1 2
2 2 0
5 2 1
8 2 2
Как мне изменить индекс, чтобы он снова увеличивался. Т.е. как мне это получить:
x y
0 0 0
1 0 1
2 0 2
3 1 0
4 1 1
5 1 2
6 2 0
7 2 1
8 2 2
Я пробовал следующее. К сожалению, это вообще не меняет индекс:
df2.reindex(np.arange(len(df2.index)))
df.sort(["x", "y"], ignore_index=True, inplace=True)
Ответы:
Вы можете сбросить индекс, используя,
reset_index
чтобы вернуть индекс по умолчанию 0, 1, 2, ..., n-1 (и использовать,drop=True
чтобы указать, что вы хотите удалить существующий индекс вместо добавления его в качестве дополнительного столбца в свой фрейм данных) :In [19]: df2 = df2.reset_index(drop=True) In [20]: df2 Out[20]: x y 0 0 0 1 0 1 2 0 2 3 1 0 4 1 1 5 1 2 6 2 0 7 2 1 8 2 2
источник
df.sort()
устарела, используйтеdf.sort_values(...)
: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.htmlЗатем следуйте ответу Джориса, выполнив
df.reset_index(drop=True)
источник
Поскольку в pandas 1.0.0
df.sort_values
появился новый параметр,ignore_index
который делает именно то, что вам нужно:In [1]: df2 = df.sort_values(by=['x','y'],ignore_index=True) In [2]: df2 Out[2]: x y 0 0 0 1 0 1 2 0 2 3 1 0 4 1 1 5 1 2 6 2 0 7 2 1 8 2 2
источник
Вы можете установить новые индексы, используя
set_index
:Выход:
x y 0 0 0 1 0 1 2 0 2 3 1 0 4 1 1 5 1 2 6 2 0 7 2 1 8 2 2
источник
reset_index()
вместо этого