Как получить доступ к соответствующему фрейму данных groupby в объекте groupby по ключу?
Со следующей группой:
rand = np.random.RandomState(1)
df = pd.DataFrame({'A': ['foo', 'bar'] * 3,
'B': rand.randn(6),
'C': rand.randint(0, 20, 6)})
gb = df.groupby(['A'])
Я могу пройти через это, чтобы получить ключи и группы:
In [11]: for k, gp in gb:
print 'key=' + str(k)
print gp
key=bar
A B C
1 bar -0.611756 18
3 bar -1.072969 10
5 bar -2.301539 18
key=foo
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
Я хотел бы иметь возможность получить доступ к группе по ее ключу:
In [12]: gb['foo']
Out[12]:
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
Но когда я пытаюсь сделать это с помощью, gb[('foo',)]
я получаю эту странную pandas.core.groupby.DataFrameGroupBy
объектную вещь, которая, кажется, не имеет никаких методов, соответствующих DataFrame, который я хочу.
Лучшее, что я мог придумать, это:
In [13]: def gb_df_key(gb, key, orig_df):
ix = gb.indices[key]
return orig_df.ix[ix]
gb_df_key(gb, 'foo', df)
Out[13]:
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
но это отчасти неприятно, учитывая, насколько хороши панды в таких вещах.
Какой встроенный способ сделать это?
groups = dict(list(gb))
только хранилище столбцаC
? Допустим, меня не интересуют другие столбцы, и поэтому я не хочу их хранить.dict(list( df.groupby(['A'])['C'] ))
dict(iter(g))
. (хотяget_group
это лучший способ / поскольку он не включает создание словаря / держит вас в пандах!: D)gb_dict = {str(indx): str(val) for indx in gb.indx for val in gb.some_key}
и затем получить значение черезgb_dict[some_key]
get_group()
, этот рецепт не был необходим в течение многих лет.Скорее, чем
Я предпочитаю использовать
gb.groups
Потому что таким образом вы можете выбрать несколько столбцов. например:
источник
gb[["A", "B"]].get_group("foo")
.Если вы ищете селективные объекты groupby, выполните: gb_groups.keys () и введите нужный ключ в следующий список ключей.
источник
Я искал способ попробовать несколько членов GroupBy obj - должен был ответить на опубликованный вопрос, чтобы сделать это.
создать групповой объект
выбрать N датафреймов и захватить их признаки
захватить группы
по желанию - превратить все это обратно в один объект данных
источник
sampled_df_i = random.sample(grouped.indicies, N)
AttributeError: 'DataFrameGroupBy' object has no attribute 'indicies'