На этот вопрос уже был дан ответ, но я считаю, что было бы хорошо добавить несколько полезных методов, которые ранее не обсуждались, и сравнить все методы, предложенные на данный момент, с точки зрения производительности.
Вот несколько полезных решений этой проблемы в порядке увеличения производительности.
Это простой str.format
подход.
df['baz'] = df.agg('{0[bar]} is {0[foo]}'.format, axis=1)
df
foo bar baz
0 a 1 1 is a
1 b 2 2 is b
2 c 3 3 is c
Здесь также можно использовать форматирование f-строки:
df['baz'] = df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1)
df
foo bar baz
0 a 1 1 is a
1 b 2 2 is b
2 c 3 3 is c
char.array
конкатенация на основе
Преобразуйте столбцы, чтобы chararrays
объединить их как , а затем сложите их вместе.
a = np.char.array(df['bar'].values)
b = np.char.array(df['foo'].values)
df['baz'] = (a + b' is ' + b).astype(str)
df
foo bar baz
0 a 1 1 is a
1 b 2 2 is b
2 c 3 3 is c
Я не могу переоценить, насколько недооценено понимание списков в пандах.
df['baz'] = [str(x) + ' is ' + y for x, y in zip(df['bar'], df['foo'])]
В качестве альтернативы, использование str.join
для concat (также будет лучше масштабироваться):
df['baz'] = [
' '.join([str(x), 'is', y]) for x, y in zip(df['bar'], df['foo'])]
df
foo bar baz
0 a 1 1 is a
1 b 2 2 is b
2 c 3 3 is c
Понимание списков превосходит манипуляции со строками, потому что строковые операции по своей природе трудно векторизовать, а большинство «векторизованных» функций pandas в основном являются оболочками вокруг циклов. Я много писал об этой теме в цикле For с пандами - когда мне это нужно? . В общем, если вам не нужно беспокоиться о выравнивании индекса, используйте понимание списка при работе со строками и операциями регулярных выражений.
Приведенный выше список по умолчанию не обрабатывает NaN. Однако вы всегда можете написать функцию, оборачивающую попытку, кроме случаев, когда вам нужно ее обработать.
def try_concat(x, y):
try:
return str(x) + ' is ' + y
except (ValueError, TypeError):
return np.nan
df['baz'] = [try_concat(x, y) for x, y in zip(df['bar'], df['foo'])]
perfplot
Измерения производительности
График, созданный с помощью perfplot . Вот полный листинг кода .
Функции
def brenbarn(df):
return df.assign(baz=df.bar.map(str) + " is " + df.foo)
def danielvelkov(df):
return df.assign(baz=df.apply(
lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1))
def chrimuelle(df):
return df.assign(
baz=df['bar'].astype(str).str.cat(df['foo'].values, sep=' is '))
def vladimiryashin(df):
return df.assign(baz=df.astype(str).apply(lambda x: ' is '.join(x), axis=1))
def erickfis(df):
return df.assign(
baz=df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1))
def cs1_format(df):
return df.assign(baz=df.agg('{0[bar]} is {0[foo]}'.format, axis=1))
def cs1_fstrings(df):
return df.assign(baz=df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1))
def cs2(df):
a = np.char.array(df['bar'].values)
b = np.char.array(df['foo'].values)
return df.assign(baz=(a + b' is ' + b).astype(str))
def cs3(df):
return df.assign(
baz=[str(x) + ' is ' + y for x, y in zip(df['bar'], df['foo'])])
df['bar'].tolist()
иdf['foo'].tolist()
вcs3()
? Я предполагаю, что это немного увеличит «базовое» время, но будет лучше масштабироваться.Проблема в вашем коде в том, что вы хотите применить операцию к каждой строке. Однако способ, которым вы это написали, берет целые столбцы bar и foo, преобразует их в строки и возвращает вам одну большую строку. Вы можете написать это так:
df.apply(lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1)
Он длиннее, чем другой ответ, но является более общим (может использоваться со значениями, не являющимися строками).
источник
Вы также можете использовать
df['bar'] = df['bar'].str.cat(df['foo'].values.astype(str), sep=' is ')
источник
df['bar'] = df['bar'].astype(str).str.cat(df['foo'], sep=' is ')
.df.astype(str).apply(lambda x: ' is '.join(x), axis=1) 0 1 is a 1 2 is b 2 3 is c dtype: object
источник
series.str.cat
это наиболее гибкий способ решения этой проблемы:За
df = pd.DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]})
df.foo.str.cat(df.bar.astype(str), sep=' is ') >>> 0 a is 1 1 b is 2 2 c is 3 Name: foo, dtype: object
ИЛИ ЖЕ
df.bar.astype(str).str.cat(df.foo, sep=' is ') >>> 0 1 is a 1 2 is b 2 3 is c Name: bar, dtype: object
Что наиболее важно (и в отличие от
.join()
), это позволяет игнорировать или заменятьNull
значенияna_rep
параметром.источник
.join()
меня смущает почему эта функциональность не обернута@DanielVelkov ответ правильный, НО использование строковых литералов быстрее:
# Daniel's %timeit df.apply(lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1) ## 963 µs ± 157 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) # String literals - python 3 %timeit df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1) ## 849 µs ± 4.28 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
источник