Конкатенация строк двух столбцов панд

90

У меня есть следующее DataFrame:

from pandas import *
df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]})

Выглядит это так:

    bar foo
0    1   a
1    2   b
2    3   c

Теперь я хочу иметь что-то вроде:

     bar
0    1 is a
1    2 is b
2    3 is c

Как я могу этого добиться? Я пробовал следующее:

df['foo'] = '%s is %s' % (df['bar'], df['foo'])

но это дает мне неправильный результат:

>>>print df.ix[0]

bar                                                    a
foo    0    a
1    b
2    c
Name: bar is 0    1
1    2
2
Name: 0

Извините за глупый вопрос, но эта панды: объединение двух столбцов в DataFrame мне не помогло.

нац
источник

Ответы:

71

На этот вопрос уже был дан ответ, но я считаю, что было бы хорошо добавить несколько полезных методов, которые ранее не обсуждались, и сравнить все методы, предложенные на данный момент, с точки зрения производительности.

Вот несколько полезных решений этой проблемы в порядке увеличения производительности.


DataFrame.agg

Это простой str.formatподход.

df['baz'] = df.agg('{0[bar]} is {0[foo]}'.format, axis=1)
df
  foo  bar     baz
0   a    1  1 is a
1   b    2  2 is b
2   c    3  3 is c

Здесь также можно использовать форматирование f-строки:

df['baz'] = df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1)
df
  foo  bar     baz
0   a    1  1 is a
1   b    2  2 is b
2   c    3  3 is c

char.arrayконкатенация на основе

Преобразуйте столбцы, чтобы chararraysобъединить их как , а затем сложите их вместе.

a = np.char.array(df['bar'].values)
b = np.char.array(df['foo'].values)

df['baz'] = (a + b' is ' + b).astype(str)
df
  foo  bar     baz
0   a    1  1 is a
1   b    2  2 is b
2   c    3  3 is c

Составьте список сzip

Я не могу переоценить, насколько недооценено понимание списков в пандах.

df['baz'] = [str(x) + ' is ' + y for x, y in zip(df['bar'], df['foo'])]

В качестве альтернативы, использование str.joinдля concat (также будет лучше масштабироваться):

df['baz'] = [
    ' '.join([str(x), 'is', y]) for x, y in zip(df['bar'], df['foo'])]

df
  foo  bar     baz
0   a    1  1 is a
1   b    2  2 is b
2   c    3  3 is c

Понимание списков превосходит манипуляции со строками, потому что строковые операции по своей природе трудно векторизовать, а большинство «векторизованных» функций pandas в основном являются оболочками вокруг циклов. Я много писал об этой теме в цикле For с пандами - когда мне это нужно? . В общем, если вам не нужно беспокоиться о выравнивании индекса, используйте понимание списка при работе со строками и операциями регулярных выражений.

Приведенный выше список по умолчанию не обрабатывает NaN. Однако вы всегда можете написать функцию, оборачивающую попытку, кроме случаев, когда вам нужно ее обработать.

def try_concat(x, y):
    try:
        return str(x) + ' is ' + y
    except (ValueError, TypeError):
        return np.nan


df['baz'] = [try_concat(x, y) for x, y in zip(df['bar'], df['foo'])]

perfplot Измерения производительности

введите описание изображения здесь

График, созданный с помощью perfplot . Вот полный листинг кода .

Функции

def brenbarn(df):
    return df.assign(baz=df.bar.map(str) + " is " + df.foo)

def danielvelkov(df):
    return df.assign(baz=df.apply(
        lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1))

def chrimuelle(df):
    return df.assign(
        baz=df['bar'].astype(str).str.cat(df['foo'].values, sep=' is '))

def vladimiryashin(df):
    return df.assign(baz=df.astype(str).apply(lambda x: ' is '.join(x), axis=1))

def erickfis(df):
    return df.assign(
        baz=df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1))

def cs1_format(df):
    return df.assign(baz=df.agg('{0[bar]} is {0[foo]}'.format, axis=1))

def cs1_fstrings(df):
    return df.assign(baz=df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1))

def cs2(df):
    a = np.char.array(df['bar'].values)
    b = np.char.array(df['foo'].values)

    return df.assign(baz=(a + b' is ' + b).astype(str))

def cs3(df):
    return df.assign(
        baz=[str(x) + ' is ' + y for x, y in zip(df['bar'], df['foo'])])
cs95
источник
4
Это все, что я всегда хотел знать о конкатенации строк в пандах, но боялся спросить!
IanS
Не могли бы вы обновить график до следующего уровня 10 4 (или даже выше), быстрый визуальный ответ с текущим графиком, ограниченным до 10 3 (1000, что очень мало для сегодняшних условий), заключается в том, что cs3 является лучшим, в конечном итоге, когда вы увидите brenbarn выглядит менее экспоненциально, чем cs3, поэтому, скорее всего, для большого набора данных brenbarn - лучший (более быстрый) ответ.
Велизар ВЕССЕЛИНОВ
1
@VelizarVESSELINOV Обновлено! Что меня удивляет, так это то, что объединение numpy медленнее, чем объединение списков и pandas.
cs95
1
Вы рассматривали возможность использования df['bar'].tolist()и df['foo'].tolist()в cs3()? Я предполагаю, что это немного увеличит «базовое» время, но будет лучше масштабироваться.
shadowtalker
44

Проблема в вашем коде в том, что вы хотите применить операцию к каждой строке. Однако способ, которым вы это написали, берет целые столбцы bar и foo, преобразует их в строки и возвращает вам одну большую строку. Вы можете написать это так:

df.apply(lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1)

Он длиннее, чем другой ответ, но является более общим (может использоваться со значениями, не являющимися строками).

Даниэль
источник
13

Вы также можете использовать

df['bar'] = df['bar'].str.cat(df['foo'].values.astype(str), sep=' is ')
chrimuelle
источник
1
Это не работает, поскольку df ['bar'] не является строковым столбцом. Правильное назначение df['bar'] = df['bar'].astype(str).str.cat(df['foo'], sep=' is ').
cbrnr
8
df.astype(str).apply(lambda x: ' is '.join(x), axis=1)

0    1 is a
1    2 is b
2    3 is c
dtype: object
Владимир Яшин
источник
Этот ответ также работает с неопределенным количеством столбцов (> 1) и неопределенными именами столбцов, что делает его более полезным, чем остальные.
johnDanger
5

series.str.cat это наиболее гибкий способ решения этой проблемы:

За df = pd.DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]})

df.foo.str.cat(df.bar.astype(str), sep=' is ')

>>>  0    a is 1
     1    b is 2
     2    c is 3
     Name: foo, dtype: object

ИЛИ ЖЕ

df.bar.astype(str).str.cat(df.foo, sep=' is ')

>>>  0    1 is a
     1    2 is b
     2    3 is c
     Name: bar, dtype: object

Что наиболее важно (и в отличие от .join()), это позволяет игнорировать или заменять Nullзначения na_repпараметром.

johnDanger
источник
.join()меня смущает почему эта функциональность не обернута
johnDanger
4

@DanielVelkov ответ правильный, НО использование строковых литералов быстрее:

# Daniel's
%timeit df.apply(lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1)
## 963 µs ± 157 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# String literals - python 3
%timeit df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1)
## 849 µs ± 4.28 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
Эрикфис
источник