У меня есть DataFrame Pandas, и я хочу объединить столбцы lat и long, чтобы сформировать кортеж.
<class 'pandas.core.frame.DataFrame'>
Int64Index: 205482 entries, 0 to 209018
Data columns:
Month 205482 non-null values
Reported by 205482 non-null values
Falls within 205482 non-null values
Easting 205482 non-null values
Northing 205482 non-null values
Location 205482 non-null values
Crime type 205482 non-null values
long 205482 non-null values
lat 205482 non-null values
dtypes: float64(4), object(5)
Код, который я пытался использовать, был:
def merge_two_cols(series):
return (series['lat'], series['long'])
sample['lat_long'] = sample.apply(merge_two_cols, axis=1)
Однако это вернуло следующую ошибку:
---------------------------------------------------------------------------
AssertionError Traceback (most recent call last)
<ipython-input-261-e752e52a96e6> in <module>()
2 return (series['lat'], series['long'])
3
----> 4 sample['lat_long'] = sample.apply(merge_two_cols, axis=1)
5
...
AssertionError: Block shape incompatible with manager
Как я могу решить эту проблему?
list
. Это должно сработать:df['new_col'] = list(zip(df.lat, df.long))
list(zip(df.lat, df.long))
за 124 мс намного эффективнее, чемdf[['lat', 'long']].apply(tuple, axis=1)
за 14,2 с для 900 тыс. Строк. Соотношение больше 100.df['new_col'] = list(zip(df[cols_to_keep]))
но получаю сообщение об ошибке:Length of values does not match length of index
есть совет?df['new_col'] = list(zip(*[df[c] for c in cols_to_keep])
источник
У Pandas есть
itertuples
способ сделать именно это:источник
Хочу добавить
df.values.tolist()
. (если вы не против получить столбец списков, а не кортежи)источник
%timeit df[['a', 'b']].values.tolist()
. Это все еще намного быстрее.