Eu tenho um DataFrame do Pandas e quero combinar as colunas 'lat' e 'long' para formar uma tupla.
<class 'pandas.core.frame.DataFrame'>
Int64Index: 205482 entries, 0 to 209018
Data columns:
Month 205482 non-null values
Reported by 205482 non-null values
Falls within 205482 non-null values
Easting 205482 non-null values
Northing 205482 non-null values
Location 205482 non-null values
Crime type 205482 non-null values
long 205482 non-null values
lat 205482 non-null values
dtypes: float64(4), object(5)
O código que tentei usar era:
def merge_two_cols(series):
return (series['lat'], series['long'])
sample['lat_long'] = sample.apply(merge_two_cols, axis=1)
No entanto, isso retornou o seguinte erro:
---------------------------------------------------------------------------
AssertionError Traceback (most recent call last)
<ipython-input-261-e752e52a96e6> in <module>()
2 return (series['lat'], series['long'])
3
----> 4 sample['lat_long'] = sample.apply(merge_two_cols, axis=1)
5
...
AssertionError: Block shape incompatible with manager
Como posso resolver este problema?
list
. Isso deve funcionar:df['new_col'] = list(zip(df.lat, df.long))
list(zip(df.lat, df.long))
em 124ms é muito mais eficiente do quedf[['lat', 'long']].apply(tuple, axis=1)
em 14,2 s para linhas de 900k. A relação é mais do que 100.df['new_col'] = list(zip(df[cols_to_keep]))
mas continuo recebendo um erro:Length of values does not match length of index
algum conselho?df['new_col'] = list(zip(*[df[c] for c in cols_to_keep])
fonte
O Pandas tem o
itertuples
método para fazer exatamente isso:fonte
Eu gostaria de adicionar
df.values.tolist()
. (contanto que você não se importe em obter uma coluna de listas em vez de tuplas)fonte
%timeit df[['a', 'b']].values.tolist()
. Ainda é muito mais rápido.