Question

我将尝试代表我的问题，基于的简单示例。我有的主 csv，我试图根据列标题拆分为 2 个或更多 csv，在每个 csv 文件中保持唯一的列 ID 不变。

是 code 我试图找出，但不太得到的结果。

import pandas as pd
df = pd.read_csv('abc.csv')
df[['id','name','age']] = df['csv1'].str.split(' ', expand=True)
csv
       id     name      age    color  Gender
0     101     Jack      23     white    M
1     102     Mary      25     black    F
2     103     Tom       24     brown    M

所需输出

csv1
       id     name    age
0     101     Jack    23
1     102     Mary    25
2     103     Tom     24 
csv2 -
       id   color  Gender
0     101   white    M
1     102   black    F
2     103   brown    M

0

Answer 1

更新
我发现了一个更好的 apporach 与np.array_split

我用这个例子 df：

               x     y          R         TR       x_c      y_c         yyy         RRR        TTTR      _c     yyy_c
id                                                                                                                         
1256780.0  13989  6241   6.689222  20.986341  14050.83  6315.33  213989  36241   46.689222  520.986341  614050.83  76315.33
12000.0    14013  6278  53.152036   0.000000  14060.00  6288.00  214013  36278  453.152036    5.000000  614060.00  76288.00
1100.0     14111  6379  87.598357   5.000000  14070.55  7000.00  214111  36379  487.598357   55.000000  614070.55  76288.00

它有 12 列。

# the 4 means, split the df into 4 evenly sized chunks
chunks = np.array_split(df,4, axis=1)

Chunks是包含所有单独数据帧的列表。输出：

# chunks[0]
                 x       y          R
id                                   
1256780.0  13989.0  6241.0   6.689222
12000.0    14013.0  6278.0  53.152036
1100.0     14111.0  6379.0  87.598357
# chunks[1]
                  TR       x_c      y_c
id                                     
1256780.0  20.986341  14050.83  6315.33
12000.0     0.000000  14060.00  6288.00
1100.0      5.000000  14070.55  7000.00
# chunks[2]
                      yyy         RRR
id                                      
1256780.0  213989.0  36241.0   46.689222
12000.0    214013.0  36278.0  453.152036
1100.0     214111.0  36379.0  487.598357
# chunks[3]
                 TTTR      _c     yyy_c
id                                        
1256780.0  520.986341  614050.83  76315.33
12000.0      5.000000  614060.00  76288.00
1100.0      55.000000  614070.55  76288.00

旧答案：

您可以计算一半的列，然后使用iloc将数据框分成两部分。

df = df.set_index('id')
half = len(df.columns)//2
df1, df2 = df.iloc[:,:half], df.iloc[:,half:]
df1 = df1.reset_index()
df2 = df2.reset_index()

输出：

#df1
    id  name  age
0  101  Jack   23
1  102  Mary   25
2  103   Tom   24
#df2
    id  color Gender
0  101  white      M
1  102  black      F
2  103  brown      M