合并表格要注意的是设置表格的表头,也就是是将表格第一列设置为合并表格的索引,这样合并表格的时候就会合并两个表格第一列的元素相同的行。
方法一:使用join合并
import numpy as np import pandas as pd import matplotlib as plt id1=pd.read_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/id4.csv') dba=pd.read_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/dba2.csv') id1.head() df1=id1.set_index('influencer_name') df2=dba df2=dba.set_index('influencer_name') w=df1.join(df2) w.info()
方法二:使用merge合并
import numpy as np import pandas as pd import matplotlib as plt id4=pd.read_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/id4.csv') dba=pd.read_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/dba2.csv') id4.head() df1=id4.set_index('influencer_name') df2=dba df2=dba.set_index('influencer_name') df3 = pd.merge(df1,df2,how='inner',on='influencer_name') print(df3) df3.to_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/alldataexceptyear.csv')
以上两种合并输出的结果不同,但how=‘inner’ 定义的是表格内部的合并,合并的是两个表格相似的地方。
pd.merge(df1,df2,how='inner',on='influencer_name')