Pandas:将一列与数据帧的所有其他列进行比较

本教程将介绍Pandas:将一列与数据帧的所有其他列进行比较的处理方法,这篇教程是从别的地方看到的,然后加了一些国外程序员的疑问与解答,希望能对你有所帮助,好了,下面开始学习吧。

问题描述

我有一个场景,我让新的主题接受一系列特征的测试,其中结果都是字符串分类值。测试完成后,我需要将新数据集与所有对象的主数据集进行比较,并查找给定阈值的相似性(匹配)(比方说90%)。

因此,我需要能够以最佳性能将新数据集中的每个新主题与主数据集中的每一列以及新数据集中的其他主题进行分栏(按主题)比较,因为生产数据集大约有50万列(还在增长)和10,000行。

以下是一些示例代码:

master = pd.DataFrame({'Characteristic':['C1', 'C2', 'C3'], 
  'S1':['AA','BB','AB'],
  'S2':['AB','-','BB'],
  'S3':['AA','AB','--']})
new = pd.DataFrame({'Characteristic':['C1', 'C2', 'C3'], 
  'S4':['AA','BB','AA'],
  'S5':['AB','-','BB']})
new_master = pd.merge(master, new, on='Characteristic', how='inner')
def doComparison(comparison_df, new_columns, master_columns):
  summary_dict = {}
  row_cnt = comparison_df.shape[0]

  for new_col_idx, new_col in enumerate(new_columns):
# don't compare the Characteristic column
if new_col != 'Characteristic':
  print 'Evalating subject ' + new_col + ' for matches'
  summary_dict[new_col] = []
  new_data = comparison_df.ix[:, new_col]
  for master_col_idx, master_col in enumerate(master_columns):
# don't compare same subject or Characteristic column
if new_col != master_col and master_col != 'Characteristic':
 master_data = comparison_df.ix[:, master_col]
 is_same = (new_data == master_data) & (new_data != '--') & (master_data != '--')
 pct_same = sum(is_same) * 100 / row_cnt
 if pct_same > 90:
  print '  Found potential match ' + master_col + ' ' + str(pct_same) + ' pct'
  summary_dict[new_col].append({'match' : master_col, 'pct' : pct_same})
  return summary_dict

result = doComparison(new_master, new.columns, master.columns)

此方法有效,但我希望提高效率和性能,但不知道具体怎么操作。

推荐答案

另一个选项

import numpy as np
import pandas as pd
from sklearn.utils.extmath import cartesian

利用skLearning的笛卡尔函数

col_combos = cartesian([ new.columns[1:], master.columns[1:]])
print (col_combos)

[['S4' 'S1']
 ['S4' 'S2']
 ['S4' 'S3']
 ['S5' 'S1']
 ['S5' 'S2']
 ['S5' 'S3']]

为new中除Characteristic之外的每一列创建一个带有键的词典。
请注意,这似乎是在浪费空间。也许只保存那些有火柴的?

summary_dict = {c:[] for c in new.columns[1:]} #copied from @Parfait's answer

Pandas/Numpy可轻松比较两个系列。
示例;

print (new_master['S4'] == new_master['S1'])

0  True
1  True
2 False
dtype: bool

现在我们遍历Series Combos,并在Numpy的count_non Zero()的帮助下计算True。其余内容与您所拥有的内容类似

for combo in col_combos:
 match_count = np.count_nonzero(new_master[combo[0]] == new_master[combo[1]])
 pct_same = match_count * 100 / len(new_master)
 if pct_same > 90:
  summary_dict[combo[0]].append({'match' : combo[1], 'pct': match_count / len(new_master)})

print (summary_dict)

{'S4': [], 'S5': [{'pct': 1.0, 'match': 'S2'}]}

我很想知道它的性能怎么。祝你好运!

好了关于Pandas:将一列与数据帧的所有其他列进行比较的教程就到这里就结束了,希望趣模板源码网找到的这篇技术文章能帮助到大家,更多技术教程可以在站内搜索。

0
没有账号?注册  忘记密码?