您好, 访客   登录/注册

Hadoop框架下的多标签传播算法

来源:用户上传      作者:

  摘要:标签传播算法的主要思想是利用已标注数据的标签信息预测未标注数据的标签信息。然而,传统传播算法没有区别对待未标注数据与已标注数据相互之间的转移信息,导致算法的收敛速度较慢,影响了算法的性能。针对传统算法的不足,提出了差异权重标签传播算法,算法按标注信息的重要性赋予不同的权重。在解决了大规模特征矩阵相乘问题之后,将提出的差异权重标签传播算法应用到Hadoop框架下,采用分布式计算,实现了能够处理大规模数据的多标签分类算法(HSML),并将提出的HsML算法与现有主流多标签分类算法进行了性能比较。实验结果袁明,HSML算法在多标签分类的各项性能评测指标和执行速度上都是有效的。
  关键词:Hadoop;多标签分类;标签传播算法
  中图分类号:TP391 文献标志码:A 文章编号:0253-987X(2015)05-0134-06
  传统分类学习问题研究如何将待分类样本准确地划分到唯一的某一类中,即单标签分类。然而,真实世界的对象往往并不只具有唯一的语义。每个对象由多个类别标注,学习的目标是将所有合适的类别标注赋予未见对象,即多标签分类学习。
转载注明来源:https://www.xzbu.com/4/view-8442920.htm