您好, 访客   登录/注册

基于用户评论下的生鲜农产品优选排序

来源:用户上传      作者:

  摘要:现如今电商市场竞争激烈,众多小型垂直类生鲜电商紧紧围绕在京东商城和天猫超市这两大平台上。用户评论铺天盖地,如何减少消费者搜索和筛选的时间成本显得尤为重要。对于生鲜农产品来说,物流服务满意度是关键因素。以京东商城和天猫超市两大综合类电商平台的生鲜商品为例,采集大量的用户评论,从数据中获取物流服务满意度影响因素进行相关度分析并最终得出6个因素,采用机器学习的方法对大量标注文本进行模型训练,通过训练的模型识别待分类文本的情感倾向,建立基于物流服务满意度的商品排序方法,进一步提出威尔逊置信区间的方法修正物流服务满意度用于评论数量分布不均的情形,最后对这2种算法的应用场景作出分析介绍和对比,使商品排序过程中不仅考虑到商品的物流服务满意度,同时也引入评论数量,通过不同的需求和数据情况生成最符合用户期待的排序结果。
   关键词:电子商务;生鲜农产品;服务满意度;用户评论;情感分析;排序算法
   中图分类号: F323.7;F713.36  文献标志码: A  文章编号:1002-1302(2020)03-0305-06
   随着时代的发展,网购平台成为了生鲜购买方式之一,据中国电子商务研究中心发布的《2017(上)中国网络零售市场数据检测报告》显示,我国生鲜电子商务交易规模在2017年上半年达到851.4亿元,预测到2017年底该数据或将达到1 650亿元,相比2016年的913.9亿元,同比增长80.5%。至2017年底,生鲜电商基本形成“阿里系”和“京东系”两大阵营。传统的消费者数据调查来源大多是调查问卷,被忽略的商品评论总是更具实时性和真实性。如今的消费者主要是根据以往的购物经验和商品用户评论数据形成心理预期。但是商品评论数据量大,依次浏览所有评论信息不现实,且未必能获得满意的结果。而生鲜农产品保鲜时间不长,物流速度是影响生鲜电商发展的一项重要因素。因此,应该重点关注物流方向评论对消费者购买选择的问题。本研究采集大量的网购生鲜农产品消费者评论数据,并基于物流服务满意度的生鲜商品优选排序方法,从消费者的角度选择商品,也便于商家针对不同情况作出调整。
  1 相关研究评述
  在生鲜电商方面,国内外学者从消费者角度出发展开研究,在评价物流服务模型方面,利用突变级数方法构建生鲜电商冷链物流服务评价模型[1],同时结合生鲜电商冷链物流质量、成本和安全性等问题[2]。利用层次分析法和供应链理论评估生鲜供应商的绩效水平[3],影响这些的主要原因是物流因素,但是还须更深一步地将评论和服务满意度结合在一起。
  在商品排序方面,大部分电子商务平台都按照某种排序(默认是综合排序)将商品列表返回给消费者,但网站只通过对用户评论的等级(好评、中评、差评)划分进行好评率计算,消费者在评论时习惯性地点击好评,造成许多负面评价隐藏在好评之下,并不能作为很客观的参考依据。目前有学者通过商品权重与用户相似度之间的关系,分析考虑商品排序和用户偏好的推荐算法[4],在原始排序的基础上提出一种基于威尔逊区间的商品好评率排名算法,是一种比较适用于不同属性下的商品评论数量分布不均衡下的模型[5]。
  本研究通过获取的评论数据,运用数理统计的方法分析各个因素之间的关系,得到商品物流服务质量各个影响因素的重要度,通过情感分析计算满意度并建立2种排序方法,修正评论数量分布不均衡的情形,最后对这2种算法的应用场景作出分析介绍和对比,计算店铺综合物流服务满意度,为不同的角度和需求提供优选排序的参考。
  2 数据来源及方法
  2.1 数据来源选取
  本研究数据为京东商城和天猫超市生鲜区新鲜水果(橙子)、海鲜水产(带鱼)和精选肉类(牛排)的用户评论数据。通过网络爬虫工具获取生鲜商品的用户评论作为本研究的原始数据,京东商城抓取橙子、带鱼、牛排3类商品共56 040条评论,天猫超市生鲜商品共抓取25 783条用户评论数据。
  2.2 研究方法
  本研究的主要内容包括建立响应指标计算其重要度、构建满意度模型、构建排序模型、划分模型适用场景等4 个阶段:(1) 通过词频统计提取出9个物流服务满意因素,再由SPSS相关性分析度判断各因素之间的是否具有显著性,最终得到6个影響因素,并计算每个因素的重要度。(2)通过XGBoost算法情感分析模型计算物流服务满意度。(3)分别构建基于物流服务满意度的商品排序模型,引入威尔逊置信区间来进行修正模型。(4) 划分2种排序算法适用场景,通过相同店铺下同品类商品的物流服务满意度进行综合排名并得到最终排序。
  3 因素识别、重要度计算及满意度模型构建
  3.1 生鲜农产品的物流服务满意度影响因素识别
  本研究从原始数据中集中抽取出有关物流的相关评论3 318条,对此样本数据经过中文分词和停用词处理之后,对其进行词频统计,再结合商品和物流服务的特征并根据对以往的文献资料的总结整理[6-7],提取出9类影响物流服务满意度的因素(表1)。
   采用SPSS软件对9个因素进行相关分析,观察各因素之间以及每个因素与整体评价之间关系的显著程度。数字1、0、-1分别表示正向情感、中性情感、负向情感(表2)。
   由于数据量大,本研究采用随机抽样的方式进行因素间的相关分析。最终选取1 000条好评、200条中评、50条差评共1 250条评论来构建“因素-评论”矩阵(表3)。
   由表3可知,配送范围与总体评价的相关性不显著,其余8个因素与总体评价的相关性均显著,所以剔除“配送范围”。配送商品的完好性、是否支持先验货后签收与配送人员服务态度之间具有相关性,包装程度对于商品送达时完好性是具有影响的;消费者在签收商品时是否可以现场验货,消费者较易将其与配送人员的态度联系起来,在作出评价时两者同时出现的频率较高。因此,将原有的“包装合理及完好度”与“配送商品的完好性”合并为“包装及商品完好性”,“是否支持先验货再签收”与“配送人员服务态度”合并为“配送人员服务态度”。最终得到的服务满意度影响因素共有包装及商品完好性、配送时间的准确性、配送人员服务态度、是否冷链运输、配送商品正确性、退换货服务可靠性等6个维度。   3.2 物流服务满意度影响因素重要度分析与计算
  消费者在购买商品时对每一类物流服务质量影响因素的关注程度是有区别的。因此,须要对每个因素的重要度进行分析。这里采用的方法是计算每个因素在评论中出现的次数与物流相关总评论数之比。对试验中的3 318条物流评论语句进行重要度统计分析(表4)。
   由表4可知,消费者最关注的是“配送时间的准确性”“配送人员服务态度”,在总体评论数量中的比重分别为57.41%、19.53%,对“配送商品正确性”和“退换货服务可靠性”关注程度最低,占比仅分别为1.36%、1.08%。究其原因,一方面发货出错在消费者购物过程中出现的频率相对较低,并不是总会有发货有误的情况出现;另一方面,京东商城和天猫超市的售后服务水平好,消费者无须过于担忧退换货问题,因而对于“退换货服务可靠性”关注程度低。虽然有用户评论的好评、中评、差评划分和好评率的计算,但是消费者在评论时习惯性点击好评,在进行物流服务满意度(好评率)计算时有很大的误差。因此,须要对用户评论信息进行情感分析以解决此类问题。
  3.3 基于情感分析模型计算物流服务满意度
  3.3.1 文本表示 目前最常用的文本表示方法是向量空间模型(VSM)[8-9],TF-IDF是应用较广泛的文本表示方法,TF词频表示词汇在文档T中出现的频率,IDF的主要思想是若在所有文档中包含某词汇wi的文檔数量越少,IDF权值应越大,说明该词汇具有很好的类别区分能力。
  3.3.3 数据分布 在数据清洗之后,选择其中的10 778条有效评论文本作为试验的数据集,将数据集标注为3个类别标签1、2、3,依次代表正向、中性、负向的情感倾向,为避免数据不平衡造成模型训练的不足,数据抽样选取时每类数据保持均衡状态,并不存在较大差别(表5)。
   本研究将商品评论文本情感识别抽象为一个分类问题,采用XGBoost算法[8]进行分类,利用机器学习的方法对人工标注的文本数据及其特征进行学习,得出预测模型,从而能够在输入评论文本数据之后,即可自动预测该文本数据的情感倾向。
  4 生鲜农产品排序模型构建及划分
  4.1 基于物流服务满意度的商品排序模型
  以各因素好评率的均值作为排序准则,根据重要程度对每个因素进行加权综合。综上分析可计算得到商品的物流服务质量、各影响因素重要度和物流服务满意度(表6)。
   本研究邀请100位消费者对这2种方法的排序结果进行评价,每位参与的用户根据自己的实际意愿选择自己更加支持的一种排序方式,如果认为2种排序结果都不满意,则选择其他。最后汇总统计算出每种排序方法的支持率(支持率=试验中支持该排序方法的人数/试验总人数),得到2种排序结果的支持率(表9)。
   该试验结果(表9)说明基于威尔逊置信区间的方法对评论数量极不均衡的20个商品进行修正后,能使商品排序更加合理。另外有研究表明,商品评论对商品销量发挥着重要的影响作用[11-12]。因此,利用统计软件分析本研究所提商品排序结果与商品销量之间的关系是否显著。试验数据依然使用上述选取的20种橙子,采用Spearman等级相关系数判断销量排序和商品排序的相关性,得到2种方法的商品排序与销量排序的相关系数(表10)。
   由表10可知,在α的情况下都具有显著的相关性,且后者与商品销量的相关程度更高,相关系数为 0.825,更能进一步说明在评论数量分布不均衡的条件下,威尔逊置信区间排序方法的优越性及合理性。
  4.2.2 不同场景下排序算法的选择 综上可以得出不同算法的具体适用场景(表11)。在商品评论数量分布不均衡的状态下,无论物流服务满意度是否相同,均引入威尔逊置信区间作满意度修正;反之,在商品评论数量分布均衡的状态下,当物流服务满意度不相同时,主要根据物流服务满意度作商品的排序决策;商品评论数量分布均衡,物流服务满意度相同时,可以划分为2种情况:一种情况是商品评论数量相同,这时无论使用何种方法计算得到的排序分值均相同,此时对这些商品可以任意排序;另一种情况是商品评论数量不同,这时同样须要引入威尔逊区间。
  4.3 店铺综合物流服务满意度计算
  上述2种排序方法都是针对单个商品计算得到的综合物流服务满意度,而物流服务满意度水平和商品提供者(店铺)具有极大的关联性,相同店铺下同品类不同商品的物流服务满意度是相同的,因此在商品排序时仅依据单一商品的物流服务满意度水平对商品进行排序缺乏可信度。因此,在完成商品的物流服务满意度计算后,对相同店铺下同品类商品的物流服务满意度进行综合分析,得到该店铺在该品类下的物流服务满意度水平,并依据此物流服务满意度对商品作最终排序(表12)。
   由表12可知,上述加权综合和引入威尔逊置信区间可得店铺内都是单个商品的物流服务满意度水平,综合物流服务满意度并根据品类分别计算,通过对店铺内同品类商品的物流服务满意度水平进行加权求和,计算得到该品类商品该店铺提供的物流服务满意度水平。
  5 结语
  在不同需求下作不同的排序,并考虑到爬取的数据总是存在不均衡,才能更好地为广大消费者提供生鲜农产品的优选项,并为农产品企业提供参考。本研究通过爬取大量用户的评论数据,构建物流服务满意度影响因素,分析在评论分布不均下的商品排序,考虑到评论数量对满意度的可靠性影响,在商品排序过程中不仅考虑到商品的物流服务满意度,同时也引入评论数量,对相同店铺下同品类商品的物流服务满意度进行综合分析,得到该店铺在该品类下的物流服务满意度水平,最后对这2种算法的应用场景作出分析介绍并得出最终排序。但本研究也存在不足之处,因为网络用语具有很大的不规范性,新词层出不穷。因此,所构建的本体模型和语言词库须要经常迭代更新。
  参考文献:
  [1]邱 斌. 基于突变级数法的生鲜电商冷链物流服务质量评价研究[D]. 北京:北京交通大学,2017.   [2]金芯名. 生鲜农产品电商冷链物流研究——以易果生鲜为例[D]. 武汉:华中师范大学,2017.
  [3]Guritno A D,Fujianti R,Kusumasari D.Assessment of the supply Chain factors and classification of inventory management in suppliers level of fresh vegetables[J]. Agriculture and Agricultural Science Procedia,2015(3):51-55.
  [4]張云飞. 基于深度学习的短文本情感分析[D]. 北京:北京邮电大学,2016.
  [5]徐林龙,付剑生,蒋春恒,等. 一种基于威尔逊区间的商品好评率排名算法[J]. 计算机技术与发展,2015,25(5):168-171.
  [6]尹 欣. 基于网络评价的电商物流服务满意度影响因素分析[D]. 深圳:深圳大学,2016.
  [7]周 雪. 基于客户满意度的第三方物流配送服务质量评价指标体系研究[J]. 物流技术,2013,32(15):60-62.
  [8]郭 慧,柳 林,刘 晓,等. 深度学习下的情感分析与推荐算法[J]. 测绘通报,2018(9):55-58.
  [9]Liu B. Sentiment analysis and opinion mining[J]. Synthesis Lectures on Human Language Technologies,2012,5(1):1-167.
  [10]张学新. 一种简单有效的二项分布比例参数似然比置信区间的求法[J]. 统计与信息论坛,2017,32(6):38-41.
  [11]Chen Y,Xie J.Online consumer reviews:word-of-mouth as a new element of marketing communication mix[J]. Management Science,2008,54(3):477-491.
  [12]Ghose A,Ipeirotis G.Deriving the pricing power of product features by mining consumer review[J]. Management Science,2011,57(8):1485-1509.
转载注明来源:https://www.xzbu.com/1/view-15154253.htm