基于NLP文字处理的评论有用性探究

> 中国论文网 >
政治论文 >
基于NLP文字处理的评论有用性探究

基于NLP文字处理的评论有用性探究

来源:用户上传作者:钟丁媛高峥洲金皓辰陶昉昀

　　摘要：网上购物的普及，在拉动消费经济增长的过程中发挥着日益显著的作用。然而，由于网络购物的局限性，消费者无法了解商品的质量。因此，探索评论有用性有助于消费者做出购买决策，也有助于商家采取相应的销售策略。本文对评论文本进行NLP文本处理，通过提取特征词，建立情感文本语料库，对评论文本的情感极性和主观性进行分类，并验证正确率达到88%。尔后构建评论有用性模型，分析了影响产品口碑的因素，利用亚马逊11470条评论进行验证，得到结论：评星极性越强、可读性越强，有用性越强;帮助度投票与星级之间呈凹形关系。此外，拥有多功能产品的知名品牌更容易受到消费者的青睐。
　　关键词：NLP情感分析;评论有用性;可读性;Tobit
　　一、问题背景
　　（一）互联网和网络购物的快速发展
　　互联网的出现和快速发展推动着网络购物的迅速普及，拉动全球经济的增长。作为全球最大的电商平台，截至目前，亚马逊在全球20多个国家和地区开展业务，引领全球电商的发展。
　　（二）商品口碑对消费者网购决策的影响
　　商品的口碑指人们自愿对商品的性能、質量等方面发表的评论。由于网络购物的局限性，消费者只能通过商品描述、口碑等方式了解商品信息，因此购物存在一定的风险性。
　　（三）商家竞争不断加大
　　由于网络销售经营成本低、可复制性强，同行业商家不断涌入，各个行业的商家已趋近饱和状态，因此商家间的行业竞争愈发激烈。为了在竞争中拔得头筹，商家不得不采取相应的销售策略，赢得竞争优势。
　　二、NLP文字情感分析
　　数据文件提供了亚马逊市场上微波炉、婴儿奶嘴和吹风机的销售状况和用户评价。首先，对数据进行处理和分析。
　　（一）数据预处理
　　清洗冗余数据，并检验是否存在异常数据。由于评论者是否为会员和是否购买商品，只有两种答案，因此对其归一化处理，“是”用1表示;“否”用0表示。
　　（二）评论文本处理
　　由于评论文本的词数差异很大，词数最多的评论达到了1569个词，因此必须对评论文本进行处理。
　　首先引入停用词的概念。停用词是指处理搜索请求时会自动忽略的词，大致分为两类：一是应用广泛词，其不能保证搜索结果正是需要的，难以缩小搜索范围。二是无明确意义的词，如语气词、介词等，只有放入完整的句子中才有意义。
　　然后，我们对评论文本进行如下处理：
　　1.基本特征提取
　　词数：词数影响阅读时间和内容的理解程度。因此将评论句子切分，得到词汇数量。
　　平均词汇长度：词汇长度越长，人们的理解难度越大。因此将评论所有的单词长度除以单词数，得到平均词汇长度。
　　停用词数量：计算停用词的数量可以提供额外信息。通过调用NLTK库计算停用词的数量。
　　2.文本处理
　　小写转换：为了避免同一单词存在多个副本，将评论中单词均转换为小写。
　　删除标点：标点在文本中不能提供有效信息，删除标点将减少数据量。
　　删除停用词：删除停用词可以节省文本的存储空间并提高搜索效率。
　　分词与向量化：分词指将文本划分成一系列的单词或词组。通过分词，将文本向量化，有助于计算特征词的个数。
　　计算词频：词频指单词在句子中出现的次数与句子总单词数的比例。
　　经过处理，我们减少了特征词的数目，但是仍然避免不了有些单词出现频率很高，但不具有代表性。另一方面，若单词出现次数过少，具有强独特性，对特征词无帮助。因此我们去除出现频率高于0.8或出现次数小于3次的单词。经过处理，特征词的数目降到大约4000个。
　　3.模型训练
　　随机取75%的评论数据作为训练集，剩下的作为验证集，对模型进行训练。
　　情感分析：使用TextBlob判断特征词的极性和主观性。其中，极性取[-1，1]间的浮点数，正数表示积极，负数表示消极。同样地，主观性取值中，0表示客观，1表示主观。我们利用训练集模拟，并预测了对情感分类标记，将预测结果读入scikit-learn测量工具集，得出预测准确率为86.51%。
　　混淆矩阵：可用来评价精度。由于单看准确率不太全面，因此利用混淆矩阵验证预测的准确率，得出情感分类结果，如图1所示：
　　由此得出，特征词为正向，预测结果也为正的数量为436;负向且预测也为负的数量为2045，这表明预测正确的特征词数量远高于预测错误的数量。
　　ROC曲线：反应模型在选取不同阈值时的敏感性和精确性趋势走向。对训练集样本进行排序，计算真正例率和假正例率。AUC是ROC曲线与坐标轴围成的面积，介于0～1之间，值越大则分类越好。得出ROC曲线图，如图2所示：
　　由此，得到AUC的值为0.88，进一步说明了我们对特征词的分类效果很好。
　　经过评论文本处理，我们得出了所有评论文本的正负面评价数和情感数，并计算出这些特征词的极性和主观性。如"This item it's been working perfectly fine，I'm glad i ordered！！"中，特征词11个，包含正面评价数2个、正面情感数1个，该评论极性为0.458，评论主观性为0.75。
　　三、评论有用性模型的建立
　　通常一条完整的商品评论包含：产品ID、评论ID、评星、有用性投票、评论总投票数和评论文本。高质量的评论可以客观、全面地反应产品的优缺点，直观反应用户的使用体验;低质量的评论对潜在购买者的参考价值不大，还可能存在虚假信息，从而产生误导。
　　（一）影响评论有用性的因素
　　1.评论文本
　　评论字数：一般而言，评论字数越多，包含商品细节越多。但是细节过多会导致信息超载，降低评论可读性。评论字数对有用性的影响存在一个临界点——144个字，一旦超过这个值，字数与有用性的关系变得不显著。[1] 　　评星：评星是一个更为直观的评价商品好坏的标准。
　　评论可读性：可读性是基于评论文本的长度、单词复杂度等变量的综合计算，在一定程度上反映评论文本的易理解性。通俗易懂的文字可以提高浏览者的理解度和阅读速度，进而提升评论的有用性。但是，用词复杂的评论往往看起来更加专业，更容易得到读者的信任。从单词极性来看，评论文本特征词中情感词的数量和强度也会影响有用性。
　　与其他评论的交互作用：评论的呈现顺序会影响消费者对有用性的判断，靠前的评论曝光度高，浏览量大，有用性高。由于人们的从众心理，与大众观点一致的评论更为可信。但与总体评分偏差较大的评论能提供与众不同的观点和体验，也具有参考价值。
　　2.评论者因素
　　评论者的身份：评论者言论的可信度水平直接影响到评论有用性。网络购物者用户身份只能通过ID、照片等因素来判断。一般而言，身份信息越明显，评论可信度越高。
　　是否为会员：基于用户在评论方面所获得的信任，极有可能被邀请成为亚马逊会员，其评论会被认为可信度更高，从而更容易帮助潜在消费者做出决策。
　　购买经验：亚马逊平台允许未购买商品的用户做出评论，因此用户是否购买商品也应被考虑。
　　（二）可读性测试
　　可读性测试的目的是基于文本内容，告诉评论浏览者理解评论的难度，一般用比例的形式表达。目前，计算可读性的主要方式有如下几种：[2]
　　Gunning FOG Index
　　该指数可从词数、难度、句子数量和平均句长等方面考察文本阅读难度，将具有两个以上音节的单词作为复杂单词。
　　以上四个公式均是通过将文本分解成基本结构来评估文本的可读性，然后使用经验回归公式将这些元素组合。FOG和CLI指数衡量的是复杂性，而FK和ARI指数衡量的是阅读难度。由于在数据处理过程中，我们已经得出了以上变量的值，因此可以很方便地计算。
　　（三）探究因素的相关性
　　1.商品总体满意度
　　用户对商品的评星反映了顾客的总体满意度。吹风机的总体满意度为4.12分，微波炉为3.44分，奶嘴为4.30分。用户具体评星分布如图3所示：
　　投票中5星的数量最多，然后是4星和1星。在对商品进行评星时，人们、使用单一指标评价，往往会给出极性强的结果。因为极性强的评论，传达的信息是片面的，比提供双边消息容易。
　　2.帮助度和星级的关系
　　本文将认为评论有帮助的投票数作为评论的帮助度。并没有常规地使用帮助率，是因为考虑了主观性。对于帮助率为75%的评论而言，4人中3人赞同与100人中75人赞同的评论，人们往往认为后者可信度更高。
　　对于吹风机而言，其11470条评论中，得到帮助度反馈的共有4329条。其帮助率分布如图4所示：
　　由图可知，这些评论中，2280条得到了评论浏览者的满分，占52.67%，这表明超过一半的评论受到高度赞扬。另一方面，630条极端反对，占14.55%，这部分评论被浏览评论的人认为没有帮助。
　　将帮助率具体划分到五个评星中，计算各个星级的频次。其中，认为评论完全帮助的人数遠大于其他人数，认为评论完全没帮助的人数仅次于它，且不同星级评论的帮助度分布具有一致性。此外，帮助度与星级存在凹评级关系，即极性评星的频数大，非极性评论的频数小。
　　3.因素相关性
　　Spearman相关系数用来根据等级研究两个变量间相关性，计算两列成对等级的各对等级数之差。对于样本容量为n的样本，n个原始数据被转换为等级数据，计算其相关系数。
　　为了防止文本极性和评星极性不匹配，我们探究评论文本极性、主观性和评星间的相关性。计算相关系数得出，三者存在较高的相关性。
　　对样本进行Spearman非参数项间相关性分析，以评估不同因素间的相互关系。通过计算各指标间间的相关系数，得到这些因素间存在显著的相关性，其中，星级与其余因素呈负相关，其他均呈正相关。值得注意的是，四个可读性测试指标间显示了较高的相关性。也进一步证实了帮助度受文本可读性影响。
　　（四）模型建立
　　1.评论帮助度模型建立
　　下面进一步探究文本结构对帮助度的影响，及其与评论人数的关系。换句话说，探究极端评论高曝光度对可读性的影响。为此建立如下模型：
　　表中r2给出了模型的预测能力。模型1显示，评分对帮助率的二次效应无显著性，可能是由于数据中存在过多的强积极性评论，与强消极性评论的差值过大，使得凹关系不显著。单词数量显著却对帮助率没有影响;而评价等级有显著影响。
　　模型2考虑到评论文本结构和风格对帮助率的影响，评价等级的影响效果略有下降，但模型的拟合度提高，且四个可读性系数的值都比字数高，这意味着可读性比评论长度对有用性的影响更大。
　　模型3的拟合度增加了38.53%。表明虽然总票数和有帮助投票数的二次效应不显著，但是模型的拟合度增加。
　　四、评论有用性模型的检验
　　（一）评论特征对有用性影响的检验
　　接下来我们想探究帮助率是否反作用于评论特征。为此，我们将数据按照帮助率和评星数划分为以下几类：
　　（1）评论帮助率低于或高于0.5。
　　（2）评论帮助率低于0.25或高于0.75。
　　（3）低星评论（1-2星）或高星评论（4-5星）。
　　（4）极性强的评论，即一星或五星评论。
　　1.评论极性和可读性对有用性的影响
　　尽管组内的单词数和均值有一定的差距，但组间差距很小。由此证实了评论长度受评星的影响。从文本中包含的单词数量可以看出，评星积极的评论往往包含更多的文本信息。　　（二）品牌对有用性的影响
　　网上销售中，人们往往会注重商品品牌和功能。筛选出吹风机销量大于100的商品，并根据品牌进行合并，得出位于前四个的品牌是Conair，Andis，Remington和Revlon。其中Conair的销量为3315，Andis为2162，远高于其他品牌。这四个品牌中，最热门的单品销量分别为535，555，587，297，前三热销商品销量没有太大区别，但Conair和Andis商品型号多、功能强，造成销量差距。
　　考虑到商品口碑的因素，我们根据用户的评价及评星，统计出词频最高的词，如图5、6所示：
　　
　　由此得出商品销售的启示：在商品标题中标明功率、颜色、质地等关键词，以便消费者更直观地做出购买决策。
　　五、结语
　　从单个因素来看：评论字数越多，提供细节越多，有用性越强。但评论字数超过144个时，字数与有用性的关系不显著。评星极性越强、可读性越高，有用性越强。评论的呈现顺序越靠前，曝光度越大，有用性越强。考虑到不同因素的相关性：评论文本的极性、主观性和评论星级间存在较高的相关性，显著性强。极性评论可读性更强，有用性更强。评论帮助度受积极评论影响：随着评星增加，帮助度有一个显著的上升趋势。评论的帮助度与星级具有凹评级关系，即极性星级频数大，非极性评论频数小;但评分对帮助度的二次效应没有显著性。可读性测试指标间显示了较高的相关性。此外，商品品牌和功能也影响着评论有用性。商品型号多、功能丰富，能滿足广大用户的购买需求，因此其商品评论有用性强。
　　这一结论有助于企业采取干预策略，提高自身的市场竞争力，如：加强良好的产品宣传，打造有吸引力的产品名称，不断优化产品设计，更加贴近市场需求;注重售后服务体系的完善和优质客户的培养。
　　参考文献：
　　[1]Albert H.Huang，Kuanchin Chen，David C.Yen，Trang P.Tran.A study of factors that contribute to online review helpfulness[J].Computers in Human Behavior，2015，48.
　　[2]NikolaosKoratis，ElenaGarcía-Bariocanal，SalvadorSánchez-Alonso.Evaluatingcontentqualityandhelpfulness of online product reviews：The interplay of review helpfulness vs.review content[J].Electronic CommerceResearchandApplications，2012，11（3）.
　　基金项目：2020年1月国家自然科学基金面上项目“Navier-Stokes-Allen-Cahn方程组的数学理论研究”（项目编号：11971234）;2017年5月南京林业大学“国际教育学院中外合作办学高水平示范”（项目编号：164101005）;2017年7月南京林业大学“2017年教学质量提升工程”（项目编号：163101812）;2018年7月南京林业大学“高等教育研究所通过数学建模竞赛提高创新性人才培养研究”（项目编号：163101147）;2018年7月南京林业大学“基于数据分析的“智能化”新庄立交交通的研究和建模”（项目编号：201810298062Z）;2019年6月南京林业大学“Imiracle”——多维学习研讨与辅助教学小程序的研发”（项目编号：2019NFUSPITP1040）;2019年6月南京林业大学“多维学习研讨与辅助教学小程序的研发”（项目编号：201910298203T）
　　作者简介：钟丁媛（1999—），女，汉族，江苏扬州人，南京林业大学理学院2017级在读本科生，研究方向：应用数学。
转载注明来源:https://www.xzbu.com/1/view-15353447.htm

查看更多→

基于NLP文字处理的评论有用性探究

相关文章