您好,欢迎来到爱够旅游网。
搜索
您的当前位置:首页基于机器学习的文本倾向性分析特征选择研究

基于机器学习的文本倾向性分析特征选择研究

来源:爱够旅游网
第36卷第1期赤峰学院学报渊自然科学版冤Vol.36No.12020年1月JournalofChifengUniversity(NaturalScienceEdition)Jan.2020基于机器学习的文本倾向性分析特征选择研究唐琳渊赤峰学院数学与计算机科学学院袁内蒙古赤峰024000冤摘要院本文围绕文本倾向性分析的基本流程进行论述袁主要研究了以文本情感分析技术为主的倾向性分析袁以主观性文本及客观性文本识别为前提袁从特征选择算法和特征加权算法方面对现有文本倾向性进行分析袁介绍了算法的推导公式及模型训练代码袁重点涵盖了基于机器学习的文本倾向性分析方法袁对其算法复杂性尧算法效率和适用范围给出了具体的概括和总结.关键词院机器学习曰文本倾向性曰特征选择曰特征加权中图分类号院TP391文献标识码院A文章编号院1673-260X渊2020冤01-0036-03作者在之前发表的叶微信订阅号文本采集及预过信息结构化抽取和语义分析标注等来实现.[1]处理关键技术研究曳一文中袁详细介绍了微信的使文本倾向性分析同时涉及自然语言处理尧信息用情况袁其订阅号中的文章数量更是浩如烟海袁如检索和抽取尧机器学习尧统计学尧人工智能等多个领果仅仅凭借人工途径来获取文章作者的观点是十域袁所涉学科比较广泛袁我们课题组结合自身专业袁分不切实际的事情袁因此文本倾向性分析的提出袁主要从机器学习和人工智能角度入手袁对文本进行作为文本智能化理解的一种高效手段和方法袁有效倾向性分析.基于机器学习的文本倾向性分析方法解决了文本意见挖掘这一难题.文本倾向性分析袁相较简单统计法和相关性分析法而言袁既弥补了简正是在主题挖掘的基础上袁对文章中作者所表达出单统计的粗粒度分类的不够精确度的弊端袁又比相的观点尧意见尧情感甚至态度进行提取袁通过分析得关性分析在技术上容易实现袁因此我们将基于机器知当前的舆论导向袁从而作为舆情处理的可靠依学习的文本倾向性分析方法作为本文中进行文本据.倾向性分析的首选方法袁这种方法可靠尧可行袁既可文本经过前期分词尧去停用词等预处理后袁正以结合机器学习尧人工智能的手段和方法袁又可以式进入了倾向性分析环节袁作为自然语言处理领域运用统计学尧常微分方程等工具对齐进行推导演的研究热点袁国内外许多学者都对文本倾向性分析算袁大大提高了分析结果的准确性袁基于机器学习进行了系统深入地研究和探索袁而文本倾向性分析的文本倾向性分析流程如图1所示.的同义词或者别称又是五花八门袁令人眼花缭乱袁比如院意见挖掘尧情感分析尧舆情分析等等.虽然名称很多袁但是其技术的发展主要经历了三个过程袁分别是院基于简单统计的文本倾向性分析方法尧基于机器学习的文本倾向性分析方法和基于相关性分析的文本倾向性分析方法.基于简单统计的倾向分析由于实现简单尧有一定的准确度袁在倾向性研究初期称霸一时曰基于相关性的文本倾向分析袁首先要求算法能够实现特征判断袁遴选出有倾向判断的特征级别,特征倾向分析与句子倾向分析和文章倾向分析相比袁难度更大袁但实用性更高袁同时它对自然语言处理技术水平依赖较大袁现有方法主要通图1基于机器学习的文本倾向性分析流程收稿日期院2019-10-27基金项目院赤峰学院青年科研基金项目(cfxyqn201912)-36-.com.cn. All Rights Reserved.计算机科学与技术1主观性文本与客观性文本的识别技术网上发表的文章袁一般可分为两大类袁一类是客观性文本袁主要是对人物事件的客观性叙述或描述袁属于写实主义袁不带有作者的感情色彩袁比如新闻尧纪实尧记录等曰另一类则是主观性文本袁所谓主观性文本袁是带有作者感情色彩来对人物事件的描写或叙述的文章袁因为作者主观性差异袁所表述的观点尧想法乃至世界观都极具个人特性袁从而导致文章带有倾向性情感袁而通过网络的传播袁这种情感倾向又被放大袁甚至形成了新的网络舆情.因此袁主观性文本是文本倾向性分析的主要对象.而如何区分主观性文本和客观性文本袁则是倾向性分析所有做的第一步工作袁即主客观文本分类.这种主观性文本的有效识别袁可以有效缩小分析范围袁提高文本分析的效率和精度袁压缩了网络舆情分析的成本.目前袁最为简单的方式是通过提取形容词进行识别来判断文本是否主观性袁即将文本中的句子分为主观句和客观句袁含有主观句的文本袁则是主观性文本.[2]我们在这个理论的基础上袁建立了情感词库袁利用SimFinder工具来计算文本中句子的相似度袁结合词性标注[3]构造情感训练集袁按照Yu等人的方法[4]构建基于贝叶斯分类算法的多分类器袁通过以上方法的实施有效避免了构造训练集时的不确定性袁提高了训练集的构造质量.这里所用的分类器袁主要采用了朴素贝叶斯分类算法来设计分类器袁极大地增强了主观性句子提取的抗干扰能力袁提高了文本分类的准确性.对于客观性文本来说袁我们不需要进行后续的文本倾向性分析流程袁可以过滤掉袁筛选出来袁接下来我们将主要精力都放在主观性文本的倾向性分析上.2特征选择技术在前期文本经过分词尧去停用词等预处理之后袁在主客观文本识别阶段袁形成了众多的特征词袁这些特征词数量非常多袁非常容易造成选词维度灾难袁就需要进行特征选择分析.特征选择就是将特征词集合在去除无关特征尧多余特征等噪声特征后袁细分成特征子集袁大大降低特征分析及训练模型所需要的时间袁提高了特征训练模型的精确度.特征选择阶段去除噪声特征袁压缩特征集袁具有重要的现实意义袁既可以减少过拟合尧降低特征维度尧增强模型泛化袁又可以提高模型解释性袁从而增强模型对特征和特征值之间的理解袁加快模型的训练速度袁进一步获得更优性能.然而袁现实中倾向性分析系统在面对未知领域时袁缺乏如何判断特征与目标之间尧特征与特征之间相关性的基本认知袁这就需要用到数学或工程上的方法来帮助我们更好地进行特征选择袁特征选择要求其结果精确袁选择算法高效普适.目前袁在文本倾向性分析方面袁基于机器学习的特征选择方法主要有以下几种院过滤法(Filter)尧包裹法(Wrapper)尧嵌入法(Embedding)等.过滤法袁顾名思义袁将有效特征过滤出来的方法袁首先它要依据发散性原则或相关性原则对特征集中的每个特征进行评估并打分袁进而设定一个分数值作为特征阈值袁或者将待选择阈值的个数作为特征标准袁从而选择出适用特征曰包裹法是以目标函数作为工具袁每次选出或排除若干特征袁直到选择出最佳的子集为止曰嵌入法使用的是机器学习的算法和模型袁在它们的基础上进行模型训练袁经过数学推算得到各个特征的权值系数袁然后再根据这一系数从大到小来选择特征袁这种方法来源于过滤法袁和过滤法很相似袁但其二者的区别在于嵌入法是通过训练来进行特征的选取.具体特征选择算法如图2所示.图2特征选择算法知识导图2.1基于惩罚项的特征选择算法这里主要使用并介绍嵌入法的基于惩罚项的特征选择算法袁其结合了过滤法和包裹法的优点,在构建模型的同时计算模型的准确率.基于惩罚项的特征选择算法是基于机器学习模型的一种方法袁具体流程见图3所示袁其本身就具有对特征进行打分的机制袁或者很容易将其运用到特征选择任务中袁主要通过正则化方法(regularizationmethods)来实现袁所谓正则化方法袁简单来说就是通过增加惩罚系数来约束模型的复杂度.图3基于惩罚项的特征选择流程-37-.com.cn. All Rights Reserved.计算机科学与技术基于惩罚项的特征选择算法需要设置一个惩罚项袁也就是惩罚系数袁这一算法的原理是构造一个使用带惩罚系数的基模型袁在基模型中筛选出特征词的同时进行了降维处理.我们选择使用Python语言的扩展库feature_selection库里的SelectFrom鄄Model类袁设计出结合带L1惩罚项的逻辑回归模型袁带L1惩罚项的逻辑回归模型选择特征的代码如图4所示.图4带L1惩罚项的逻辑回归模型特征选择代码选用L1惩罚项降维的原理是从多个对目标值具有同等相关性的特征中选取出一个保留下来袁这样一来袁没选到的特征并不代表不重要袁恰恰相反袁需要结合L2惩罚项来为没选到的特征进行优化.2.2特征加权在基于L1惩罚项的特征选择算法流程结束后袁没选到的特征需要结合L2惩罚项来进行优化袁也就是进行特征加权的操作袁特征加权是判断文本中特征关键性尧相关性的重要评估指标袁它通过计算公式为每个特征项赋予一个权值袁常用的特征加权算法有布尔权重尧绝对词频权重尧TF-IDF权重等袁我们采用TF-IDF权重算法进行加权优化.TF-IDF权重是目前最为常用的一种权值计算方法袁这里的TF是TermFrequency的缩写袁意为词频袁表示词组在文本中出现的频率曰IDF是In鄄verseDocumentFrequency的缩写袁意为逆向文件频率袁表示包含特征词的文本数量袁包含词条的文本越多袁IDF值越小.TF-IDF权重具体算法见公式1所示袁其中wik是TF-IDF权重.w蓸Nik=TFik伊logn+0.01k蔀渊1冤由公式1推知袁如果某个特征词条TFi在文本TFk中出现的频率较高袁但是在其他文本中出现频率较低袁则称该特征词条具有良好的类别区分功能袁词条的wik越大.优化具体步骤为院若一个特征在L1中的权值为1袁选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合袁将这一集合中的特征平分L1中的权值袁故需要构建一个新的逻辑回归模型袁回归模型需要使用院sklearn.linear_model中的Lo鄄gisticRegression类袁代码为院fromsklearn.linear_modelimportLogisticRegression.创建LogisticRegression类的派生类LR类袁其构造方法如图5所示.-38-图5LogisticRegression类的派生类LR的构造方法定义成员方法fit袁分别训练L1逻辑回归模型和L2逻辑回归模型袁代码如图6所示.图6回归模型训练使用feature_selection库的SelectFromModel类结合带L1以及L2惩罚项的逻辑回归模型袁来选择特征袁具体代码如图7所示.图7带L1以及L2惩罚项的逻辑回归模型3总结在经过前期文本分词尧去停用词等文本预处理之后袁又对文本进行了主客观识别和特征选择加权处理袁无疑袁这一阶段在算法实现上遇到了一些瓶颈袁幸好有sklearn这一Python第三方扩展库的存在极大地提高了进展效率袁有效的完成了逻辑回归模型的设计与实现袁最终成功完成了特征选择功能.要要要参考文献要要要要要要要院要要要要要要要要要也1页厉小军述[J].浙江大学学报(袁戴霖袁施寒潇工学版)袁黄琦.袁文本倾向性分析综2011袁7渊7冤.也2页HfectATsZofIVAadjSSIectLOiveGLOoriUentaVti袁onWIaEBndEgJrMada.biEflit鄄yonsentencesubjectivity[C].Proceedingsofthe18thConferenceonComputational.USA:ACL,2000:299-305.也3页FIclaNssNificaAti,onKUSHandMERdomICaiKntNra,nsSMferYTforHB.infGorenrmae鄄tionfiltering[C].Proceedingsofthe24thBCS-IRSGEuropeanColloquiumonInformationRetrievalResearch:AdvancesinInformationRetrieval.UK:Springer,2002:353-362.也4页YswUeriHng,HopiATniZonIVAquesSSILOtionsGLO:sepaUraV.tingTowfaactrsdsfraomn鄄opinionsandidentifyingthepolarityofopin鄄ionsentences[C].Proceedingsofthe2003Con鄄ferenceonEMNLP.USA:ACL,2003:129-136..com.cn. All Rights Reserved.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igbc.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务