搜索
您的当前位置:首页正文

基于统计机器学习的互联网暗链检测方法

来源:爱够旅游网
第32卷第9期 2015年9月 .计算机应用研究 V0L 32 No.9 Application Research of Computers Sep.2015 基于统计机器 学习的互 联网暗链检测方法木 孟池洁 ,王伟 ,耿光刚 (1.中国科学院计算机网络信息中心,北京100190;2.中国互联网络信息中心,北京100190) 摘要:互联网搜索引擎排名算法中,外部链接是一个重要因素,而利用链接作弊现象普遍存在于互联网中。 暗链是链接作弊其中的一种手段,难以检测和清除,被称为“网络牛皮癣”。为了维护公平的搜索引擎排名机制, 保证搜索结果质量,针对暗链这种作弊手段,提出了一种基于机器学习的互联网暗链检测方法,该方法结合网页 源码锚文本的特征检测暗链。给出了相关性能分析,在真实的网络环境下的实验验证表明了所提出的方法可行 有效。该研究为搜索引擎打击链接隐藏的作弊行为提供了理论和实践支撑。 关键词:暗链;链接隐藏方式;锚文本;机器学习;文本分类 中图分类号:TP393.08 文献标志码:A 文章编号:1001-3695(2015)09—2779.05 doi:10.3969/j.issn.1001—3695.2015.09.051 Internet hidden hyperlinks detection based on statistical machine learning Meng Chijie ,Wang Wei ,Geng Guanggang2 (1.University ofChinese Academy foScience,Beijing 100190,China;2.Chian Internet Network Information Center,Be ng 100190,China) Abstract:External link is a critical factor in search engine algorithm,thus link spam is wide spread in Internet.Hidden hy— perlink is one kind of the link spam.It is the”psoriasis”in Internet,and hard to eradicate.In order to strike this cheating behavior and ensure quality of search results,this paper proposd a method to identify Web pages which contain hidden hyper- links based on machine learning.utilizing features of anchor text in HTML code of Web pages.It analyzed the performance of this model,and experiment based on the real Internet environment proves the method propose is effective.This study will pro— vide Search Engines with theoretical and practical suppo ̄for striking the Web spam cheating. Key words:hidden hyperlink;hyperlink hiding techniques;anchor text;machine learning;text classiifcation 被植入暗链的网页不仅对于网站本身的信誉形象产生负面影 0引言 响,更严重扰乱了搜索引擎排名机制,使得搜索结果用户满意 搜索引擎作为互联网的重要入口,成为了网民们每日必不 度下降。 可少的工具,根据中国互联网络信息中心2013年中国网民搜 目前,网站站长对于自己网站是否存在暗链的检测方法有 索行为报告,截至2013年6月底,中国搜索引擎网民规模为 查看网站的源码、利用站长工具“网站死链检测”功能、使用 4.7O亿,同比增长率为9.7%_1 J。个人或企业团体的网站都希 FrP工具查看网站文件的修改时间、同IP站点查询等 。这 望自己的网站能排在搜索结果的前列,以获得大量流量。由此 些方法仅适用于对于数量少的网页手动自测。对于网络上海 投入大量研究以获得搜索引擎高排名,即搜索引擎优化 量的网页内容,需要有高效准确的自动检测方法。本文提出一 (SEO),其中不乏采用作弊手段,暗链即是其中之一。暗链又 种基于机器学习文本分类的方法可以对大量网页进行自动识 称做链接隐藏作弊,顾名思义,它是一种用户在浏览器中正常 别检测。 浏览网页时看不到的链接,只有在查看源代码时才能发现,但 能被搜索引擎计算权重。SEO界将利用黑灰色技术手段来达 1暗链隐藏方式 到自己目的的行为称做黑帽SEO。黑帽SEO使用者利用很多 暗链即隐藏链接,对于搜索引擎爬虫可见,而在用户浏览 网站的漏洞,在大量目标网页中注入暗链,这些链接指向自己 要推广的网站。积少成多,根据搜索引擎排名因素的外链的重 器呈现视觉样式中不可见。要做到在浏览器中不可见的视觉 要性,目标网页会短期内获得高的排名或权重 J。另外有些 效果,源码中会用到一些HTML、CSS、JavaScript的隐藏方式。 网站本身也参与了链接友情交换的交易,在自己的网站页面中 常见的暗链隐藏方式有如下几种。 写入与自己页面毫不相关甚至是违法网站的链接。 1.1利用样式特征隐藏 暗链指向的网站绝大多数是赌博、非法游戏私服、虚假医 最常见的是利用CSS样式、HTML视觉属性等隐藏。 疗等黑灰色产业。而暗链宿主往往是权重较高的网页,例如政 1.1.1利用CSS隐藏样式 府网站具有很高的搜索引擎权重,成为植入暗链的重要目标。 CSS的样式display:none或visibility:hidden,可以使元素 收稿日期:2014-06—19;修回日期:2014—08-19 基金项目:国家自然科学基金资助项目(61375039,61005029);中国科学院计算机网络 信息中心“一三五”规划重点培育方向专项基金资助项目(CNIC—PY一1402) 作者简介:孟池洁(1989一),女,山西大同人,硕士,主要研究方向为互联网数据分析(mengchiji@cnnic.cn);王伟(1977一),男,江苏人,高级工程 师,博士,主要研究方向为网络寻址技术、信息安全;耿光刚(1980-),男,山东泰安人,副研究员,博士,主要研究方向为模式识别、互联网信息检索. 第9期 内容: 孟池洁,等:基于统计机器学习的互联网暗链检测方法 ・2781・ 启发式方法,可以综合利用多维度特征,充分发挥分类器的判 别能力。 (meta name=”description”content=”交通运输百家乐(www.bjsjt. gov.cn)澳门赌场旗下博彩门户,在这里我们为您提供百家乐、博彩通、 全讯网、博彩、娱乐城、澳门百家乐、赌博、赌博网、盘口、足球比分、足球 投注等服务,欢迎您的光临”) 3基于统计机器学习的暗链检测 本文提出用机器学习文本分类来检测暗链。对比前面介 2相关研究 现有较多使用的检测方式要求站长自测,通过查看自己站 点的网页源码、利用FTP工具查看修改时间等方式检测站内 未知链接等 检测自己的网站是否被注人暗链。这些方式耗 绍的从关键词或隐藏方式的角度检测,本文从网页内容体现的 特征人手,利用两类样本,即含有暗链和不含有暗链的网页源 码进行训练分类模型。这样就转换为一个经典的二分问题。 分别收集含有暗链及不含暗链正常网页的源码,提取锚文本、 分词、特征选择形成特征向量、训练分类模型。检测模型流程 用人力,对管理人员专业知识要求较高,并不能自动发现,也不 能对新的隐藏方式及时掌握。 文献[8]中提到的暗链检测是通过特征词库建立黑白名 单,通过简单匹配进行判定,简单快速,但对特征词库的建立有 一定的局限性。 专利“检测黑链的方法和装置” 可以检测部分暗链,其 模块包括表单维护、判断模块、链接提取模块、检测模块、恶意 特征匹配模块、暗链确定模块等,经过匹配黑白名单,然后判断 视觉特征参数是否是不可见,进一步决定是否加入黑白名单, 如此循环。其中检测模块包括对链接的颜色、字体、位置、是否 是以跑马灯形式闪现或者不显示来判断。该检测装置对于 JavaScript隐藏方式的检测限于判断document.write中是否出 现“display:none”或者“displaynone”字符串,而根据第二部分 关于JavaScript隐藏方式的介绍,JavaScifpt隐藏代码经常会有 字符串拼接的方式,甚至是利用eval返回十六进制编码字符 串,例如: (script language=”javascript”) function HexTostirng(S){ var r=”: for(vat i=0;i<S.1ength;i+=2){ var sxx parselnt(s.substirng(i,i+2),16); r+=Stirng.ffomCharCode(sxx): } return r: eval(HexTostring(”646f63756d656e742e676574456c656d656一 e74427949642822716c3130303022292e7374796e652e646973706c6179203一 d20226e6 ̄e6522”)); (/script) 以上这段代码等价于 (script type=”text/javascript”> document.getElementById(”q”+…1’+”1000”).style.display: ”n。’+”o”+”Be”: (/script) 这种利用十六进制编码的方法就是为了规避发现disp1ay: none的规则。可见JavaScript代码的灵活性使得基于规则的识 别方式无法识别这种隐藏方式的暗链。而经过笔者的调研,利 用JavaScript进行隐藏的链接在所有隐藏方式中所占比例最 高 。所以基于规则的识别方法很容易被暗链作弊者规避, 缺乏鲁棒性。 本文提出基于机器学习的方法将很好地解决以上的不足。 机器学习可以实现分类模型的自动挖掘和动态优化,更有灵活 性 。基于机器学习的方法在文本分类、垃圾邮件过滤、异常 检测等领域被广泛应用,并被证实切实有效 ,然而尚未有利 用机器学习的方法进行暗链检测的文献。本文提出的方法为 如图2所示。实验利用开源的机器学习和数据挖掘工具 WEKA 进行分类模型学习。 预处理 网 l提取锚文本l 训练分类模型 页样本收集  申  将文本转 —’ 】l特训征练选模择型 l』性评能估 换为向量 图2检测模型流程 基于机器学习的检测的一般步骤为:a)预处理,包含分词 和转换为向量等;b)模型学习,包括分类训练和特征提取;e) 评估 。 本实验在模型学习阶段用到分类模型学习。机器学习常 见的分类器有朴素贝叶斯(naive Bayes)、支持向量机SVM (supported vector machine)、最小序列优化SMO(sequential mini— mal optimization)、自适应增强AdaBoost(adaptive boosting)等。 Naive Bayes是一种基于概率论的常用的文档分类算法;SVM 是一种二分模型,是在特征空间上的间隔最大的线性分类 器l14];AdaBoost是一种迭代分类算法,在同一数据集上训练不 同的弱分类器,然后整合起来构成一个强分类器 ;序列最小 优化算法SMO是一种用于解决支持向量机训练过程中所产生 优化问题的算法,效率很高- -。 对于基于机器学习锚文本分类,分词后得到的词语即是特 征,所以特征维度一般会成百上千,但不是所有的特征都对结 果有影响。如果维度太高严重影响训练效率,特征选择,即降 维可以解决这个问题。合适的特征选择可以去除对于分类没 有影响或影响不大的特征,降低维度、提高模型准确率和训练 模型的效率 J。 性能评估环节中,准确率和召回率是两个基本的评价指 标,综合指标有F—measure、ROC曲线(receiver operating chal'ac— teristic curve)、AUC(area under ROC curve,ROC曲线下面积) 等。准确率反映分类器正确判断为该类的样本数占总样本数 比例,体现了分类结果的准确程度;召回率是分类器正确判断 为该类的样本数和属于该类的样本总数的比率,体现了系统分 类的完备性;F-measure结合了准确率和召回率的综合指标,实际 中常用的计算公式为(准确率×召回率×2)/(准确率+召回 率)[181;ROC曲线显示了二分问题分类器预测所得到的正确 正例率TPR与错误正例率FPR之间的对映关系 ,相对于准 确率和召回率,数据集的类分布的比例变化不会引起ROC和 AUC的变化。由其定义可知,一个优秀分类器对应的ROC曲 ・2782・ 计算机应用研究 第32卷 线应该尽量靠近单位方形的左上角 。 3.1 样本收集 b)相对地,使用SMO分类器的分类模型精度逼近前者,整 体用时远远小于前者,性价比最高,更适合暗链的机器学习分 类检测。 1)正例样本本实验所用正例样本指不含暗链的网页源 码。根据DMOZ_2“目录中收录的简体中文网页URL列表爬取 首页得来,共2 127个源码文件。DMOZ,也叫做ODP(open di— rectory project),是一个由全球各地的志愿者共同维护的开放 式分类目录,被搜索引擎认为是互联网上最重要的网站目录导 航。因此收录的网站认为没有作弊垃圾。 2)反例样本反例样本指含有暗链的网页源码,由人工 筛选得到,包括以.cn、.corn为结尾的域名的网站的首页,共 C)各个分类算法利用OneRank特征选择降维时用时最 长,且提高的准确率等性能不是最好,因此0neRAttibuteEval 特征选择方法不适于此处降维。 d)SMO算法在此数据集上比较高效,使用信息增益In— foGain和卡方校验chisquaredAttriEva特征选择小幅度提高精 度;其次是朴素贝叶斯。 表1 五种分类器和四种特征提取算法的准确率和召回率 1 116个源码文件。 为了能覆盖尽可能多的网站,针对每个域名对应的网站只 爬取首页。正例样本2 127个,反例样本1 116个。 3.2预处理 本实验以锚文本为研究对象,含有暗链的网页的锚文本相 对正常不含暗链的网页锚文本有显著的特征,因此针对网页源 码中的锚文本作文本分类。将收集到的网页源码进行提取锚 文本,分词操作。这里选用中文分词较好的开源分词器庖丁解 牛分词 ],可以添加自定义词汇,确保正确提取暗链锚文本经 常出现的词汇如“百家乐…博彩网”等。停词表过滤数字、虚 词等无意义的词语,然后向量化为向量空间模型(vector space model,VSM),每一个样本作为一个向量输入分类器中训练分 类模型 。 3.3特征提取与特征选择 WEKA内置的特征提取与特征选择机制是利用评估器 evaluator计算属性的评估值,并选定搜索策略确定保留的特 征。本实验选择四种WEKA内置的特征提取方法,注重对单 个属性进行评价的InfoGainAttributeEval(信息增益IG)、 ChiSquaredAttriEva(词条卡方统计),侧重对特征子集进行评价 的CfsSubsetEval(属性子集中每一个特征的预测能力及之间的 关联性) ,以及结合两种方式的OneRAttibuteEval。本实验 将这四种特征选择方法结合到训练分类模型过程中,模型性能 可以反映出涉及到的特征选择的方法是否适合模型的训练。 3.4模型学习与暗链判定 分类器本文选择有代表性的几类分类算法:naive Bayes、 SVM、SMO、AdaBoost。本文分别利用以上的分类器训练模型, 并对比不同特征选择后的训练性能。实验中利用AdaBoost分 类模型训练时,元分类器使用WEKA内置的特征选择的At・ tributeSelection函数。 本文的分类器评价指标从准确率precision、召回率recall、 F—measure、ROC曲线面积四方面考察。 每种训练模型通过调整参数,能达到最高的准确率preci— sion、召回率recall、F.measure、ROC曲线面积如表1所示。表2 展示了对应表1的分类器和特征选择算法训练模型所用时间。 两个表格中表现相对较突出的性能数据已经加粗。 由实验结果可得以下结论(在本实验检测暗链的数据集上): a)利用AdaBoost分类器,AttributeSelectionClassiifer作为 其元分类器所取得的准确率和召回率以及F—measure和ROC 曲线面积均高于其他分类方法,但时间远远大于其他算法。其 原因是每个弱分类器进行了特征选择,整体使用时较长,但提 高了精度。 表2五种分类算法和四种特征选择算法训练模型用时 /s 注:表中AdaBoost利用 作元分类器即意味着使用了特 征选择,故对应表格第一行没有数据。 综上,SMO分类器加信息增益特征选择或者卡方校验特 征选择效率高,准确度高。如果用到比本实验的样本更大的网 页源码样本集时,AdaBoost分类器,AttributeSelectionClassiifer 作为其元分类器将会耗时更长,反之可利用这个模型进行精度 较高的分类训练。而SMO最高效,精度逼近前者,若样本集很 大,利用此模型相对更好。 4结束语 本文介绍了暗链产生的背景原因,分析了常见的暗链隐藏 技术方式,介绍了现有相关检测暗链的方法,最后提出了基于 机器学习的锚文本分类思想的检测模型。实验将含有暗链和 不含有暗链的两类文本作为二分的样本,利用WEKA内置的 分类算法进行训练并进行降维处理,得到最高平均准确率为 99%的训练结果。由训练出各种模型的准确率、召回率等性能 来分析,最好的分类模型是利用AdaBoost分类器(元分类器为 第9期 孟池洁,等:基于统计机器学习的互联网暗链检测方法 ・2783・ AttributeSelectedClassiifer将降维后的数据分类),但耗时远远 置:中国,CN 102622435 A[P].2012—08.01. 大于其余的模型。相对地,SMO分类模型精度逼近前者,而且 [10]苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展 最高效。本文在仅针对锚文本的基础上取得了较高的分类性 [J].软件学报,2006,17(9):1848—1859. 能,如果结合分析有隐藏作用的代码,将能取得更高的准确率。 [11]Harrington P.Machine learning in action[M].[s.1.]:Manning 下一步的工作可结合分析HTML源码中隐藏特征的代码,研 Publications,2012:3-5. 究更高效准确的识别方法。 [12]Hall M,Frank E,Holmes G,et a1.The WEKA data mining soft. ware:an update[J].SIGKDD Explorations,2009,11(1):10—18. 参考文献: [13]王斌.文本分类综述[R/OL].(2002—12).http://read.pudn. [1]CNNIC.2013年中国网民搜索行为研究报告[EB/OL].(2013一 com/downloads65/ebook/235450/ie.ppt. O8—20).http://www.cnnic.cn/hlwfzyj/hlwxzbg/ssbg/201308/ [14]Co ̄es C,Vapnik V.Suppo ̄一vector networks[J].Machine Lear- t20130820_41306.htm. ning,1995,20(3):273—297. [2]昝辉.SEO实战密码[M].北京:电子工业出版社,2011:241— [15]Freund Y,Schapire R E.Experiments with a new boosting algorithm 245. [C]//Proc ofthe 13th ICML.1996:148-156. [3]中国站长网.有效检查网站是否被挂黑链的五个方法[EB/OL]. [16]Platt J C.Fast training of suppo ̄vector machines using sequentila [2010一o4-24].http://www.chinaz.com/web/2010/0424/112547. minimal optimization[C]//Advances in Kernel Methods.Cambridge: shtm1. MIT Press,1999:185—208. [4]Raggett D,Hors A L,Jacobs I.HTML4.01 specification[EB/OL]. [17]周茜,赵明生,扈曼.中文文本分类中的特征选择研究[J].中 (1999-12—24).http://www.w3.org/TR/html401/. 文信息学报,2004,18(3):17・23. [5]Chellapilla K,Maykov A.A taxonomy of JavaScript redirection spaer [18]Bouekaetr R R,Frnak E,Hall M,et a1.WEKA manual for version [C]//Pr ̄of the 3rd International Workshop on Adversarila I ̄orma— 3-6—10[CP/OL].(2013-07—31).http://faeweb.as.depau1.edu/ tion Retrieval on the Web.New York:ACM Press。2007:81-88. mobasher/classes/csc478/Notes/WekaManual一3-6—10-1.pdf. [6]谷歌.网站站长指南[EB/OL].[2014].https://support.google. [19]Van Rijsbergen C J.Information retireval[M].London:Butter- eom/webmasters/answer/357697 hl=zh—Hans#. worths,1979. [7]Geng Guanggang,Zhang Yanming,Lee X D,et a1.A txaonomy of [20]Zou K H,O’Malley A J,Mauri L.Receiver—operating characteristic hyperlink hiding techniques[C]//Lecture Notes Computer Science, analysis for evaluating diagnostic tests and predictive models[J].Cir- vol 8709.Berlin:Springer,2014:165-176. culation,2007,115(5):654-667. [8]邢容.基于文本识别技术的网页恶意代码检测方法研究[D].北 [21]DMOZ[EB/OL].(2014—03—30).http://www.dmoz.ors/. 京:中国科学院计算机网络信息中心,2012. [22]孙殿哲,魏海平,陈岩.Nutch中庖丁解牛中文分词的实现与评 [9]百度在线网络技术(北京)有限公司.一种检测黑链的方法和装 测[J].计算机与现代化,2010(6):187—190. (上接第2773页) chitecture for protecting integrity and privacy of software[J].Jour・ [3]Lee R B,Kwan P C,Mcgregor J P,et a1.Architecture ofr protecting nal of Parallel and Distributed Computing,2006,66(9):1 1 16— critical secrets in microporcessors[C]//Proe of International Sympo- 1128. sium on Computer Architecture.2005:2—13. [11]HallW E,Jutla C S.Parallelizable authenticationtrees[C]//Lecture [4]Yan C,Rogers B,Englender D,et a1.Improving cost,performance, Notes in Computer Science,vol 3897.Berlin:Springer,2006:95— nad security of memory encryption and authentication[C]//Proe of 109. the 33rd Annum International Symposium on Computer Architecture. [12]Elbaz R,Champagne D,Lee R B,et a1.TEC-Tree:a low cost and 2006:179—190. parallelizable tree for efifcient defense against memory replay attacks [5]Huang R,DenDY,SuhGE.ORTHRUS:eifcient softwareintegri- [C]//Lecture Notes in Computer Science,vol 4727.Belrin:Springer, ty protection on multi—cores[C]//Proe of the 15th International Con- 2007:289-302. ference on Architectural Suppo ̄for Programming Languages and [13]Rogers B,Chhbara S,Prvulovic M,et a1.Using address independent Operating Systems.2010:371-383. seed eneryption and Bonsai Merkle teres to make secure processors [6]Lee M,Ahn M,Kim E.I2SEMS:interconnects-independent security OS—and performance—firendly[C]//Proc of the 40th Annual IEEE/ enhanced shared memory muhiproeessor systems[C]//Proc of Inter- ACM International Symposium on Microarehiteeturc.2007:183-196. national Conference on Parallel Architectures and Compilation Teeh— [14]Elbaz R,Champagne D,Gebotys C,et a1.Hardware mechanisms for niques.2007:94・103. memory authentication:a survey of existing techniques and engines [7]Rogers B,Yan Chenyu,Chhabra S,et a1.Single—level integrity and [J].Trans on Computational Science,2009,5430(5):1-22. confidentilaity protection for distirbuted shared memory muhiproees一 [15]Szefer J,Biedermann S.Towards fast hardware memoyr inte ty che— 8o1"8[C]//Proc of Intenrational Symposium on Computer Architec— cking with Skewed Me ̄le trees[C]//Proc of the 3rd Workshop on ture.2008:161-172. Hardware and Architectural Support for Security and Privacy.2014: [8]Henson M,Taylor S.Memory encryption:a survey of existing tech. 90—97. niques[J].ACM Computing Surveys,2014,46(4):1—26. [16]Austin T,Larson E,Ernst D.SimpleSealar:an ifnr ̄tnrcturc for [9]Chen Long,Zhang Zhao.MemGuard:a low cost nad energy efifcient computer system modeling[J].Computer,2002,35(2):59-67. desing to suppo ̄and enhance memory system reliability[C]//Proc [17]Kleinosowski A,Flynn J,Meares N,et a1.Adapting the SPEC 2000 of the 41 st Annum International Symposium on Computer Ar- benchmark suite for simulation—based computer architecture research chitecuture.2014:49.60. [J].The Kluwer International Series in Engineering and Com- [10]Lu C,Zhang T,ShiW,et a1.M—Tree:a high eifciency security puter Science,2001,610:83—100. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top