您好,欢迎来到爱够旅游网。
搜索
您的当前位置:首页一种新闻网页正文信息的提取方法[发明专利]

一种新闻网页正文信息的提取方法[发明专利]

来源:爱够旅游网
专利内容由知识产权出版社提供

专利名称:一种新闻网页正文信息的提取方法专利类型:发明专利

发明人:舒文兵,吴於茜,肖建国申请号:CN200510132372.0申请日:20051221公开号:CN1786965A公开日:20060614

摘要:本发明涉及一种新闻网页正文信息的提取方法,属于网页信息分析处理技术领域。现有技术中,通常采用包装器来抽取网页中感兴趣的数据,而包装器是根据一定的信息模式识别知识从特定的信息源中按固定规则抽取相关内容,并以特定形式加以表示的,包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。本发明所述的方法以堆栈数据结构,把网页数据的层次结构信息转化为用向量表达,构建和解析Html树,然后将Html树的各层次数据做对比,进行数据过滤,细化、识别,和数据重组,提取所需的数据信息。采用本发明所述的方法,适用于长期从一固定站点抓取由模版生成的新闻网页中的新闻信息,速度快,准确性高。

申请人:北大方正集团有限公司,北京北大方正技术研究院有限公司,北京大学

地址:100871 北京市海淀区成府路298号方正大厦

国籍:CN

代理机构:北京英赛嘉华知识产权代理有限责任公司

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igbc.cn 版权所有 湘ICP备2023023988号-5

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务