∀情报检索∀
信息检索的新方法检索结果自动聚类
宾锋
(上海图书馆上海200031)
摘要用户使用搜索引擎查找资料经常会面对着成千上万条的检索结果,这样就很容易忽略掉他们所要查找的信息。现有搜索引擎的主要缺陷是没有对检索结果分类和按人们查询习惯来进行再组织,检索结果自动聚类法--Vivisimo能很好地解决这个问题。本文着重介绍了Vivisimo的工作原理,与其他类似技术的区别以及应用实例。关键词信息检索聚类Vivisimo
近年来,随着互联网络上各种信息内容急剧增加,用户真正感受到了 信息爆炸!的结果,无论用户使用哪一种搜索引擎查找资料,大量的信息总是滚滚而来,面对着成千上万的检索结果,用户一般只能挑选列在前面的几十条信息进行查看,尽管许多搜索引擎利用相关性技术在这方面作了改进,也允许用户在前次检索结果的基础上作进一步检索,但是查看检索结果不便的问题始终未能得到彻底解决,用户常常为此苦恼和困惑,这个问题也被称作 太多数据但没有足够的信息!,其主要缺陷就是没有对检索结果分类和按人们查询习惯来进行再组织。根据这一情况,Vivisimo对返回给用户的检索结果做了改进:检索结果自动聚类。1Vivisimo的工作原理
从严格意义上讲,Vivisimo不是一个搜索引擎,也不是一个元搜索引擎,它不通过自动索引程序Robot(或人工)来广泛搜集网络信息资源数据,它只组织其他搜索引擎的输出结果,比如URLS、标题和简短的描述,它也能组织多个搜索引擎的组合输出结果,所以它更确切地说是一个聚类引擎。
Vivisimo的核心技术被称为文献聚类,也就是自动把文献组织成有意义的组。Vivisimo网络搜索与聚类引擎结合形成不同搜索引擎。那就是:a.能查询一个或多个网络搜索引擎;b.抽取文献的标题、URLS和简短描述以解析他们的检索结果页面;c.根据文献的标题、URLS和简短描述而不是根据整个网页来分组文献;d.排序组和每个组包含的文献;e.显示层次结构目录。整个过程的完成只需要几秒钟。
Vivisimo对那些希望弄懂大量文本信息的单位或个人很有帮助,它能处理各种类型的文本,能很轻松地把INTERNET、INTRANET和EXTRANET的搜索引擎集成起来。它采用了一种特定的启发性的算法把文本文献聚类或分组,这个算法是基于一个人工智能思想:一个好的类或文献分组应该拥有一个好的可读的描述,而不是先形成类,然后在思考该如何描述这些类,也就是说它是在首先形成可描述的类。它把一个专有软件嵌入到一个搜索引擎或从其他文本信息资源中检索出的检索结果的传递过程中。
从技术上讲,Vivisimo实现的是及时的、概念的、层次结构的文献聚类。
文献聚类就是自动把文献组织成组或类。文献聚类不同于其他的技术:分类、NorthernLight和抽词法等,因为它是完全自动的:没有任何一点人工干预(当然不包括人工写的基本算法)。
文献聚类面临最大的挑战是快速找到有意义的能被精确阐释的组。Vivisimo的创新依赖于一个新发现的启发式的算法。这个聚类算法已经用于一些没有固定格式的网页、专利文摘、会议文本和电视文本等,取得了很好的结果。
层次结构聚类就是Vivisimo把组按照层次结构或树结构组织起来,而不是简单产生一个组的清单列表。它使用了大家都非常熟悉的类似Windows资源管理器的界面。由于它非常直观,用户不需要培训就可以使用。当然用户还可以通过展开所有节点浏览全部的检索结果。
概念聚类方法是随着解释组的进程嵌在组的形成过程中,很象人手工聚类。但是,如果Vivisimo试图形成一个组,而这个组不能够被很好的描述,这个组将被取消。相比之下,那些主要依靠数学最优算法的方法则不然,在这些算法中是组形成后才归类组的描述,这通常会得出不好的结果。
及时聚类就是聚类在用户看到检索结果之前形成的。事先上不需要任何准备,也很少对整个文献集合作预处理。2与类似技术的区别
21与分类的区别聚类是一个完全自动的过程,能很快产生准确的注释,它不需要准备的步骤,也不需要保留。分类需要事先定义分类目录,这个分类目录会很大,而且目录不可能完全匹配文献的内容,而当新的文献要加入到文献集合时,就要修改这些分类目录。
22与NORTHERNLIGHT技术的区别NORTHERNLIGHT把整个资源集的每一篇文献分类到预定义的主题,然后在检索时,选择那些能最好匹配检索结果的主题。这种方法严格地说是传统图书馆员的翻版,图书馆员对大批图书进行分类处理,便于读者按类目、书名、作者姓名查找图书,同样道理,NORTHERNLIGHT对大量的信息根据预定义的主题加以分类,而Vivisimo不用预定义的主题。
23与抽词方法的区别抽词系统识别那些经常出现在检索结果的词汇,然后分组那些包含这些词汇的文献。这些方法需要克服词汇冗余的挑战,由于性质截然不同的词汇可以有重叠,比如 北京!和 北京大学!。同时,当单个文献变得越来越大时,比如普通的网络搜索引擎返回的超过两行或更多的概要,会碰到处理包含大量词汇返回结果的词汇分割的挑战。相比之下,象Vivisimo这样的聚类方法面临的主要挑战是当文献概要变得很短时是否能很好的完成任务。
31∀情报检索∀
3Vivisimo应用实例
JournalofInformationNo.11,2002
献用权威描述或元标记的词汇来重新标引的时候,他必须首先认识这个词汇。而Vivisimo提供的全自动的、及时的主题分组就可以避免这个问题。!
我们来看看IOPP是如何应用Vivisimo的?目前它有这样的规定:在IOPP中执行完一次检索后,如果检索结果集超过25条,可以选择聚类检索结果。如果检索结果集超过250条,当聚类检索结果时,将发现结果集中只有250条的搜索结果将呈现在屏幕左边文件夹中,也就是说只有头250条搜索结果将被聚类。文件夹根据每个文件夹包含的检索结果数量和搜索引擎输出结果中单个检索结果的全面等级来排序。我们用 SolidState!来检索:
输入检索词 solidstate!,得到的检索结果为 Yoursearchhasfound2429matchingarticles.!。点击 Clustertheseresultsbytopic!,检索结果中前250条记录按主题聚类(见图1)。图1的左边是按层次结构显示聚类结果,右边显示的是每一个主题下包含的论文(Category solidstate!>Thinfilm>Electron,Excitationscontains4documents)
2002年3月25日IOPP(英国物理学会出版社)选择Vivisimo来提供检索结果的聚类是为了提供给读者一个新的更好的寻找所需信息的方法,以加强他们的电子期刊服务。由于聚类技术是一个相对新的技术,IOPP应用Vivisimo聚类从某种程度上是一种实验。
根据LloydFletcher,IOPP企业应用发展部经理认为,Vivisimo吸引IOPP的是它的查询结果聚类的特别技术。他说: 检索结果聚类是信息检索的新方法,Vivisimo在这个方面有着巨大的跳跃式发展,通过试验Vivisimo的方法,我们目的在于表明聚类是如何对成千上万的使用IOPP网络期刊的物理学家产生巨大价值的。!他还说: 当IOPP自己的专家测试聚类特性时,Vivisimo的聚类处理的正确率达90%;而且这个特性还可以帮助读者发现学科发展新领域,同时可以避免这样的情况:编目人员在判断一个词是否有用或要把以前用没有索引和不可以检索的词汇标引的文
图1按主题聚类的检索结果
需要说明的是:
a.文献聚类是聚类分析的一个应用。当聚类期刊搜索结果时,Vivisimo聚类引擎只使用每篇论文返回的标题和文摘,文献之间的相似性的判断只根据搜索结果中可以看到的文本,而不根据整篇论文。
b.Vivisimo没有用预先定义的分类表或控制词表,每个类的名称从检索结果中产生。我们没有必要把Vivisimo得出的类同任何预先想好的想法(搜索结果应该如何安排)相比较;Vivisimo聚类引擎也不会强制把每篇文献放到类层次结构的一个简单位置,这些文献有可能覆盖了多个主题,它会把每篇文献放在最最适合的位置。Vivisimo正试图为每一篇文献寻找一个好的位置,其原理有些类似于分类人员手工聚类一个不熟悉领域的文献。
识。
就象Vivisimo的总裁和合作创办者RaulValdes-Perez所说: 用户使用搜索引擎查找资料经常会面对着成千上万条的检索结果,经常容易发生忽略掉他们所要查找的信息的情况,Vivisimo聚类引擎将允许物理学家看到更多的物理学词汇,就象天文望远镜能让宇航员看到更远的太空。!
我们相信Vivisimo的出现会给我们的网络检索带来新的方法和手段,用户利用它将会更容易找到他们不曾知道的信息和知
参考文献
1万跃华.科研工作者的检索引擎northernLight.电脑技术,1998;(8)2http://Vivisimo.com/html/faq.html,20025283http://www.iop.org/EJ/S/3/1184/search,2002528
(责编:王京钧)
32
因篇幅问题不能全部显示,请点此查看更多更全内容