搜索
您的当前位置:首页正文

网络搜索引擎技术与优化策略

来源:爱够旅游网
计算机光盘软件与应用 2011年第l1期 Computer CD Software and Applications 工程技术 网络搜索引擎技术与优化策略 苗邯军,艾青益 (武汉商贸职业学院,武汉430205) 摘要:搜索引擎是通过计算机联网,为用户提供查询所需信息的搜索工具,按其搜集信息的方式及不同服务方式可 分为目录式搜索引擎、机器人搜索引擎、元搜索引擎三类。搜索引擎在为用户带来方便的同时,还存在着诸如技术受限、 规则复杂、覆盖范围有限、准确度不高等局限性,因此应从网站的结构、内容、关键字、链接等方面进行搜索引擎技术优 化。 关键词:搜索引擎;网站结构;关键字;外部链接 中图分类号:TP393.01 文献标识码:A 文章墒号: Web Search Engine Technology and the Optimization Strategy Miao Hanjun,Ai Qingyi (Wuhan International Trade University,Wuhan 430205 China) Abstract:The search engine is through the computer network to provide users with the information needed by a query search tools,according to their way of gathering information and services can be divided into different directory—style search engine robots search engine,meta search engine categories.Search engine for the convenience of users,such as technology,there are still limited,rules are complicated,limited coverage,high accuracy is not liitmed,SO should the site structre,ucontent,keywo ̄s,links and other aspects of search engine technology optiizatmion. Keywords:Search engines;Site structure;Keyword;External links 搜索引擎即根据一定策略、运用特定计算机程序从互联网上 搜集信息,并对信息进行组织和处理后,为用户提供检索服务, 将与用户检索相关的信息展示给用户的系统。随着计算机网络技 术的飞速发展,网络已然成为人们日常工作生活中必不可少的一 部分。然而,网页数据量非常庞大,因此为了使网络使用者在纷 繁复杂的网络信息中准确找到自己所需的有价值的信息,提高网 络搜索引擎的效率,让搜索引擎做网页排序使得更有价值的搜索 网页排列在搜索结果前列,就成为网络搜索引擎技术优化的方向。 搜索引擎技术 (一)搜索引擎的定义及分类。搜索引擎,是指主要通过网 络搜索机器人在网络上搜索信息并加工处理,建成倒排索引,为 用户提供查询服务的一种工具。搜索引擎的组成部分包括负责搜 集网页的信息采集模块、负责组织处理信息的文档组织索引模块、 连接用户与搜索引擎的检索模块。搜索引擎按其搜集信息的方法 及不同服务方式可分为如下三类: 1.目录式搜索引擎。目录是搜索引擎亦称之为网站检索,这 类搜索引擎往往伴有网站查询功能,可以在提供文字输入框中输 入要查询的信息,然后点击旁边的按钮,搜索引擎就会在目录里 查询相关网站和内容提要,并将内容列表传送过来。目录式搜索 引擎是以人工或半自动方式搜集信息,先由搜集员查看信息,然 后人工形成摘要,同时在分类框架中置入信息。这类搜索引擎由 于加入人工智能,提高了信息的准确性和导航的质量,但是因为 需要介入人工的缘故,这类搜索引擎往往有信息量少、信息维护 量大、信息更新不及时等缺点。2.机器人搜索引擎。所谓机器人 搜索引擎,是指运行名为蜘蛛的机器人程序,按某种策略自动在 一的筛选工作量,未能充分发挥搜索引擎的功能。 (二)Web信息预处理。读取保存web页面后,要实现对信 息的处理,就要过滤掉html指控命令等无用信息,因此,Web信 、息预处理,是提取html文档的标题、内容、新连接、关键字及文 档的描述五种信息,将其转化为txt文本文件的过程。 (三)Page Rank的算法。Page rank是Google排名运算法 则的一部分,是Google用于标识示网页等级和重要性的一种方 法,是Google衡量网站好坏的唯一标准。因此,Page rank值和 搜索结构之间的相似程度是搜索引擎排序的依据。Page rank的 计算公式是: PR(t1 .PR(tz) PR(tn) PR (1-d)州 而十面十 (四)搜索引擎的发展历程。1.早期文件定位和传输文档方 式。早期文件定位和传输文档方式有Archie、Gopher、Veronniea、 互联网中搜索信息,它的工作过程是先通过索引擎建立信息索引, 然后将用户查寻信息通过检索器输入到检索索引库,最后将查询 结果反馈给用户。这类搜索引擎具有无需人工干预、信息量大、 信息更新及时的优点,同时也具有信息量过多导致很多返回的信 息是无用信息,加大用户筛选工作量的缺点。3.元搜索引擎。元 搜索引擎是通过一个统一的用户界面帮助用户在多个搜索引擎中 选择合适的搜索引擎来实现检索操作。这一类搜索引擎无自身数 据,仅是将用户的查询信息递交给多个搜索引擎,并将返回结果 做重复排除和重新排列,将最终结果反馈给用户。可见,元搜索 引擎有信息量巨大、信息覆盖面广的优点,但同时也加大了用户 一WAIS等。Archie是最常用的FTP服务器检索工具,用户无需记住 所有的FTP服务器,仅需登陆至Archie服务器,然后精确输入要 查询的程序名称或者文件名称,Archie就会在服务器中为用户搜 索所需程序及文件;Gopher主要运用于学术论文等文献的查询, 它是基于c/s结构的分布式文档发送系统,可以有效处理多台计 算机上分散的文件系统,并且它的操作简单易掌握,在网上文档 资料的查询工作中被广泛运用;geronnica加强了Gopher的功能, 它可以帮助用户通过多个Gopher服务器搜索多个文件夹下的多 个文档;WAIS即广域信息查询系统,它是一种对全文本信息进行 查询的系统,可以通过用户给出的关键词,在指定数据库中搜索 出相关条目全部文本。2.编目技术中搜索引擎技术的发展。随着 对文献编目技术不断探索和研究,现代文献的编目有了越来越多 的方法。既可以浏览页面,又可用于搜索的搜索引擎受到广泛欢 迎,其中具有代表性是Yahoo、Northen Light和Infomine等。 Yahoo创建了服务于非专业用户浏览与搜索的树状结构;Northen Light提供对关键词和标题组织文件夹的检索,效率很高; Infomine是~个网络的学术文献图书馆,通过浏览与搜索的方式 为用户提供服务。3.基于3w的搜索引擎技术。随着互联网技术的 发展及网络信息资源日渐增加,基于3w的搜索引擎技术成为搜索 引擎的发展趋势。所谓基于3w的搜索引擎,即从3w数据库中搜 4l一 计算机光盘软件与应用 工程技术 Computer CD Software and hppl ications 2011年第11期 索信息,并构建索引数据库,向用户提供检索信息的服务工具。 成关键字堆砌,因为一旦触动了搜索引擎过滤器对其进行过滤, 基于3w的搜索引擎发展历程包括,以Lycos、Infoseek等为代表 的第一代搜索引擎,它们的检索速度还比较慢;以Inktomi、 AltaVista为代表的搜索引擎在技术上和数据量上较第一代有了 很大进步;以Inktomi、NL等为代表的搜索引擎时代,网页数量 突破了1亿;以google、百度等为代表的最新一代搜索引擎为用 户提供了更多的数据信息,其数据量已突破2O亿。 (五)搜索引擎技术存在的问题。搜索引擎能够为用户提供 广泛、及时的信息,为网络用户工作生活提供了很大的便利,然 而,受到技术水平限制,使用搜索引擎对网络信息进行检索中还 存在如下一些问题: 1.检索技术受制。由于搜索引擎存在着复杂检索功能缺乏的 技术限制,检索技术不够完善,导致搜索引擎的检索结果重复率 反而会造成页面排序降低甚至被屏蔽的结果,关键字的密度一般 应控制在2%一8%之间。 (四)链接的优化。合理有效的链接是网络搜索引擎技术优 化策略的重要因素,对于搜索引擎来讲,一个网站排名的先后取 决于其外部链接的数量和质量。 1.外部链接。搜索引擎认为,一个网站的价值越高,其他网 站对其提及的频率就会越高,可见网站即便没有提交目录,若其 他重要网站有该网站的链接,同样会被搜索引擎快速抓取,进而 提高网站排名。获取高质量的外部链接的方法有,向百度、yahoo、 google等搜索引擎的目录提交本网站;提高网站的质量,寻找搜 索引擎的分类目录下的相关网站、本网站竞争者链接的网站、与 本网站有业务关系的网站等等,申请与其加为友情链接;通过提 高、检索网页打不开、专业检索与多媒体检索能力差、信息更新 迟缓及搜索引擎理解力底等缺陷。 2.检索规则复杂。由于用户在很多情况下难以用关键词及关 键词组配来准确地表达其需要的信息,搜索引擎要求用户掌握一 定检索规则,加之不同搜索引擎下同一搜索方法往往表达方式有 差异,导致用户的检索工作不易进行。 3.检索范围有限。搜索引擎的覆盖面还很有限,就连作为全 球最大搜索引擎的Google也没能达到覆盖全部网页的1/6。搜索 引擎一般仅索引一些类似博客、新闻信息网站等的最新页面,一 般不超过三个月,很多类型的网站都被忽略了。 4.检索结果准确性不高。在搜索引擎中输入搜索信息,经常 会返回大量结果,然而在这些结果中,很大一部分都不是用户需 要的信息,有些页面点击后甚至会出现网页跳转现象,使得检索 的准确性不高。 二、网络搜索引擎技术的优化策略 (一)网站结构的优化。首先,应尽量用文本链接构成栏目 导航系统,运用相关工具对图片链接导航的图片予以关键字填充, 并将相似栏目组织在一起以提升关键字群体的密度;其次,一级 栏目首页URL一般以不超过2个层次为宜,详细信息页面不应超 过4个层次;最后,减少页面体积,选择正确的页面编写代码, 并精简多余的无效代码。 (二)网站内容的优化。网站拥有丰富的、有价值的内容是 搜索引擎优化的重点,对网站内容的优化应做到,保证网站内容 的质量及与其主题的契合性,网站的内容一定要有价值;搜索引 擎只能根据页面内容判断网址与关键词的相关性,因此应尽量在 网页的标题、页面主要内容及段落开头部分体现关键字,尽量准 确编写Meta的属性,页面命名及图片名称亦应尽可能使用关键字 或者搜索引擎可理解的代码。事实证明,一个内容丰富多彩、主 题旗帜鲜明的网站才是用户所欢迎的网站,抛开内容谈搜索引擎 的优化毫无意义,要想让本网站不断发展并得到搜索引擎信任, 只有源源不断地提供丰富的、有价值的内容。 (三)关键字的优化。关键字是用户为找到所需网页而在搜 索引擎中输入的有一定特征的语句,可见关键字对搜索引擎的营 销有着重大意义,是搜索引擎优化工作的重中之重。对于关键字 的优化,首先应对目标用户进行调查研究,统计他们在对相关信 息查询时会输入什么样的语句,然后通过记录、整理,筛选出作 为关键字的结果,关键字应根据业务种类或产品种类尽量选择具 体的、人们在搜索中常用到的词,并且保证关键字要与网站的主 题相吻合;关键字的位置决定着搜索引擎对其在页面的重要性的 判断,因此将关键字置于标题和meta标签等中,有助于提升对网 页的搜索排名;关键字的密度是影响搜索引擎排名结果的重要因 素,它是指关键字占除了html代码之外的页面内容的比例,一般 情况下,页面某关键字密度的高低与搜索引擎对页面与该关键字 的关系大小判断直接相关,但也应注意切勿过度使用关键字而造 供免费资源、丰富网站内容等方式提高网站质量,增加网站被链 接及转载的几率,这也是提高排名的重要手段;在一些重要网站 发表带本网站签名的专业文章,提高本网站知名度,获取更高质 量的外部链接,等等。 2.内部链接和导出链接。搜索引擎除分析外部链接外,也会 分析导出链接,如果在网站增加适当、适量的与本网站的主题相 关的网站链接,在丰富网站内容的同时,还可提升搜索引擎对本 网站的排名。然而,应注意对导出链接数量的控制,一般一个页 面不应超过15个。 网站内部链接的优化是一项长期、稳定且可控的工作,因此 应作为链接优化的重点。内部链接是链接网站内部页面之间的纽 带,一个站点应做好所有页面之间的链接,并将重要页面对应链 接到其他页面,便于搜索引擎识别进而对其进行重点索引。需注 意的是,一定要保证所有连接的有效性,以免影响排名。 3.搜索安全的优化。网络搜索引擎在推广网站的同时,也为 网站埋下了安全隐患。有些单位并不希望自己的网页被单位外部 或部门外部的人共享,这是就需要对网站进行搜索引擎安全优化, 可在网站根目录下建立一个名为robots.txt的文本文档,指明搜 索引擎可搜索的范围,保证本网站的安全性。 三、结束语 、 总之,对网络搜索引擎技术的优化是一项复杂而精细的工作, 如何让用户更方便、更快速、更准确地利用搜索引擎找到所需的 有用信息,是搜索引擎技术优化的最终目的。本文给出的几个优 化策略仅是从几个重要方面进行简单的探讨,在网络信息技术飞 速发展的今天,改善搜索引擎技术还需要投入更多的人力、物力 等资源进行不断探索和研究。 参考文献: [1】崔明,王振姬.当前搜索引擎技术的不足及改进Ⅱ】.图书馆学 研究,2006,7 [2]刘存杰.互联网搜索引擎技术的性能优化策略Ⅱ】.科技咨询 导报,2007,6 [3]聂影.浅议搜索引擎优化sE0Ⅱ】.科技信息,2010,34 [4]高阿云.浅议搜索引擎优化技术Ⅱ】.硅谷,2008,11 [5]谭营军,李翠霞.搜索引擎技术的研究与展望Ⅱ】.电脑知识与 技术,2011,3 [6刘小鸿.6】搜索引擎技术及其优化策略Ⅱ】.中国医学教育技 术,2010,4 [7]刘昊.搜索引擎优化策略在新闻网站中的应用田.电脑知识 与技术,2009,8 [8]夏勇.网络信息检索与智能化搜索引擎Ⅱ】.科技信息,2009,14 【9】焦丽,路波.基于五大因素的搜索引擎优化研究Ⅱ】.中国管理 信息化,2009,17 [1o]张瑞平.搜索引擎技术分类及其发展过程卟中共陕西省委 党校学报,2010,6 —42— 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top