电子商务员基础知识之常用检索工具

Google


Alta Vista支持的布尔和接近检索二元操作符有AND(&)、 OR(|)、NEAR(~)和一元操作符NOT(!)。AND连接的若干词在文件中要同时出现;OR 确保检索式中至少有一个词出现在文件中;NOT 将某一个词从检索中排除出去。它们的优先级是递减的,另外要注意,如果把检索的表达式写成sports NOT swimming,则语法上是不合逻辑的,正确的写法应该是sports AND NOT swimming. NEAR 确保查询的两个词在10个字节内出现,它的优先级是最低的。如果将上述符号用在检索表达式中,最好给检索表达式加上引号以减少检索表达式的混乱。               
    Alta Vista的优点是:在所有的检索软件中,它的功能最全面,查全率和查准率最高,全文标引系统质量可靠;在检索语句上与传统的联机检索语言类似,更容易掌握;系统反应速度快;网页链接可靠。缺点是文件相关性评估的质量一般。                 
    (2)Excite检索引擎                
    Excite检索引擎是Architext软件公司的产品,该数据库界面友好,用户可以利用关键词、词组和自然语言检索,自然语言检索越详细越好。                
    Excite检索引擎有基本检索和高级检索两种检索方式。其中,Excite中要求的单词和排除的单词的使用方法同Alta Vista一样,使用" "号和"-"号。Excite支持二元操作符AND、OR、AND NOT 和一元操作符 NOT.它也支持用括号来构成逻辑组。缺省的关键词使用的是隐式的OR ,即它检索含有指定的任意的单词。                 
    Excite的优点是采用了概念检索的技术。概念检索是指在检索文件的过程中,不仅能够检索到含有用户提出的关键词的文件,还能检索到与用户的检索主题密切相关、但并没有包括这些主题词的文件。在所有的检索软件中,它的更新速度最快,且其数据库的规模也最大。另外,它在提供相关信息方面表现颇佳。Excite的缺点是它的相关性排序质量一般,检索结果也显得不尽人意。                
    随着世界华人对因特网商业价值的认同,越来越多的华人开始利用因特网传递商业信息,中文网站内容也不断丰富。面对巨大的市场利益的诱惑,出现了越来越多的中文检索工具,一些原来的英文搜索网站也纷纷推出自己的中文网站。                
    (3)非全文数据库的检索软件                
    Lycos 是最早出现的检索引擎之一,它是以巡视软件为主的非全文数据库检索工具,由美国卡内基梅隆大学的机器翻译中心开发研制。它利用巡视软件自动搜集网页,对其进行分类,并建立数据库,提供关键词和主题查询(主题查询叫做目录服务)的检索服务。               
    用Lycos查询带符号或数字的词时,最好使用说明性的语言,如用"programming languages C ",而不要用"C ";用"convenience stores 7~11",而不要用"7~11".Lycos用" "表示所选择的是与某一主题高度相关的文件,如用"telecommunication TV"选择远程通信中与电视密切相关的文件;排除不必要的文件用"-",如用"telecommunication-radio"选择远程通信不包括无线电。Lycos用". "表示准确匹配该词;用"contentquot;表示自动截词符号,查询以该词为词根的所有文件。               
    Lycos的优点在于它的速度快、使用简便、索引量大,它的弱点则是它不支持布尔检索和其他如Alta Vista或Excite能提供的一些高级检索。

 

电子商务员基础知识:常用检索工具(二)

3.主题指南类检索软件
    (1)Infoseek 检索系统               
    Infoseek 以前曾经是Netscape的缺省检索引擎。1995年由Infoseek公司开发,它是第一个提供有偿服务的网络信息检索系统。                
    Infoseek具备高级检索的功能。与其他检索系统不同,它不提供布尔逻辑式检索,而是使用特殊的符号。如果检索词是一组短语,而文件中也出现了这一短语,那么检索软件会认为这一文件的相关性评分最高。如果短语中有3个关键词,那么第一次检索并不把它作为词组对待;如果重复检索,则将这3个关键词作为词组对待。使用Infoseek 查询时,姓名和专有名词要大写,如 Steve Jobs、 December、Star Wars等;在姓和名之间要用逗号"," ,如Clinton, Chelsea;用双引号"" ""来查找连在一起的词,但不能用单引号;用连接号"-"检索两个连在一起的词,如Cable-networks,用"-" 连接的两个词表明这两个词必须同时出现;用"[]"检索在100词之内出现这两个词的文件,如 [Web search];用"( )"来检索彼此靠近、但可以任何顺序排列的词;要求或排除操作符与Alta Vista相同;" "号和"-"号的用法也与Alta Vista相同。                 
    Infoseek检索对大小写敏感,大写的单词被当成正确的名词来查找,相邻的大写单词被认为是一个词组。大写词组须用逗号分开,如:The Great Bambino,Baseball Hall Of Fame.                
    Infoseek检索的优点在于它的速度快和使用方便。它既是检索引擎,又是可检索的主题目录,可以检索UseNet NewsGroups、E-mail地址和Web的FAQ.由于软件排除数据库中重复的URL,每一个URL只标引一次,因此在Infoseek上检索到的重复文件相对比较少,它特别适合缺乏检索经验和训练的用户。它的缺点在于数据库规模小,数据库综合性不强,而且缺乏高级功能,不支持布尔检索。                
    (2)Yahoo!(Yet Another Hierarchically Officious Oracle)                 
    Yahoo!不是搜索引擎,而是严格的层次组织的主题索引。它已经开发了很长时间,有很多编辑人员来维护,所以质量非常高。当不知该去哪里的时候,在Yahoo!上浏览是找到好站点的最好方法。它也是找到好的"初学者"站点的最好方法,从那里可以连到更专门的站点上。为了方便中国客户,目前,Yahoo!网站新开设了中文版本(包括简体和繁体版本)。                 
    Yahoo!是一个极好的联机商业机会搜索资源,它提供简单检索和细节检索。前者主要检索一级目录,后者可使用布尔逻辑式检索。Yahoo!检索软件的一个独到之处是用户可以利用它的检索工具以关键词的方式查询它的目录,它的检索软件是由Open Text公司提供的,因此在检索时,一方面检索Yahoo!的主题目录,另一方面检索Open Text提供的收有100万Web文件的Open Text数据库。                
    Yahoo!的使用很简单。只要输入查找单词,单击按钮即可。它将返回三种信息:满足查询条件的Yahoo!的目录、满足条件的实际站点和其他检索工具。               
    用户可以根据自己的需要确定搜索的范围是Yahoo!(缺省),Usenet或Email Address;选择搜索词之间的关系:OR还是AND(缺省);决定是进行子串搜索(如输入head,可以查headlines ),还是进行完整的单词搜索(如输入headlines 才搜索headlines)。缺省是子串搜索。用户还可以控制每页显示的结果数目:10,25(缺省),50或100.                 
    Yahoo!的优点是速度较快,通过主题巡视查准率高;缺点是查全率低,相关性排序质量一般                
    4.中文检索类软件(1)中文搜索引擎的特点              
    ●内码:由于历史与政治的原因,目前两岸三地在中文语言的使用上逐渐有了较大的差别,体现在计算机处理上也有很大的不同,其中最重要的区别是采用不同的字符集及内码体系,大陆用的是GB码,而台湾则用的是BIG5码,字符集的大小也不尽相同。作为一个要涵盖网上中文信息的中文搜索引擎就不能不正视这个问题,想办法去解决这个问题,如在搜索引擎内部将其统一在一个内码体系中(如UNICODE)或者是一个大字符集中(如GBK)等。             
    ●分词:英文单词的分隔相当清晰,用空格分隔。而中文的字词则不能简单地进行分隔,因此有不同的处理方法。一个是完全单汉字全文检索,即将文章中的每一个汉字都做索引,而将用户的检索提问根据单汉字匹配的原则去进行检索。此法虽然能够保证有很高的查全率,但却经常返回一些杂乱无章的检索结果。所以说,这是较容易造成答非所问的处理方法。除此以外的方法则是根据一定的原则和方法来对文章进行自动分词,然后按词建库,对用户的检索结果按词汇匹配来进行查询。一般来讲,这种处理方法较容易返回符合用户检索词概念意义的检索结果,但是分词技术的好坏直接影响到查全率。从目前中文搜索引擎实际情况来看,绝大多数的搜索引擎采用分词的处理方法,因为这样除了较准确之外还能提高整个系统的检索响应效率。中文分词的另一层意义则是指对于用户输入的查询语句进行自动分词,然后用分解后的词汇来进行检索,这种做法降低了用户在检索式组织上的工作量,提高了查全率和查准率。              
    ●分类:除了专门的分类搜索引擎(如Yahoo!等)之外,大量的关键词搜索引擎也采用了以分类目录进行导航的方法。这一现象在中文分类搜索引擎中更为普遍。但是由于文化的差异,中文搜索引擎分类类目具有与国外搜索引擎分类类目不同的特点。               
    (2)网络语言翻译问

关于我们 | 联系我们 | 合作服务 | 友情链接 | 版权声明 | 网站地图 Copyright 2008 Powered By NiLaDa尼拉达电子商务网(青岛) 鲁ICP备08011064号
. 尼拉达电子商务 电子商务创新生活