摘要:通信工程师终端与业务考试技术模式:査询处理与分词是中文搜索引擎必不可少的工作,而百度在“中文分词”方面具有其他搜索引擎所不具有的关键技术和优势。
3.3.3 技术模式
1.中文分词技术
査询处理与分词是中文搜索引擎必不可少的工作,而百度在“中文分词”方面具有其他搜索引擎所不具有的关键技术和优势。
用户向搜索引擎提交杳询,搜索引擎一般在接收到用户查询后要做一些处理,然后在索引数据库外面提取相关的信息。百度在接收到用户查询后首先根据分割符号将査询分幵,然后査看是否有重要的字符串,如果冇,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果柯,就把英文或者数字当做一个整体保留并把前后的中文切开。
接下来首先用专有词典采用最人正向匹配分同,切分出部分结果,剩余没有切分的交给普通词典,同样采取正向最大匹配分词,最后输出结果。
2.自主知识产权
在互联网中文信息的检索和内容传递方面,百度可以说当仁不让。没有过硬的技术资木,没有过硬的核心竞争力,很难在即将到来的全球经济一体化的大环境中获得竞争的最有利地位,百度很早就认识到/这一点,并正在按照这样的战略思路发展。从1999年成立到2000年年初申请了中国互联网技术领域第一个自主知识产权,到现在百度开发出了一系列的具有世界水平的信息检索软件产品和技术,其中包括互联网大搜索技术、百度“网事通”、百度实时信息检测系统、网站加速CDN等,都取得了相当大的成功。
3.创新技术研发
百度每年在搜索引擎技术和产品等方面的研发投入均超过公司年度营收的1/3,此研发投入比例在国内外企业中都是罕见的。2008年百度的研发投入卨达10亿元。百度的产品研发和创新理念是专注于搜索引擎,牢牢扎根于用户需求,力求为用户提供最便捷的信息获取方式。
返回目录:
编辑推荐:
通信工程师备考资料免费领取
去领取