随着企业信息的飞速增长,企业信息检索逐渐成为信息检索领域研究的热点,中文分词作为信息检索的文本处理阶段一个重要步骤,直接影响着检索结果的准确性。学术界关于分词技术的研究一直比较多,但是目前的研究大多是通用的分词算法,专门针对企业检索应用的分词技术研究相对较少。因此,研究中文分词技术在企业信息检索中的应用有重要的理论和现实意义。本文研究了中文分词的关键技术及难点,分析了分词对大规模信息检索的影响,在此基础上结合企业信息检索中分词技术的特点,设计了中文分词系统(EIRCWS)。由于面向企业信息检索的分词算法对时间性能要求较高,本文设计了一种新的多字哈希结构的词典,改善了词典查询算法,提高了分词效率。歧义消除和未登录词识别是分词的两大技术难点。考虑到企业信息检索应用的特点,在歧义消除部分,本文重点解决交叉歧义问题,利用双向匹配结果进行比较来检测歧义,采用自定义规则来消除歧义。在未登录词识别部分,本文提出了一种新的未登录词识别方法,利用数量词识别规则和虚字辅助切分分词碎片,通过局部词频统计结合单字非词概率,使得算法在不依赖大型语料库的前提下可以有效地识别多个领域中各种类型的未登录词。实验结果表明,本文设计的分词系统,分词速度快,准确率高,而且对未登录词具有很强的识别能力,符合企业信息检索对中文自动分词的要求。
本文来源: https://www.lw50.cn/article/8d5feb6162e28300f5e50c34.html