基于DCC动态流通语料库的中文组织名考察与研究

基于DCC动态流通语料库的中文组织名考察与研究

论文摘要

中文组织名是组织的专有名称。本文首次基于大规模真实文本,对中文组织名进行了宏观到微观、历时动态到共时静态的多角度考察研究。本研究将为中文信息处理提供有效资源和规则知识,为中文组织名命名标准制定及组织名、域名注册管理提供参考,为语言资源监测的深入发展探索新的方向。本文取得了以下较有特色的研究成果:一、界定了中文组织名的内涵和外延,厘清它与非中文组织名的界限,从中心词角度提出中文组织名形式化分类体系。二、基于DCC动态流通语料库建立了中文组织名研究语料库,建立中文组织名资源库。语料库选取2002—2006年六份主流报纸熟语料,共计1,360,416个文本,8,750,105种词、247,257,749个词、16亿字节。中文组织名资源库包括三个主数据库和五个子数据库。三个主数据库是:①《中文组织名原始信息库》,记录3,954,716个组织名识别结果及其词性标记(ORG、AORG)、文本领域属性、时间属性、上下文窗口等原始属性。②《中文组织名总表》,记录615,681种组织名识别结果,进行中心词标记和二次分词,记录字长、词长、频次等统计数据。③《中文组织名分布信息库》,记录615,681种组织名识别结果的频率、累加频率、文本散布数、领域分布数、报纸分布数、年度分布数等统计数据。五个子数据库分别是:①《中文组织名用字库》:记录《中文组织名总表》全部5,241种23,130,786个字符。②《中文组织名用词库》:记录《中文组织名总表》前60万组织名使用的36类70,110种2,352,589个词。③《中文组织名禁用词库》:记录11类组织名禁用词性、6类组织名禁用字符串及三大实词中的禁用词。④《常用中文组织名库》:经人工校对获得15,970条正确组织名,累加频率70%。⑤《中文组织名简称全称对照词表》:从《中文组织名总表》获取的3000对简称全称。三、考察了中文组织名分布特征,从频率、字长、领域、年度、报纸等角度考察组织名分布情况。提出并研究中文组织名“领域表征值”及其对文本分类和通用词研究的意义。四、研究中文组织名的结构、成分、缩略和上下文搭配。提出中文组织名的两种结构模式,分析四类结构成分的形式、性质、规则条件,提出组织名缩略的九项原则和组织名简称识别方法,确定了中文组织名的三类上下文搭配形式及其在消歧、浅层句法分析方面的应用价值。最后应用规则知识,提出中文组织名识别的实用方案,并进行了具体实验。实验表明,禁用词性自动过滤85475种识别错误组织名,占种数13.92%;禁用词自动过滤44,307种识别结果,占种数7.20%;非组织名中心词自动过滤了11,711种识别结果,占种数1.9%,占总数9.2%。五、提出动态监测中文组织名的意义和方法,以“年度组织名监测”为例进行了监测实验。六、整理分析中文组织名命名、使用中的不规范现象及新问题,提出了具体的规范化建议。下一步我们将进一步完善资源库建设,应用语义词典等外部资源对禁用词、分类体系、内部结构模式进行深入研究。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 本研究的目标与内容
  • 1.2 本研究的背景与动机
  • 1.3 本研究的理论基础与工作平台
  • 1.3.1 语言的动态与稳态
  • 1.3.2 语料库语言学与动态流通语料库
  • 1.3.3 国家语言资源监测
  • 1.3.4 中文分词标注系统
  • 1.4 本研究的意义
  • 1.4.1 中文信息处理
  • 1.4.2 语言资源监测
  • 1.4.3 汉语语言学
  • 1.4.4 语言规范化
  • 1.4.5 社会管理
  • 第二章 中文组织名的识别
  • 2.1 中文组织名识别的意义
  • 2.2 中文组织名识别技术研究
  • 2.3 中文组织名识别的困境
  • 2.4 对策:语言研究与资源库建设
  • 2.5 面向识别的中文组织名资源建设现状
  • 2.6 本章小结
  • 第三章 中文组织名的界定与资源建设
  • 3.1 中文组织名的界定
  • 3.1.1 内涵
  • 3.1.2 外延
  • 3.1.3 组织名、非组织名的区分
  • 3.2 语料库
  • 3.3 中文组织名资源库
  • 3.4 中文组织名识别系统和中文组织名辅助校对系统
  • 3.5 本章小结
  • 第四章 中文组织名分布特征考察
  • 4.1 频率分布
  • 4.2 领域分布
  • 4.3 历时分布
  • 4.4 报纸分布
  • 4.5 字长分布
  • 4.6 本章小结
  • 第五章 中文组织名的规则知识研究
  • 5.1 中文组织名规则知识研究综述
  • 5.2 中心词
  • 5.2.1 非中文组织名中心词
  • 5.2.2 小概率中文组织名中心词
  • 5.2.3 单义组织名中心词
  • 5.2.4 兼类组织名中心词
  • 5.2.5 中文组织名简称中心词
  • 5.3 中文组织名形式化分类
  • 5.4 中文组织名的结构模式
  • 5.5 中文组织名用字研究
  • 5.6 中文组织名识别结果用词概貌
  • 5.7 中文组织名用词研究
  • 5.7.1 中文组织名识别结果中的词性
  • 5.7.2 中文组织名识别结果中的字符串
  • 5.7.3 三大实词的中文组织名禁用词
  • 5.8 中文组织名构成成分研究
  • 5.8.1 地名
  • 5.8.2 字号
  • 5.8.3 内容说明成分研究
  • 5.9 中文组织名的缩略规则
  • 5.9.1 《中文组织名简称全称对照词表》
  • 5.9.2 中文组织名缩略的理论原则
  • 5.10 中文组织名的上下文规则
  • 5.11 中文组织名规则知识在识别中的应用
  • 5.12 小结
  • 第六章 中文组织名动态监测
  • 6.1 国家语言资源及其监测的意义
  • 6.2 国家语言资源监测工作综述
  • 6.3 中文组织名动态监测的意义
  • 6.4 中文组织名动态监测的方法探索
  • 6.5 实验:基于中文组织名资源库的年度组织名监测
  • 6.6 本章小结
  • 第七章 中文组织名的规范化
  • 7.1 中文组织名规范化研究的内容和原则
  • 7.1.1 中文组织名规范化研究的内容
  • 7.1.2 中文组织名规范化研究的原则
  • 7.2 中文组织名规范化研究的意义
  • 7.2.1 中文组织名规范化与中文信息处理
  • 7.2.2 中文组织名规范化与社会文明
  • 7.2.3 中文组织名规范化与依法治国
  • 7.3 中文组织名命名的规范化
  • 7.3.1 中文组织名中心词的规范
  • 7.3.2 中文组织名地名的规范化
  • 7.3.3 中文组织名字号的规范化
  • 7.3.4 中文组织名内容说明成分的规范化
  • 7.4 中文组织名使用的规范化研究
  • 7.4.1 中文组织名的拼写规范
  • 7.4.2 一实多名与一名多实
  • 7.4.3 中文组织名规范化面临的新问题
  • 7.5 本章小结
  • 第八章 结束语
  • 8.1 全文总结
  • 8.2 进一步的工作
  • 参考文献
  • 附录
  • 读博期间科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于DCC动态流通语料库的中文组织名考察与研究
    下载Doc文档

    猜你喜欢