古代汉语史书语料库建设的初步研究

古代汉语史书语料库建设的初步研究

论文摘要

如何利用计算机对自然语言进行处理,以便分析、综合、翻译其内容,有着重要的理论与实用价值。在海量数据涌现的互联网时代,尤为重要。在自然语言处理中,以大量真实语料构建语料库并使用统计方法获得之中的语言知识以建立模型进行处理的方法,获得了蓬勃发展,在实践中有着良好表现。而语料库建设,就成了自然语言处理的基础工作。本文探讨古代汉语史书语料库的建设。阐述了建设的一般流程;讨论了语料的选择、编码的确定、字符层面的清洁处理、断句以及断句标点的清洁处理等主要步骤;给出了从已有网页文档开始,直到生成经过清洁处理、断句的初步加工的语料的通用算法;接着,本文探讨了语料库的查询功能的设计;之后,详细描述了若干关键算法与结构的设计与实现;在以上工作基础上,开发了一整套用于语料建设的工具软件;并具体构建了《资治通鉴》语料库。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第1章 背景与工作介绍
  • 1.1 背景
  • 1.1.1 时代的需求
  • 1.1.2 自然语言处理的内容
  • 1.1.3 自然语言处理的定义
  • 1.2 自然语言处理的历史发展
  • 1.2.1 开创时期
  • 1.2.2 理性主义盛行时期
  • 1.2.3 经验主义复苏时期
  • 1.2.4 繁荣时期
  • 1.2.5 研究现状
  • 1.3 语料库
  • 1.3.1 语料库的分类
  • 1.3.2 国外的语料库建设
  • 1.3.3 国内的语料库建设
  • 1.3.4 国内的古代汉语语料库建设
  • 1.4 本文工作介绍
  • 1.4.1 古代汉语史书语料库建设的一般过程与通用算法
  • 1.4.2 基本的索引与检索工具
  • 1.4.3 主要算法与数据结构
  • 1.4.4 系统设计与一整套工具软件的开发
  • 1.4.5 《资治通鉴》语料库的具体构建
  • 第2章 史书语料库建设的流程与算法
  • 2.1 语料的选择
  • 2.2 编码问题
  • 2.2.1 编码的选择
  • 2.2.2 私用汉字编码
  • 2.3 标注格式的确定
  • 2.4 网页文档到粗糙语料的转化
  • 2.5 字符层面的清洁
  • 2.6 断句、断句标点的清洁
  • 2.7 本章小结
  • 第3章 语料库的查询
  • 3.1 语料库的基本特点
  • 3.2 语料库查询的基本问题
  • 3.2.1 检索的基本问题
  • 3.2.2 语言关系的基本问题
  • 3.3 统一的解决方案:SAG
  • 3.3.1 基本思想
  • 3.3.2 SAG的基本结构
  • 3.3.3 SAG的基本操作
  • 3.3.4 算法的设计
  • 3.4 本章小结
  • 第4章 重要算法与结构
  • 4.1 多模式字符串搜索
  • 4.1.1 Aho-Corasick算法
  • 4.1.2 改进算法automps
  • 4.1.3 等长多字节编码的处理
  • 4.2 网页正文抽取
  • 4.3 编码字符处理
  • 4.3.1 不等长编码字符获取mixgetter
  • text'>4.3.2 不等长编码文本遍历iteratetext
  • 4.3.3 字符层面清洁
  • 4.4 语料剖析
  • 4.4.1 剖析至段落层次
  • 4.4.2 段落剖析算法
  • 4.4.3 断句算法
  • 4.5 SAG-2在GB18030双字节编码下的设计
  • 4.6 本章小结
  • 第5章 系统设计
  • 5.1 结构与组织
  • 5.1.1 主要功能模块与语料数据处理过程
  • 5.1.2 系统组织
  • 5.1.3 语料库组织
  • 5.1.4 应用程序组织
  • 5.2 主要应用程序的设计与算法
  • 5.2.1 htm12txt
  • 5.2.2 wordpurify
  • 5.2.3 sntcpurify
  • 5.2.4 sntccut
  • 5.3 语料库建设的操作步骤
  • 5.4 通用性与可移植性考虑
  • 5.5 系统结构组织列表
  • 5.6 本章小结
  • 第6章 《资治通鉴》语料库建设与实验
  • 6.1 实例:《资治通鉴》语料库建设
  • 6.1.1 选择《资治通鉴》作为语料
  • 6.1.2 选择GB18030双字节编码
  • 6.1.3 确定标注格式
  • 6.1.4 网页文档到粗糙语料的转化
  • 6.1.5 字符层面的清洁
  • 6.1.6 断句、断句标点的清洁
  • 6.2 实验方法
  • 6.2.1 正确性验证
  • 6.2.2 效率验证
  • 6.3 实验内容与结论
  • 6.3.1 正确性
  • 6.3.2 效率
  • 6.3.3 实验结论
  • 6.4 工作环境
  • 6.5 本章小结
  • 第7章 总结与展望
  • 7.1 总结
  • 7.2 展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].突发公共卫生事件网络语料库系统构建[J]. 情报学报 2013(09)
    • [2].华裔美国作家哈金作品《落地》建构的中国形象——基于语料库的考察[J]. 乐山师范学院学报 2019(11)
    • [3].近十年国际语料库翻译研究文献计量分析(2008-2018)[J]. 外语与外语教学 2019(06)
    • [4].科技大数据背景下的中英双语语料库的构建及其特点研究[J]. 中国科技资源导刊 2019(06)
    • [5].浅析信息技术背景下口译语料库的研究现状及进展[J]. 教育现代化 2019(99)
    • [6].语料库在俄语教学中的应用探究[J]. 科技风 2020(08)
    • [7].文学作品的语料库检索分析——以小说《呼啸山庄》为例[J]. 现代交际 2020(04)
    • [8].音乐口述史语料库分析方法的理论原理与操作步骤[J]. 中国音乐 2020(01)
    • [9].基于语料库“刚刚”“刚才”的维译对比研究[J]. 汉字文化 2019(23)
    • [10].语料库技术辅助汉译英教学模式探索[J]. 科技视界 2020(03)
    • [11].基于语料库的对话口译模糊限制语性别研究[J]. 甘肃广播电视大学学报 2020(01)
    • [12].《基于语料库的语法研究》评介[J]. 南昌师范学院学报 2019(05)
    • [13].国内基于语料库的翻译研究二十年综述(1999—2018)[J]. 成都理工大学学报(社会科学版) 2020(01)
    • [14].语料库翻译学:在名与实之间[J]. 外语学刊 2020(01)
    • [15].《诗经》汉英平行历时语料库研制与应用[J]. 沈阳大学学报(社会科学版) 2020(02)
    • [16].言者顺应:基于语料库驱动视角[J]. 广东石油化工学院学报 2020(02)
    • [17].基于语料库的习近平国际峰会主旨演讲高频词研究[J]. 法制与社会 2020(11)
    • [18].浅谈中日农业术语对译语料库的建设[J]. 农家参谋 2020(16)
    • [19].基于历时语料库的“先生”称谓语用嬗变研究[J]. 教育教学论坛 2020(18)
    • [20].基于历时语料库的“度”字义项演变探微[J]. 汉字文化 2020(09)
    • [21].俄汉可比语料库翻译等价物抽取的方法设计及应用展望[J]. 欧亚人文研究 2019(01)
    • [22].国内基于语料库的翻译显化和隐化研究综述[J]. 牡丹江大学学报 2020(06)
    • [23].国内语料库翻译研究现状及未来走向探讨[J]. 英语广场 2020(16)
    • [24].基于语料库汉语人体部位词“脸”的认知研究[J]. 汉字文化 2020(10)
    • [25].基于历时语料库的在线词典编纂系统设计[J]. 中文信息学报 2020(05)
    • [26].基于语料库及其技术的思政课优质教学资源建设与共享研究[J]. 思想政治课研究 2020(03)
    • [27].海外社交平台的广州城市形象呈现——基于推特十年涉穗话语语料库分析[J]. 国际传播 2020(03)
    • [28].语料库翻译学视阈下的意识形态显化——《语料库批评翻译学概论》述评[J]. 山东外语教学 2020(04)
    • [29].自建语料库在商务英语翻译教学中的应用[J]. 宁波广播电视大学学报 2020(03)
    • [30].基于语料库的多维翻译文体评估——以《骆驼祥子》的葛浩文译本为例[J]. 海外英语 2020(16)

    标签:;  ;  ;  ;  ;  

    古代汉语史书语料库建设的初步研究
    下载Doc文档

    猜你喜欢