大规模真实文本中的人物职衔信息提取研究

大规模真实文本中的人物职衔信息提取研究

论文摘要

20世纪90年代以来,互联网技术迅速发展,产生了各种应用。人物搜索引擎作为互联网技术应用的一部分,这两年刚刚兴起,还不成熟。各大公司建设人力资源库也需要对人才的简历信息进行结构化处理。本文研究了大规模真实文本中人物简历信息的提取方法和规则,并以人物的职衔信息的提取为研究对象,做了检验。1.本文对含人物简历信息的文本做了简单分析。将含人物简历信息的文本按照写作目的分为求职性简历和介绍性简历两类,按照结构化程度分为半结构化和非结构化简历两类,并对各自的特点做了相应分析。2.明确了提取任务是提取简历信息和以及简历信息所对应人名的实体对。3.提出了以简历信息短语的前接成分定界和以指示成分指向对应人名的抽取方法。4.编写了辅助标注软件。5.选取498篇文本作为封闭测试的训练语料库,从中标注了职衔、年龄和出生日期、性别、毕业院校、受处罚情况、家庭关系、享年和卒年、籍贯和出生地、所得荣誉、专业、学历、政治面目、作品、婚否、民族、宗教信仰共16项简历项,共计2341条简历信息对。其中,职衔信息是最丰富的,共1643条,约占总数的70.2%。6.我们以标注的语料为研究对象,从中训练出简历信息触发词列表、OC_P前接成分表、OC_P指示成分表、并列人名的提取规则四个部分的知识用于职衔信息对的抽取。7.编写程序,应用知识库中的规则实现自动提取。提取的准确率和召回率各为85.4%和87.2%。8.对职衔信息误提(共245对)和漏提(共210对)的结果进行考察,提出了进一步提高召回率和准确率的方案。本文以真实文本中所含的简历信息对为研究对象,提出了以简历信息的指示成分的类别直接定位人名的思路,本文的研究方法对其他实体对的抽取研究也有一定借鉴意义。

论文目录

  • 摘要
  • ABSTRACT
  • 1、选题的背景、价值
  • 1.1 选题背景
  • 1.2 本研究的价值
  • 2、国内外研究现状综述
  • 2.1 人物简历信息抽取的研究现状
  • 2.2 信息抽取研究综述
  • 2.3 命名实体识别研究综述
  • 3、含人物简历信息的文本分类
  • 3.1 简历和非简历文本
  • 3.2 含人物简历信息的文本的分类
  • 3.3 简历信息抽取项目的确定
  • 4、简历信息抽取的基本流程
  • 5、语料的标注
  • 5.1 语料的选择
  • 5.2 训练语料库的形成
  • 5.3 分词和数据预处理
  • 5.4 标注的内容
  • 6、知识库的形成
  • 6.1 简历信息触发词列表的形成
  • P前接成分表的形成'>6.2 OCP前接成分表的形成
  • P指示成分列表的形成'>6.3 OCP指示成分列表的形成
  • 6.4 并列人名的提取规则
  • 7、简历信息抽取的方法和职衔信息抽取的计算机实现
  • 7.1 简历信息抽取方法概述
  • 7.2 职衔信息对抽取的计算机实现
  • 8、实验结果
  • 8.1 提取的准确率、召回率
  • 8.2 错误分析
  • 9、结论及展望
  • 9.1 论文工作小结
  • 9.2 不足和展望
  • 参考文献
  • 附录
  • 附录1:分词软件词性和标注符号对应表
  • 附录2:日本姓氏表前100
  • P的动词表'>附录3:组成OCP的动词表
  • 附录4:表示“担任”义的动词表
  • 附录5:职衔词语表前100举例
  • 附录6:年龄和出生日期信息触发词表
  • 附录7:性别信息触发词表举例(男性女性各50)
  • 附录8:毕业院校信息触发词表
  • 附录9:受处罚信息触发词表
  • 附录10:家庭关系信息触发词表前100举例
  • 附录11:享年和卒年信息触发词表
  • 附录12:所得荣誉信息触发词列表
  • 附录13:专业信息触发词表
  • 附录14:学历信息触发词表
  • 附录15:籍贯和出生地、政治面貌、作品信息触发词表
  • 附录16:婚否信息触发词表
  • 附录17:民族信息触发词表前100举例
  • 附录18:宗教信息触发词表前100举例
  • 致谢
  • 相关论文文献

    • [1].浅议如何有效实现真实文本的真实性[J]. 湖北函授大学学报 2010(06)
    • [2].语言学习的真实性[J]. 安徽工业大学学报(社会科学版) 2008(06)
    • [3].字母词语跟踪研究[J]. 语言文字应用 2009(01)
    • [4].基于网络和真实文本的翻译教学研究[J]. 考试周刊 2016(09)
    • [5].《黄石的孩子》:信息时代中跨国资本的中国题材[J]. 电影艺术 2008(04)
    • [6].利用高频词和互信息面向特定领域提取多字词表达[J]. 太原理工大学学报 2009(03)
    • [7].在实践中理解教师关怀——基于北京市石景山区教师叙事的个案分析[J]. 思想理论教育 2013(14)
    • [8].非外语专业学生加强语言交际能力培养的文字选材问题[J]. 黑河学院学报 2011(02)
    • [9].解决汉字难学的对策[J]. 国际汉语 2011(01)
    • [10].真实文本在自主学习中的作用[J]. 沈阳教育学院学报 2010(06)
    • [11].基于真实文本的[A_单+N(NP)]的句法受限机制和句法组合机制[J]. 语言文字应用 2008(04)
    • [12].感悟真实文本 回归人文课堂——对小学语文情感教育的一点思考[J]. 语文天地 2015(27)
    • [13].服务创新的特点与政策的非必要性[J]. 中国软科学 2010(12)
    • [14].博物馆英译透视下的外宣翻译评价[J]. 英语广场 2020(14)
    • [15].微软汉语拼音及自动字音转换问题初论[J]. 语文学刊(外语教育教学) 2016(08)
    • [16].再探语义韵[J]. 当代外语研究 2020(02)
    • [17].谈维语“bu/u”的显性回指功能[J]. 喀什师范学院学报 2011(04)

    标签:;  ;  ;  ;  

    大规模真实文本中的人物职衔信息提取研究
    下载Doc文档

    猜你喜欢