计算文体学工作模式探究 ——曼斯菲尔德作品中的情感词汇分布和情感流动

计算文体学工作模式探究 ——曼斯菲尔德作品中的情感词汇分布和情感流动

论文摘要

本篇论文主要目的在于提出并证明计算文体学的工作模式,还不属于整个计算文体学的学科建设的最终建立,但期望通过对其计算模式的证明揭示计算文体学的学科地位应该得到承认。计算文体学已有很多成功的计算案例,但至今没有建立起独立的学科地位。本篇论文以计算案例为基础,提出一种通用的工作模式,并且为了证明此模式的可行性,以曼斯菲尔德作品中的情感计算为个案研究实例。计算方法吸收了计算语言学、语料库语言学、统计学的因素。计算文体学被认为是计算语言学的一个分支,尚无独立的学科地位。但是本项研究经过对大量文体计算案例的分析,发现计算文体学在研究对象和研究目的上已经超越了传统上对其的认定,而且有着自己的计算模式,所以我们认为,计算文体学应该从计算语言学中独立出来。在学科建设方面,我们认为,计算文体学在研究对象和研究目的方面与现代文体学保持一致,在工作模式上借助计算语言学、语料库语言学和统计学的工具,已形成了独特的系统。计算文体学的研究对象不再是边缘语言现象,它已经深入到语言的各个层面,可以完全按照现代文体学的定义进行语言现象的计算;其研究目的也不再仅仅专项服务于机器自动处理即人工智能的实现,而是把计算得到的数据与主题意义的分析联系起来。为了检验计算文体学的工作模式,本项研究以曼斯菲尔德的作品中的情感流动为研究对象,尝试利用计算文体学工作模式,实现对情感的计算,从而验证所提出的计算文体学模式的可行性。情感流动在文学批评和文体分析研究中并不是新生事物。情感(affect)、感情(emotion)、态度(attitude)被认为是同义词,都用于文本主体和美学意义的阐释。但是情感流动尚未被认作一种语法结构,更谈不上探究。然而,正如列文-斯特劳斯把结构主义方法运用于神话的分析,甚至创出术语‘神话素’,他的学生后来努力构建‘神话语法’,本篇论文试图揭示文学语篇中情感流动的结构构成。情感的计算是个艰难的探索过程,主要是因为情感被认为是纯主观的认识和反应,对其进行计算——客观的数据本身就很难让人产生共鸣,应用于文学语篇中的情感计算更是难以被人接受。但是本项研究者认为情感在语篇中表现于客观的语言层面上,就一定有客观基础,对这些客观的语言现象的确认就可保证情感计算的可行性。本项研究受评价系统的启发,提出语篇的情感主要由情感词汇所决定,情感流动主要由情感词汇在语篇中的分布所形成,由此我们探寻:文学语篇的情感流动是如何形成的,是否与情感词汇有重要关联?经过对汉语词汇学中褒贬义词的研究、文体学界对情感流动的研究、语料库语言学对搭配中形成的语义韵的研究,尤其是评价系统中的有关语篇态度研究的学习,本项研究逐渐形成了关于文学语篇情感流动形成机制的假设,并明确提出这一理论假设,即:情感词汇在语篇中形成自己的域,并对域中的中性词汇产生辐射;情感词汇携裹域中的辅助手段(级差手段),形成大小不一的域,波动向前,由此形成语篇中的情感流动;相连的同样色彩的情感词汇结合成链,形成更大的情感域;情感域的域界标志为两个相连的同样色彩的情感词汇。基于此项理论假设,本项研究析离出一些因子(factor):情感词汇、域界标志、级差手段,由此提出进一步假设:利用这些因子可以进行语篇情感的计算。接下来的研究就是对这些因子的进一步探寻。情感词汇可以划分为积极情感词汇、消极情感词汇和中性情感词汇,其中中性情感词汇中有些特别活跃,极容易被染上与其搭配的情感词汇的色彩,与积极情感词汇搭配,就呈现积极色彩,与消极情感词汇搭配,就呈现消极色彩,但有时保持中性,没有色彩。这些词汇在本项研究中,被命名为中性易感词汇,在文本中,根据语境中表现出的感情色彩,被称为中性积极词汇或中性消极词汇,很多词汇具有双重身份,对计算的准确度造成干扰,只能在人工修改阶段进行修订;另外有些词汇单独不可明确确定其情感色彩,只能以句子为单位才可确定,也只能在人工修改阶段进行修订。级差手段繁多,在目前技术条件下,尚无法完全纳入计算;再者由于级差手段是情感流动的辅助手段,只是对情感强度产生影响,不影响语篇情感基调,所以本项研究决定把级差手段留待以后的研究。这样,本项研究中的情感计算就是对语篇基本情感流动或语篇情感基调的计算。整个计算过程本着从词汇到语篇的原则进行设计,经历情感词汇的判断和收集—形成情感词汇库—绘制语篇中情感流动模式图几个阶段;中间设计了两项测试:检测本项研究者对情感词汇的个人判断与同类读者的判断有多少差异,即是否具有一定的代表性;检测情感词汇库在实际应用中的准确度。第一章:绪论。主要介绍本项研究的形成原因和操作过程,同时提出了研究的目的和范围。根据语料库语言学和统计学的理论,对参与研究的语料范围和容量进行了定义和限制。第二章文献综述(1)。介绍计算文体学的发展过程。展现计算机软件从对生语料到熟语料处理的发展进程,反映人们在运用计算机技术进行文体分析方面对技术不断提出的要求,从单纯地依赖技术进行文体标记统计上升到将人的定性分析和认识符号化,对生语料进行人工加标,从而提高方法的精确度和理论性。最后提出计算文体学的模式,并且提出情感流动研究中的计算模式,证明计算文体学模式的可行性。第三章文献综述(2)。主要介绍有关情感流动的语言学研究。本项研究对于文体分析的意义是增加新的分析角度,而且采取语料库和计算语言学的方法。语料库语言学对语义韵的研究,表明情感词汇对与其搭配的中性词汇有情感辐射功能。系统功能语言学对人际意义的研究,特别是评价系统指出了情感词汇的中心作用,提出了语义韵域、级差手段、域界等概念,但其研究主要在新闻文体进行,而且其中的一些概念定义,例如对于域界的划分,解释不清楚。本章为情感流动结构理论假设的提出奠定了基础。第四章是对情感流动结构理论假设的详细阐述。对提出的文学语篇中的情感流动结构所牵涉到的几个因素,如中性易感词汇,语义韵域及域界标记、级差手段等等,进行更深一步的研究。第五章主要是对情感词汇的研究。主要讨论情感和情感词汇的划分标准以及本项研究对情感词汇的搜集方法。根据心理学、汉语词汇学、评价系统的研究,把情感划分为积极和消极情感,情感词汇划分为积极情感词汇、消极情感词汇、中性易感词汇(包括中性积极词汇和中性消极词汇)。确认的标准为:凡是表示褒扬、喜爱、尊敬的态度词汇和能给人带来幸福、安全和满足感的情绪词汇,为积极情感词汇;表示贬斥、憎恶、鄙视的态度词汇和给人带来不幸福、不安全和非满足情感的情绪词汇,为消极词汇。确认的依据是词典释义。搜集过程分为三个阶段:1)根据词典解释,对曼斯菲尔德作品中的词汇逐个进行判断,确认和挑选出情感词汇;2)机器加标,对文本进行情感词汇辨识和加标,根据文本语境,对不合适的加标词汇进行人工修补;3)最终搜集文本中的标注词汇,得到曼氏情感词汇库。第六章是实验研究,对读者主观性与情感词汇确认之间的相关性进行分析。为了检验研究者的研究是否具有代表性,选定一些与研究者同类的读者阅读同样的小说文本;然后,对各位读者在阅读过程中确认标注的情感词汇进行对比,结果表明这些读者标注的差异并不是很大,表明研究者的判断和搜集具有代表性。第七章描述情感流动曲线图的绘制过程。在确认情感词汇的基础上,考察情感词汇在语篇层面上所表现出来的情感流动状态。通过对两个实例的分析,绘制出情感流动模式图;按照研究的思路,设计出软件,自动统计和计算文本中的情感词汇,而后给出所有样本文本的情感流动模式图和相关数据。第八章研究情感词汇分布对语篇情感的预测。根据情感流动模式图,对曼氏的42篇小说进行分类,结果表明这些模式图可以在一定程度上揭示主题意义和辅助主题意义的分析和表达,也证明情感的计算在一定程度上有助于主题意义的阐释。另外,根据情感词汇的分布数值,对语篇情感进行分类,设定数值标准,可用以预测曼氏小说的情感类别。第九章属于实验研究,检验所得到的曼氏情感词汇库在实际运用中的准确度。采用曼氏另外两部小说集中任选的小说,以及Irving和Lawrence作品中的小说片断作为语料。经过机器加标和人工修改,对判断的情感词汇进行统计。检验模式采用的是方差检验和T检验,结果表明曼氏情感词汇库在曼氏作品中有着极高的准确度;在不同作家的作品中存在误差,但是不显著,而不同的文体之间的情感辨识误差最大。这说明不同作家对情感词汇使用存在着一致性,这些一致的认识和词汇使用也许可以证明文学情感词汇库的设想在一定程度上是可行的;同时也表明这种方法的延展性:通过对大量文本的人工加标,建立通用情感词汇库,对某一领域的文本进行情感流动辨识也许值得一试。第十章结语。本章节总结了在整个计算过程中所取得的曼斯菲尔德的文体特点和计算文体学工作模式提出并被证明的意义,讨论了本项研究所取得的成绩,并且指出了其中尚存的问题和下一步的研究计划。如果说本文对相关研究有所贡献的话,应该表现在以下几个方面:明确提出了计算文体学的独立学科地位。目前国内的研究局限在语料库语言学对文体形式特征的提取方面,对计算文体学的定义和学科地位尚无明确定论;而国外研究也属个案论证阶段,也未给予计算文体学以独立学科地位。本项研究在大量文体计算个案的基础上,提出了计算文体学的定义和工作模式,理论上接受文体学的指导,工作模式方面吸收计算语言学、语料库语言学、统计学的因素。为了证明计算文体学工作模式的可行性,本项研究以情感计算为案例。依据计算文体学的工作模式,提出了情感计算的模式。在计算过程中,明确了情感词汇的定义、分类、加标和收集的方法,并且设计了软件对情感词汇的分布进行描述,形成了情感流动模式图,从而为文体分析增加新的分析角度—情感词汇以及其在语篇层面上的分布所反映出的文体特征,并且在实际计算过程中发现了作者的“写作指纹”和文本的“情感指纹”。在计算过程中,引入了统计学的方法,从实验设计到数据收集、统计建模、数据分析,对相关假设进行了检验,认识到,概率论的思想和方法对主观推断的证明有着毋庸置疑的作用。

论文目录

  • Acknowledgements
  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究的起由
  • 1.2 研究目的和范围
  • 1.3 本项研究的定位
  • 1.4 计算文体学的工作模式及研究方法
  • 1.5 情感结构假设的主要内容
  • 1.6 语料的选择
  • 1.7 论文结构
  • 第二章 文献综述(1):计算文体学工作模式构建
  • 2.1 计算文体学的提出
  • 2.2 计算文体学的发展阶段
  • 2.2.1 作者身份鉴定
  • 2.2.2 文体鉴别
  • 2.2.3 语义计算
  • 2.2.3.1 语义计算的尝试
  • 2.2.3.2 计算语言学对情感计算的尝试
  • 2.2.3.2.1 情感机器人
  • 2.2.3.2.2 HNC 系统
  • 2.2.3.2.3 基于评价系统的情感计算
  • 2.3 计算文体学的模式构建
  • 2.3.1 计算文体学的定义
  • 2.3.2 计算文体学的工作模式
  • 2.3.3 情感计算模式构建
  • 第三章 文献综述(2):情感流动的理论研究
  • 3.1 文体学领域
  • 3.1.1 思想和情感
  • 3.1.2 态度
  • 3.1.3 节奏、意象、象征
  • 3.1.4 语境
  • 3.1.5 选词
  • 3.1.6 情感研究的空白
  • 3.2 曼斯菲尔德研究
  • 3.2.1 生平与作品
  • 3.2.2 有关研究
  • 3.3 语料库语言学对语义韵的研究
  • 3.4 系统功能语言学对人际意义的研究
  • 3.4.1 韩礼德的人际意义系统
  • 3.4.2 评价系统
  • 3.5 情感流动结构的设想
  • 第四章 情感流动结构理论假设
  • 4.1 情感域域界标志
  • 4.2 中性易感词汇
  • 4.3 级差手段的研究
  • 4.4 情感流动形成语篇连贯
  • 4.5 情感流动结构理论假设
  • 第五章 情感词汇的判断标准和收集过程
  • 5.1 情感词汇的分类标准
  • 5.1.1 心理学对情感的研究
  • 5.1.2 汉语词汇学对情感词汇的研究
  • 5.1.3 评价系统对情感词汇的研究
  • 5.1.4 情感词汇的定义和分类
  • 5.2 情感词汇的收集方法
  • 5.3 中性易感词汇的分类
  • 5.4 情感域和域界
  • 第六章 情感词汇的确认与读者主观反应的相关分析
  • 6.1 实验的设计
  • 6.2 情感词汇的确认
  • 6.3 中性易感词汇的确认
  • 6.4 统计建模:方差分析
  • 6.4.1 读者主观性、情感词汇确认之间的相关性
  • 6.4.2 读者主观性、文本中的词频、情感词汇确认之间的相关性
  • 6.4.3 读者主观性和情感词汇确认的相关性研究结论
  • 6.5 情感词汇的预测
  • 第七章 情感流动曲线图
  • 7.1 情感结构理论假设
  • 7.2 实例分析
  • 7.2.1 《园会》分析
  • 7.2.1.1 内容简介
  • 7.2.1.2 验证过程
  • 7.2.2 《太太的女仆》分析
  • 7.2.2.1 内容简介
  • 7.2.2.2 验证过程
  • 7.3 情感计算软件
  • 7.4 数据总汇
  • 第八章 情感词汇的分布对语篇情感的预测
  • 8.1 文本的情感分类
  • 8.2 三部小说集的情感比较
  • 8.2.1 根据域长均值比较
  • 8.2.2 根据情感域域值均值比较
  • 8.3 情感流动与主题意义
  • 8.3.1 情感倾向与主题意义相符合
  • 8.3.2 情感倾向与主题意义相背离
  • 第九章 情感词汇库的应用验证
  • 9.1 计算实验
  • 9.2 情感词汇库稳定性实验
  • 9.2.1 稳定性实验设计
  • 9.2.2 稳定性检验过程
  • 9.2.2.1 第一阶段
  • 9.2.2.2 第二阶段
  • 9.2.3 数据汇总
  • 9.2.4 T 检验
  • 9.2.4.1 样本容量检验
  • 9.2.4.2 失误率检验
  • 9.2.4.3 结论
  • 9.3 情感词汇库在文本应用的准确度检验
  • 9.3.1 曼斯菲尔德作品检验
  • 9.3.2 其他作家作品检验的统计建模
  • 第十章 结语
  • 10.1 曼氏计算文体特点
  • 10.1.1 形式文体特点
  • 10.1.2 情感文体特点
  • 10.2 计算模式的意义
  • 10.3 本课题研究工作总结
  • 10.4 下一步的研究计划
  • 附录(光盘)
  • 参考书目
  • 相关论文文献

    标签:;  ;  ;  ;  

    计算文体学工作模式探究 ——曼斯菲尔德作品中的情感词汇分布和情感流动
    下载Doc文档

    猜你喜欢