关于英语语篇结构标注研究综述(2)
作者:佚名; 更新时间:2014-10-18

  
  5.标注质量的检验
  
  标注质量的控制是通过标注者对标注结果的反复修改和局部随机的自动交叉核实来实现的。为了确保标注语料库的质量,研究小组采取了很多措施,这些措施主要涉及到两个方面,即检验语篇结构树的效度和保持标注者内部的一致性。
  
  5.1 效度检验
  效度检验从两个方面进行,即句法和语义。句法检验确保每棵树只有一个根结,并将树与文献进行对比以防句子或语段被遗漏。语义检验主要是关系到核心语段的指派、修辞关系的选择以及语篇结构树的层次。为了保证检验质量,研究小组研制出语篇分析器以及图形扫描仪。所谓图形扫描仪,就是指,在图形环境下,自左而右渐进地为各个篇章单元给出一种最有可能的修辞关系和篇章结构地位。分析器和图形扫描仪经常可以确认出人工检验无法觉察的错误,都可以成功地作用于所有语篇结构树。
  
  5.2 标注一致性
  在整个语料库的建设过程中,研究者一直设法保证标注者之间内部的一致性。首先,他们研制出一种算法,该算法可以计算出语篇层级结构的Kappa数据。(Kappa算法曾被广泛地运用于语篇实证研究中,该算法可以测算出研究者在作出分类决策、预测可能性方面的一致性。)如果Kappa数据大于0.8,就意味着具有较高的一致性;如果数据值在0.6和0.8之间,就意味着较好的一致性。
  
  6.标注语料库的挖掘
  
  借助于以RST理论为支撑的语篇标注语料库,研究者可以对语篇进行三个层次的分析,即语篇标记词功能的分析、不同类型的语篇结构图的描述和比较、语篇中从句间修辞关系的描述和比较。
  
  6.1 篇章连词的研究
  篇章连词功能研究一直是理论语言学和计算机语言学研究的主题,而且网络语料库方便了研究者对关联词语的研究,但利用丰富的标注语料库资源进行分析的研究不多。语篇结构标注语料库可以使研究者在多种语境中对关联词进行元语言分析,使人们能了解到它们在语篇中出现的频数、在句中的位置、所发挥的篇章修辞作用、核心性、辅助性等方面信息。
  例如,研究小组总结了since 和 as在语篇中的功能。经研究发现,就这两个词在语篇中出现的频率而言,在语篇中起连接两个基本语篇单位修辞作用的情况只有1/3,因为它们往往在命题层面上发挥作用而不是在语篇层面上。就它们在语篇中发挥的修辞作用而言,as涉及到的关系类型远远地多于since,但两者所引导的语篇单位往往都处于辅助位置而非核心位置。
  
  6.2 语篇结构图的描述和比较
  除了Lancaster大学的OBC语料库(Garside等,1987;Biber等,1998,转自Carlson,2001)提供的语体或语域研究,以及TDT语料库(Wayne,2000,转自Carlson,信捷职称论文写作发表网,2001)提供的话题确认研究之外,能帮助研究者对语篇进行全面分析的语言资源不多。然而,以RST理论为支撑的语篇结构标注语料库,勾画出每一份文献的多层次的语篇修辞结构图,据此可以对结构树的各个层次进行分析。例如,结构树的抽象层面,对修辞关系和文献的内容进行非词汇化的概括,为研究交际意图带来很多方便。
  又如,语篇研究结果表明在文本的总体框架上新闻类语篇不同于故事类,因为新闻类语篇的结构多呈倒三角形,但这些研究很难解释产生差异的根本性原因。语篇结构树可以弥补这一缺陷,这些树使研究者清楚地看到在实现作者的交际意图时、在体现篇章的互文性时,同样的句式在不同的文本中发挥的作用是不同的,在有的文献中起核心作用,而在有的文献中起辅助作用。事实上,这些结构树很清楚地反映出,即使是同一类型的语篇,随着语境的改变、主题的变化,文本的结构也会发生相应的变化。
  
  6.3 语篇内修辞关系的研究
  通过对标注语料库的分析和挖掘,研究者发现从句间的修辞关系在文本中发挥作用的频率是很不一样的。例如,研究者发现“详述-补充”修辞关系使用的频率最高,因为作者在表达过程中往往要借助于前面的背景,通过对前面的背景补充说明来阐发新的观点。与此类似的还有列举关系和解析关系。修辞关系的元语言分析使人们能了解到它们在语篇中出现的频数、在句中的位置、核心性、辅助性等方面信息。除此之外,语篇结构树还勾画了修辞关系如何发挥语篇衔接与连贯的功能。例如,研究者通过对篇章标注语料库的分析发现,“列举”关系不但起到举例的作用,而且在连接平行语篇单位、平行语段和平行语篇时发挥巨大的作用。事实上,这一研究结果验证了Halliday 和Hasan(1976)的观点,即平行结构是一种语篇衔接手段。
  
  6.4 应用性研究
  语篇结构标注语料库为文献检索、自动剖析、自动文摘、自动翻译等提供相关数据,例如,研究小组所设计的在线文件剪接系统。借助于篇章结构标注语料库,研究者发现并非所有的句子都是基本语篇单位,也不是所有的语篇单位都具有相同的作用,有的属于核心的,有的属于辅助的,有的在实现作者的交际意图时、在体现篇章的互文性时发挥关键作用,有的并没有。以此类推,篇章中的词汇、短语也有核心与辅助之别。篇章结构标注语料库可以帮助创建一个以篇章结构为指导、以词汇短语有界和无界合并为手段的文件剪接系统。同时,篇章结构标注语料库帮助创建了一个以篇章结构为指导、以机械文摘为基本手段、再配合消除冗余、可读性加工的综合自动文摘系统。
  
  7.结论
  
  2001年,由Daniel Marcu博士主持的研究小组以RST理论为支撑创立了语篇标注语料库。研究小组所标注的385篇华尔街报文章皆取自宾州树库,篇幅长度不等,从31个词到2,124个词,总词数达到176,000,平均每篇文章458个词。文章的内容涉及到各种话题,如财政报道、商业新闻、文化点评、编者按、读者来信等。语料库建设的主要成就为:确立了如何将语篇切分为基本语篇单位的理论、扩展了修辞关系集、为RST理论的运用提供了广阔的前景。
  
  参考文献
  [1] [ZK(#]Carlson,L.,Marcu.D.& Okurowski M.Building a Discourse_tagged Corpus in the Framework of Rhetorical Structure Theory.Proceedings of the First Annual Meeting of the North American Chapter of the Association for Computational Linguistics,Seattle,WA,2001:9-17.
  [2] Grosz,B.& Sidner,C.Attentions,Intentions,and the Structure of Discourse[J].?Computational Linguistics?,12(3):175-204.Talmy Givon,1983/1986.
  [3] Halliday,M.A.K.& R.Hasan.?Cohesion in English?[M].London:Longman,1976.
  [4] Mann.W.& S.Thompson.Rhetorical Structure Theory:A Theory of Text Organization.USC Information Science Institute.Technical Report I (SI/ RS-87-190),1987.
  [5] Marcu,D.?The Theory and Practice of Discourse Parsing and Summarization?[M].Cambridge,Massachusetts:MIT Press,2000.
核心期刊快速发表
Copyright@2000-2030 论文期刊网 Corporation All Rights Reserved.
《中华人民共和国信息产业部》备案号:ICP备07016076号;《公安部》备案号:33010402003207
本网站专业、正规提供职称论文发表和写作指导服务,并收录了海量免费论文和数百个经国家新闻出版总署审批过的具有国内统一CN刊号与国际标准ISSN刊号的合作期刊,供诸位正确选择和阅读参考,免费论文版权归原作者所有,谨防侵权。联系邮箱:256081@163.com