油炸的的英文翻译英语怎么说-以德报怨的意思


2023年4月6日发(作者:stormmedia什么意思)

概化理论在大学英语翻译评分中的应用研究

作者:阎莉张玮向国华

来源:《湖北经济学院学报人文社科版》2021年第11期

摘要:本研究以概化(G)理论作为分析框架,请12位评分者对11名大学生的汉译英翻

译测试进行评分,通过一系列的概化研究和决策研究,以检验翻译测试中的评分信度和构建效

度问题。实验结果表明:以汉译英段落翻译进行的测试能较好区分考生的翻译能力;评分人效

应明显,而题材效应不明显。同时决策研究的结果表明,适当增加翻译任务和评估者人数能提

高翻译测试的信度。

关键词:概化理论;翻译评分;评分信度;构建效度

一、前言

随着中国推进“一带一路”建设和中国文化“走出去”战略,中国承担了更多的国际责任,也

对翻译人才提出了更多要求。为顺应国家的需求和英语教育改革趋势,翻译测试研究迫在眉

睫。

翻译测试属于测量范畴。但凡测量都有误差,产生测量误差的原因是多种多样的。根据

不同的测量误差,测量一般分为以下三大理论,分别是经典测量理论(CTT)、概化理论

(GT)和项目反应理论(IRT)。经典理论把测试的得分看成是真分数和误差分数的线性组

合,但经典理论中的真分数不能指明哪种误差或在总误差中各种误差的相对大小如何,只能根

据主试自己的理解去控制一些因素,针对性不强。项目反应理论将被试特质水平与被试在项目

上的行为关联起来并且将其参数化和模型化,是通过统计调整控制误差的方法。若模型成立并

且项目参数均已知,则模型在测验中为项目性质调整数据,可生成独立于测验项目性质的特质

水平测量。但项目反应理论对被试数、项目数和模型有限制,适合较大规模和大样本的测试。

概化理论则是通过改进经典测驗理论的数学模型、引进方差分析技术等方法,把分数变异细分

为多种来源,为测验决策提供了系统的理论和方法。因此,概化理论是经典测量理论与方差分

析技术形成一种现代测量评价的理论[1]。该理论已构成了现代人才测评的理论基石,应用范

围涉及心理测试、语言测试、绩效评估、医学测量等多个领域[2-5]。

目前,我国概化理论主要用于高考标准、参照性测验、心理测试、普通话测试、教学评

价评分一致性等研究中。学者们也尝试将概化理论用于外语语言测试研究,如概化理论分析写

作测试和口语测试[6-8]。研究发现,通过概化理论可以为研究标准化和标准程度化不高的测试

提出有效控制和改善测量精度的措施和方法。但以概化理论深入挖掘翻译测试的可靠性和有效

性的研究鲜有涉及。

二、概化理论:翻译评估研究的框架

在国外教育与心理评价中,概化理论受到高度重视。美国教育研究会、心理学协会以及

国家教育评价委员会联合颁布的《教育和心理评价标准》明确提出,构建观察和教育评价程序

的可靠度与效度时,必须参照概化理论[9]。

概化理论(GeneralizabilityTheory)是一种把测量误差作为模型参数来处理的测量理论,

也是一种乡愁席慕容赏析 统计方法。该方法可以识别得分方差和错误的来源,并估计这些方差成分对评分一致

性和准确性的影响[10]。它将影响测试结果的多侧面(Facet)及其交互影响纳入测试全域

(Universe),分析侧面间结构关系与作用模式,如在按考生和任务(pt)的交叉设计中,某

个考生(p)在某道题(t)上的得分受考生全域均分、个人效应、题项效应和残差效应(残差

包括学生与试题的交互作用,以及其他不确定误差源)影响。

概化理论分析问题的基本过程主要包括两部分,即概化研究和决策研究。概化研究按照

总差异百分比检查设计中的每个差异成分。决策研究是对概化研究所得数据的转换和解释环

节,为实验目的提供不同的信度和效度指标。具体来说,决策研究表明需要多少项任务和评估

者数量才能达到特定的评分可靠性[11]。概化理论的概化研究和决策研究可以帮助人们针对具

体误差来源,提出有效控制和改善测量精度的措施和方法。因此,本文以概化理论为分析框

架,开展汉英翻译测试有效性的研究,不仅检验翻译测试评阅的信度和效度问题,而且运用决

策研究结果构建提高翻译测试的有效性策略。

三、研究问题和研究过程

(一)翻译样本的选择

翻译能力是译者的语际转换能力,即忠实通顺地传达原作意义的能力。Hatim&Mason

(1990)对翻译能力所下的定义——“成星空的拼音 功翻译的必要知识”[12]。本研究英语翻译能力测试是

依据2017教育部最新版大学英语教学指南对翻译的基本要求,如果考生能借助词典对题材熟

悉、结构清晰、语言难度较低的文章进行英汉互译,译文古朗月行古诗注音版 基本准确,无重大的理解和语言表达

错误,能有限地运用翻译技巧,那么考生具备一定的翻译能力。于是,笔者选用大学英语四级

真题作为翻译测试题,因为英语四级考试的目的就是以中国英语学习者为对象,为大学英语教

学提供测评服务一项全国性的英语考试。

参加翻译测试的对象来自湖北省属高校非英语专业大二的学生。11名学生都参加过2019

年6月的CET-4考试,其中,有10位学生通过了四级考试,有1位学生未通过四级考试。笔

者本人为他们的大学英语任课教师,并确认测试的翻译任务均为学生未接触过的试题,征得学

生同意后,分配学生30分钟时间,完成140-160个汉译英段落翻译,第一次为文化类翻译,

第二次为经济类翻译。然后,这11名学生的22篇翻译由12名评阅者按照CET-4翻译考试评

分标准进行评分,即评阅人从准确、连贯和语言三个方面对翻译进行综合型评判。参加测试研

究的12位评分员为有15年及以上教龄的高校专任英语教师,大部分教师曾多次参加过大学英

语翻译测试和校级翻译选拔赛的评阅工作。

(二)研究设计

1.翻译测试中的准确李白诗集大全981首 性和有效性依据

当前的翻译测试大都以文本测试为主,评分者依照评分标准作出主观性评估。主观性评

估的准确性对其有效性有很大影响,Messick(1989)将有效性描述为“综合评价判断经验证据

和根据考试成绩理论基础的程度,支持推理和行动的充分性和适当性”。从这个意义上说,翻

译任务的评估通常涉及一个或多个评估者,评估者依据个人经验对任务进行综合评价,判断考

生对翻译理论基础的掌握程度。在这种主观性评估背景下,分数会因许多因素而波动,任务和

评估者将是影响准确性的两个潜在测量误差源[13-14]。因此,本研究重点考察翻译测试评估的

两个因素:任务和评分者。研究采用两面交叉设计ptr,其中p是指学生的翻译能力(测量

目标),t指翻译不同题材翻译,有2个水平;r指评估者,有12个水平,即12位评分员对11

名学生每人二种不同题材的段落翻译进行评定,翻译题材面和评估者面都为随机。然后

GENOVA软件测量翻译评分中的评分员效应和题材效应,并对误差构成进行分析研究。

作为评估测量精度的概化理论还提供了一种检验测试结构有效性的方法评估[14],即研究

行为表现评估的结构效度(聚合效度和区别效度)。通过分析测试中得出的每个方差成分的相

对大小,来检验构造的有效性[15]。在任务和评分者随机交叉设计中,学生翻译分数的变化即

可分为以下七个方差分量:考生(p),任务(t),评分者(r),考生*任务(pxt),考生*

评分者(pxr),任务*评分者(txr),考生*任务*评分者(pxtxr)。为了检验考生测量的有效

性,每个方差分量都需要单独考虑。由考生引起的变化不构成误差变化,因为考生是衡量的对

象,他们的表现会有所不同。因此,考生的方差分量大,测量对象表明聚合效度足够大[16];评

估者方差成分以及评估者与其他方差成分(即,任务和评分者)之间的交互作用应较小,以表

示区别有效性,因为所有这些方差成分均会导致测量误差[16]。所以任务和评分者之间的漫漫愁云起苍苍别路迷 交互

作用方差成分组成部分可以判断区分度。如果认为翻译能力是一维结构,任务和评分者之间的

交互作用方差成分较小,则表明区分度好;但如果测试的能力为多维结构,那么其他变异来源

例如考生*评芙蓉镇旅游攻略 分者(pxr),任务*评分者(txr),考生*任务*评分者(pxtxr)等的组成部分应

该很小以支持判别有效性,因为它们可能导致错误,因此无法测量学生的翻译能力[16]。

2.研究问题

使用概化理论作为框架,以下三个研究问题指导了这项研究:

(1)大学英语汉英翻译任务的分数的得分变异性的来源是什么?

(2)大学英语汉英翻译测试的构造效度(及聚合效度和区别效度)如何?

(3)大学英语汉英翻译任务的成绩可靠性是什么?

3.数据分析

首先,进行描述性静态分析和配对样本t检验。其次,一个随机效应任务、评估人和考生

(pxtxr)的概化研究和两个评估人交叉考生(pxr)的概化研究(一个用于第一篇翻译任务,

另一个用于第二篇翻译任务)。从这些概化研究获得的信息用于检查评分变异贡献来源和考生

翻译分数的结构效度。最后,产生一个影响评估人、任务和考生(pxtxr)决策研究。决策研究

获得的结果用于检验翻译测试成绩的可靠性。概化和决策研究均使用计算机程序

GENOVA[15]。

四、研究结果和分析

(一)翻译的得分的差异

表1汇总了由11位中国大学生翻译的22篇翻译的得分的统计结果(即均值和标准差)。

结果显示,11名学生翻译能力差异较大。文化类翻译任务中的得分明显高于经济类翻译任

务。

(二)配对样本t检验结果

此外,配对样本t检验结果(见表2)显示,除学生6在翻译任务1和任务2得分一致

外,文化类型的翻译的得分明显高于经济类翻译得分。此外,如表2显示,三名考生(即考生

2、4和6)在文化类翻译任务中的得分明显高于第一篇(p<0.05)。其他学生的翻译分数没有

显著差异。这两个翻译任务满分为15分,学生分数覆盖5-12分,说明11名学生的翻译能力

有很大差异。

(三)概化研究(GeneralizabilityStudies)

本研究采用了两面交叉设计ptr,这种设计可以得到学生翻译能力、篇章类型、评估者

三种主效应(p,t,r),四种交互效应(pt,pr,tr,ptr)。各效应的方差成分如表3。

表3结果可以看到,作为测量对象的考生(p)产生了最大的方差分量(2.972),占据总

方差的50.24%,表明11个选定的考生,翻译能力差异很大。与评分者相关的(r)和(pr)约

占总方差的30%,说明由评估者因素给分数变异带来的误差相当大。而题材类型(t)属于同

一题型,只有题目内容的变化,其方差成分(0.244)很小,它仅占分数总变异的4.12%,说明

不同题材类型对学生能力测试不会造成很大差别。

表4显示两种不同翻译任务的考生*评分人pxr随机效应概化研究结果。不同题材的翻译

段落看作单面交叉设计pr,本研究所用的两篇不同内容的翻译分别代表了两个单面设计。考

生*评分者(pxr)随机效应产生以下方差分量:考生(p),评估者(r)和考生交叉评估者效

应(pr)。如表4所示,文化类翻译的结果表明,测量对象人(p)解释了最大的得分差异

(占总差异的58.87%),表明这11名大学生差异很大,翻译任务很好的衡量的学生的翻译能

力。残差是由于评估者和考生之间相互作用引起的可变性以及其他无法解释的系统性和非系统

性的来源错误占第二大得分方差(占总方差的29.不诉离殇 57%)。评分者(r)产生了第三大方差成分

(占总方差的17.63%),表明评分者在评估翻译任务方面存在很大差异。

经济类翻译的结果表明,测量对象人(p)解释了最大的得分差异(占总差异50.60%),

表明这11名大学生翻译能力差异很大,翻译任务很好的衡量的学生的翻译能力。残差是由于

评估者和考生之间相互作用引起的可变性以及其他无法解释的系统性和非系统性的来源错误占

第二大得分方差(占总方差的29.57%)。评分者(r)产生了第三大方差成分(占总方差的

17.31%),这表明评分者在评估翻译任务方面存在很大差异。

(四)翻译测试的构造效度结果

为了检验翻译测试的构造效度(及聚合效度和区别效度),对随机效应评估人、任务和

考生(pxtxr)的方差分析概化研究(参见表3)和两个考生*评分者(pxr)随机效应的概化

研究(一个用于第一篇翻译任务,另一个用于第二篇翻译任务)来检查结构的有效性(参见表

4)。

如表3所示,作为测试对象的翻译能力解释了总变异的50.24%,这说明用汉译英段落翻

译測试考生的翻译能力,聚合效度可以接受。另外,本研究在翻译任务中使用了两个题材的翻

译任务,因此学生的翻译能力可以被视为多维结构。较大的值表示足够的区别效度。但是任

务、考生*任务和任务*考生*任务的差异占总分差的4.12%、1.21%和11.59%说明区分效度不

明显。

作为评估测量精度的概化理论还提供了一种检验测试结构有效性的方法评估[14],即研究

行为表现评估的结构效度(聚合效度和区别效度)。通过分析测试中得出的每个方差成分的相

对大小,来检验构造的有效性[15]。在任务和评分者随机交叉设计中,学生翻译分数的变化即

可分为以下七个方差分量:考生(p),任务(t),评分者(r),考生*任务(pxt),考生*

评分者(pxr),任务*评分者(txr),考生*任务*评分者(pxtxr)。为了检验考生测量的有效

性,每个方差分量都需要单独考虑。由考生引起的变化不构成误差变化,因为考生是衡量的对

象,他们的表现会有所不同。因此,考生的方差分量大,测量对象表明聚合效度足够大[16];评

估者方差成分以及评估者与其他方差成分(即,任务和评分者)之间的交互作用应较小,以表

示区别有效性,因为所有这些方差成分均会导致测量误差[16]。所以任务和评分者之间的交互

作用方差成分组成部分可以判断区分度。如果认为翻译能力是一维结构,任务和评分者之间的

交互作用方差成分较小,则表明区分度好;但如果测试的能力为多维结构,那么其他变异来源

例如考生*评分者(pxr),任务*评分者(txr),考生*任务*评分者(pxtxr)等的组成部分应

该很小以支持判别有效性,因为它们可能导致错误,因此无法测量学生的翻译能力[16]。

2.研究问题

使用概化理论作为框架,以下三个研究问题指导了这项研究:

(1)大学英语汉英翻译任务的分数的得分变异性的来源是什么?

(2)大学英语汉英翻译测试的构造效度(及聚合效度和区别效度)如何?

(3)大学英语汉英翻译任务的成绩可靠性是什么?

3.数据分析

首先,进行描述性静态分析和配对样本t检验。其次,一个随机效应任务、评估人和考生

(pxtxr)的概化研究和两个评估人交叉考生(pxr)的概化研究(一个用于第一篇翻译任务,

另一个用于第二篇翻译任务)。从这些概化研究获得的信息用于检查评分变异贡献来源和考生

翻译分数的结构效度。最后,产生一个影响评估人、任务和考生(pxtxr)决策研究。决策研究

获得的结果用于检验翻译测试成绩的可靠性。概化和决策研究均使用计算机程序

GENOVA[15]。

四、研究结果和分析

(一)翻译的得分的差异

表1汇总了由11位中国大学生翻译的22篇翻译的得分的统计结果(即均值和标准差)。

结果显示,11名学生翻译能力差异较大。文化类翻译任务中的得分明显高于经济类翻译任

务。

(二)配对样本t检验结果

此外,配对样本t检验结果(见表2)显示,除学生6在翻译任务1和任务2得分一致

外,文化类型的翻译的得分明显高于经济类翻译得分。此外,如表2显示,三名考生(即考生

2、4和6)在文化类翻译任务中的得分明显高于第一篇(p<0.05)。其他学生的翻译分数没有

显著差异。这两个翻译任务满分为15分,學生分数覆盖5-12分,说明11名学生的翻译能力

有很大差异。

(三)概化研究(GeneralizabilityStudies)

本研究采用了两面交叉设计ptr,这种设计可以得到学生翻译能力、篇章类型、评估者

三种主效应(p,t,r),四种交互效应(pt,pr,tr,ptr)。各效应的方差成分如表3。

表3结果可以看到,作为测量对象的考生(p)产生了最大的方差分量(2.972),占据总

方差的50.24%,表明11个选定的考生,翻译能力差异很大。与评分者相关的(r)和(pr)约

占总方差的30%,说明由评估者因素给分数变异带来的误差相当大。而题材类型(t)属于同

一题型,只有题目内容的变化,其方差成分(0.244)很小,它仅占分数总变异的4.12%,说明

不同题材类型对学生能力测试不会造成很大差别。

表4显示两种不同翻译任务的考生*评分人pxr随机效应概化研究结果。不同题材的翻译

段落看作单面交叉设计pr,本研究所用的两篇不同内容的翻译分别代表了两个单面设计。考

生*评分者(pxr)随机效应产生以下方差分量:考生(p),评估者(r)和考生交叉评估者效

应(pr)。如表4所示,文化类翻译的结果表明,测量对象人(p)解释了最大的得分差异

(占总差异的58.87%),表明这11名大学生差异很大,翻译任务很好的衡量的学生的翻译能

力。残差是由于评估者和考生之间相互作用引起的可变性以及其他无法解释的系统性和非系统

性的来源错误占第二大得分方差(占总方差的29.57%)。评分者(r)产生了第三大方差成分

(占总方差的17.63%),表明评分者在评估翻译任务方面存在很大差异。

经济类翻译的结果表明,测量对象人(p)解释了最大的得分差异(占总差异50.60%),

表明这11名大学生翻译能力差异很大,翻译任务很好的衡量的学生的翻译能力。残差是由于

评估者和考生之间相互作用引起的可变性以及其他无法解释的系统性和非系统性的来源错误占

第二大得分方差(占总方差的29.57%)。评分者(r)产生了第三大方差成分(占总方差的

17.31%),这表明评分者在评估翻译任务方面存在很大差异。

(四)翻译测试的构造效度结果

为了检验翻译测试的构造效度(及聚合效度和区别效度),对随机效应评估人、任务和

考生(pxtxr)的方差分析概化研究(参见表3)和两个考生*评分者(pxr)随机效应的概化

研究(一个用于第一篇翻译任务,另一个用于第二篇翻译任务)来检查结构的有效性(参见表

4)。

如表3所示,作为测试对象的翻译能力解释了总变异的50.24%,这说明用汉译英段落翻

译测试考生的翻译能力,聚合效度可以接受。另外,本研究在翻译任务中使用了两个题材的翻

译任务,因此学生的翻译能力可以被视为多维结构。较大的值表示足够的区别效度。但是任

务、考生*任务和任务*考生*任务的差异占总分差的4.12%、1.21%和11.59%说明区分效度不

明显。

更多推荐

前言的英文译语怎么说