资料来源:桂诗春, 杨惠中. 中国学习者英语语料库[M]. 上海外语教育出版社, 2003.
CLEC语料库可在《中国学习者英语语料库》这本专著的随书光盘中找到,各大高校图书馆应该都有收录,如需要可以去各自的图书馆借阅、下载。也可以到下面这个论坛里找找看:https://www.corpus4u.org/forums/74/
(资料图)
下面是进入正题:
CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。
表1 CLEC语料分布
言语失误标注原则
1.简单合理,易于系统操作。参与标注的人比较多,分类表过于繁复,就难于掌握。我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。每一类里再用数目字细分。如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。
2.分类表的类别要适中。过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。现在的分类表有61个失误码,是属于中等规模的分类表。
3.提供足够的失误信息(失误本身、失误类型和失误发生范围)。例如In the past, people are[vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。 [vp6]In the past, people are[vp6,4-]kind to each other……,[vp6,4-] are为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。要联系这4个词,才能判断areare这个词用错了。
4.开放性。容许研究者根据需要对失误类型进行补充或进一步再分出细类。例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,等等。
5. 对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。
言语失误分类表(总数:61)
标注码说明
标准化处理后的各种失误频数及其比例
从上表可看出,
1. 词形的3种失误(拼写、构词、大小写)均在其中,而拼写更是居榜首,占失误中的17.47%。3种失误合并共占20.57%。
2. 词汇失误7种中有5种(替代、缺少、词类、冗余、歧义),占失误中的23.81%。
3. 句法失误9种中有4种(结构缺陷、标点符号、不断句、片段),占失误中的15.01%。
4. 动词词组9种中有4种(时态、主谓不一致、及物性、情态),占失误中的11.54%
5. 名词词组9种中有3种(数、主谓不一致、冠词),占6.67%。
6. 其他失误(动词/名词搭配、代词指称),占3.22%。
附上一些学者的建议和意见:
(详见:http://www.corpus4u.com/forum_view.asp?forum_id=11&view_id=464)
近日在从clec st 3和st 4子库中抽取更小子库时,发现了一些小的格式纰漏: 1、st 3和st 4中有些text不是另行开头,而是紧接上一个text出现。 2、有些text的annotation marks不是全部出现在开头,而是分两部分在开头和结尾出现。 3、各类标注的排列顺序在不同子库、不同text中有些不同。 4、st 4中有些text的开头没有标注<st 4>. 5、有些text之间不空行,有的空一行,有的空几行。 6、st 4中有些text的有些标注在开头出现两次。 这些纰漏都很小,但在用不同的检索软件时,就会影响结果。
另附:中国学习者英语语料库置于每篇语料前“<>”号内的编码(采用COCOA标准):
st学生类型
sex 性别:1男;2女
Y 累计学习年限
AGE 自然年龄
WAY 作文完成方式:
1试卷作文;2课堂作文;3课外作文
DIC 是否使用辞典
1是;2否;?不确定
TYP 作文类型
1论说文;2叙述文;3应用文;4说明文
SCH 所在学校
SCORE得分 6-15分之间
TITLE作文标题
BAND四六级作文编码:
4四级;6六级