中国学习者英语语料库(CLEC)的详细分析和介绍

资料来源：桂诗春, 杨惠中. 中国学习者英语语料库[M]. 上海外语教育出版社, 2003.

CLEC语料库可在《中国学习者英语语料库》这本专著的随书光盘中找到，各大高校图书馆应该都有收录，如需要可以去各自的图书馆借阅、下载。也可以到下面这个论坛里找找看：https://www.corpus4u.org/forums/74/

(资料图)

下面是进入正题：

CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词，并对言语失误进行标注。其目的就是观察各类学生的英语特征和言语失误的情况，希望通过定量和定性的方法对中国学习者英语作出较为精确的描写，为我国学生的英语教学提供有用的反馈信息。

表1 CLEC语料分布

言语失误标注原则

1.简单合理，易于系统操作。参与标注的人比较多，分类表过于繁复，就难于掌握。我们采取两级分类，第一级有11类：词形（fm）、动词短语（vp）、名词短语（np）、代词（pr）、形容词短语（aj）、副词（ad）、介词短语（pp）、连词（cj）、词汇（wd）、搭配（cc）、句子（sn）。每一类里再用数目字细分。如[cc]为词语搭配不当，[cc1]表示名词和名词的搭配，[cc2]表示名词和动词的搭配，[cc3]表示动词和名词的搭配，等等。

2.分类表的类别要适中。过粗容易统一，但信息太少，不利于分析学习者的失误/过细难以统一，容易把同一种失误归到不同类别。目前我们采取的办法是对常见的失误从细（如vp和np都有9小类），对少见的失误从粗（如cj只有两小类）。现在的分类表有61个失误码，是属于中等规模的分类表。

3.提供足够的失误信息（失误本身、失误类型和失误发生范围）。例如In the past, people are[vp6, 4-] kind to each other…, 失误用方括号表示，放在失误之后。 [vp6]In the past, people are[vp6,4-]kind to each other……，[vp6，4-] are为vp（动词）第6种（时态）失误，4-为失误发生的范围，-表示失误的位置，4表示失误前有4个词。要联系这4个词，才能判断areare这个词用错了。

4.开放性。容许研究者根据需要对失误类型进行补充或进一步再分出细类。例如[sn8]为句子结构有缺陷，研究者可以对这种失误再分为若干细类来研究。这需要把sn8的失误全部检索出来，然后定出第三级的分类范畴，如sn81，sn82，等等。

5. 对语体或失误的来由暂不作标注，因为这需要标注者较多的主观判断，更难以统一。

言语失误分类表（总数：61）

标注码说明

标准化处理后的各种失误频数及其比例

从上表可看出，

1. 词形的3种失误（拼写、构词、大小写）均在其中，而拼写更是居榜首，占失误中的17.47%。3种失误合并共占20.57%。

2. 词汇失误7种中有5种（替代、缺少、词类、冗余、歧义），占失误中的23.81%。

3. 句法失误9种中有4种（结构缺陷、标点符号、不断句、片段），占失误中的15.01%。

4. 动词词组9种中有4种（时态、主谓不一致、及物性、情态），占失误中的11.54%

5. 名词词组9种中有3种（数、主谓不一致、冠词），占6.67%。

6. 其他失误（动词/名词搭配、代词指称），占3.22%。

附上一些学者的建议和意见：

（详见：http://www.corpus4u.com/forum_view.asp?forum_id=11&view_id=464）

近日在从clec st 3和st 4子库中抽取更小子库时，发现了一些小的格式纰漏： 1、st 3和st 4中有些text不是另行开头，而是紧接上一个text出现。 2、有些text的annotation marks不是全部出现在开头，而是分两部分在开头和结尾出现。 3、各类标注的排列顺序在不同子库、不同text中有些不同。 4、st 4中有些text的开头没有标注<st 4>. 5、有些text之间不空行，有的空一行，有的空几行。 6、st 4中有些text的有些标注在开头出现两次。这些纰漏都很小，但在用不同的检索软件时，就会影响结果。

另附：中国学习者英语语料库置于每篇语料前“<>”号内的编码（采用COCOA标准）：

st学生类型

sex 性别：1男；2女

Y 累计学习年限

AGE 自然年龄

WAY 作文完成方式:

1试卷作文；2课堂作文；3课外作文

DIC 是否使用辞典

1是；2否；？不确定

TYP 作文类型

1论说文；2叙述文；3应用文；4说明文

SCH 所在学校

SCORE得分 6-15分之间

TITLE作文标题

BAND四六级作文编码：

4四级；6六级