一年一度的高考再次来临,考生们在考场拼搏之后,各家AI模型也迎来了答题时间。今年的AI模型圈加速迭代进化,那么AI写作文的水平是否有所提高呢?让名师来打分,各大模型的成绩排名又发生了哪些变化?
四川南充市嘉陵一中的语文教师李东林表示,相较于去年,AI进步显著,不再机械单一,变得更有思想了。2024年时,他认为AI作文缺少情感和灵气,而今年则觉得AI已经在这方面有所补充,但仍不够细腻。
李东林认为,人写作可以刻意抒情和感性,即使是思辨类题目,也需要契合某些人的感受,这是AI仍然欠缺的部分。湖南省中学语文特级教师左建国也有类似看法,他觉得AI作文整体有提升,但幅度不大。因为有关时代、社会与生活的新素材不多,明显储存不足,尤其是在抒发个人情感方面,仍然是短板,缺少生命的温度。
左建国老师曾担任高考作文阅卷组副组长,在高考阅卷方面有十几年经验。他认为,AI作文已经把考场作文变成一种可计算的拼图,形式上固然能逼近完美,但个性化的思考以及拨动人心的语言几乎没有看到,这是AI与真人思维的真正差别,因此难以获得高分或满分。
具体到各家模型表现,去年是通义千问、元宝和豆包这三家大厂的AI排在前三,但今年,谷歌的Gemini和DeepSeek空降榜单并列第一,元宝和通义千问排在第三和第四位,豆包降至第六位。今年选取了国内外九家模型,新增了谷歌的Gemini和DeepSeek。这两个模型在过去一年里声量逐渐扩大,成为头部模型,在此次评分中表现突出。
除了上述模型,还选取了海外的AI独角兽OpenAI,以及国内几个大厂玩家。去年的“AI六小虎”格局不再,从国内AI独角兽里选了月之暗面的Kimi和智谱。这些模型厂商在业界都有较高的知名度和受众,是基座厂商里有代表性的头部。
从此次作文表现来看,智谱和ChatGPT表现较差,排在末尾。几位老师在点评时提到,这两个模型的作文“论文味较重”,语言文字生硬,分析并不透彻,泛泛而谈。不过,各位老师对作文的喜好各有不同,分差较大,评分仅供参考。李东林表示,评分不一定准确,误差在5分之间是正常范围。
此外,这次测评用的是上海卷高考作文,这是一个较为思辨性的题目,论点论题较为明确,AI普遍答得不错。但今年高考全国一卷的作文,论题并不明显,考题用了诗歌引出,对AI来说较有难度。老师们反馈,这一题目AI写得有点乱,审题不清楚。AI适合写思辨类、逻辑分明的作文,任务越明确,表现越好。
上海高考作文题目是谈“专、转、传”,来源于华东师范大学终身教授胡晓明的文章。题目要求考生联系社会生活,谈谈自己的认识与思考。各家大模型的答案及教师的打分、点评如下:
- 谷歌Gemini的作文题目是《跳出流量的漩涡:从“专”到“传”的多元路径》,平均分61.5分,逻辑力强、论证有力。 - DeepSeek-R1的作文题目是《墨香深处有惊雷》,平均分也是61.5分,主题鲜明,语言优美。 - 腾讯元宝的作文题目是《云巅自有通天路 何须曲径渡星河》,平均分61分,观点鲜明,语言有文采。 - 阿里通义千问的作文题目是《从“专”到“传”,是否必须经过“转”?》,平均分59.75分,观点集中,分析有深度。 - 字节豆包的作文题目是《破茧成蝶:在转译中抵达永恒》,平均分59分,认识深刻,论述逻辑严密。 - 百度文心一言的作文题目是《破茧与羽化:论学术经典的诞生之路》,平均分58.5分,辩证看待问题,过渡自然。 - 月之暗面Kimi的作文题目是《化茧成蝶:专业文章的蜕变之路》,平均分59.5分,观点明确,有些句子很有文采。 - 智谱清言的作文题目是《破茧成蝶:论知识传播的三重境界》,平均分只有50.75分,结构欠佳,语言一般化。 - OpenAI ChatGPT的作文题目是《专、转、传:从专业到传世的桥梁》,平均分50.5分,标题不合适,内容泛谈三方面。
一些老师肯定了AI作文的优点,如语言通常都不错,材料也比较丰富。但从审题看,AI作文一般都能较准确审题,并且求稳。从结构上看,AI作文常常程式化,论说文要素完整,一般逻辑性强。然而,AI作文在思维独特性方面存在限制,文章往往中规中矩,缺乏真情实感和个人化表达。