张志祯等丨大型语言模型会催生学校结构性变革吗？——基于ChatGPT的前瞻性分析

2023-03-01

　　【刊载信息】张志祯, 张玲玲, 米天伊,& 丘诗萍. (2023). 大型语言模型会催生学校结构性变革吗？——基于ChatGPT的前瞻性分析. 中国远程教育（04）.

　　【摘要】自2022年底以来，大型语言模型ChatGPT以爆炸式用户增长与网络传播的方式向公众宣告其诞生，并因其流畅的多轮次对话、对需求的准确理解、实用性高的文本（含程序代码）生成，受到教育领域的广泛关注。对于以ChatGPT为代表的大型语言模型及其衍生应用的教育技术学思考，不能停留在为教师和学生提供使用建议的层面，还需更深入。其中的一个方向是探讨源自教学机器的适应性教学系统及其所支持的个性化学习对学校教学系统结构的可能影响。对ChatGPT教学行为的分析表明：在教学行为（活动、任务）层面，它能够进行对话辅导、技能训练、讲授演示、协同创作、交互评价等活动，但是缺少课时、单元、课程等上层结构，而作为其行为基础的“动作”，也面临可信性与准确性不高的挑战。尽管如此，ChatGPT表现出来的跨领域自然语言理解与生成能力仍为智能教学系统提供了新型“能力基座”，有望大范围改变智能教学系统的开发模式，提升其教学表现，为个性化学习提供更全面、更有效的支撑。学校的教学系统是否会因此产生结构性变革？本文将“会不会”问题，分为“能不能”与“应该不应该”两个问题，分别从事实逻辑层面、实践价值层面进行探讨。分析表明，学校现有的分科课程、班级授课、教师主导等系统结构仍保持稳定，并未受已有的智能教学系统与慕课等资源太大的冲击；基于大型语言模型的教学自动化还需要补足“上层结构”，夯实“基础动作”；对于基础教育，学校教学系统的要素（如教师）可能会发生很大变化，但系统结构很可能会保持稳定。

　　【关键词】ChatGPT；大型语言模型；智能教学系统；个性化学习；学校教育；系统变革；教学自动化

　　利用技术装置教学生的思想与实践源头可以追溯到近100年前心理测量学者普莱西（S. Pressey）设计的机械式“教学机器”。该机器能够实现标准化考试答题、自动计分与反馈。普莱西将其用于大学课程。1931年，在美国俄亥俄州立大学的学生刊物上，有学生以调侃的口气写道“如果能够发明另外一台机器，能够自动回答普莱西教学机器的题目，那么，在学生眼中，这就是一台完美的机器了”（Watters, 2021, p.54）。91年后，学生们所期待的完美机器终于诞生了：2022年11月，美国OpenAI公司推出了能自动答题、写作、编程的ChatGPT，但它不是纯物理机械的，而是依赖数字计算机技术，是现代人工智能的大型语言模型（Large Language Model, LLM）的产物。ChatGPT一经推出就受到广泛关注：用户过亿只用了区区两个月的时间（Hu, 2023）。大学生们用它做作业，引起了教师们的担忧，进而受到社会的广泛关注。人们也开始关注它对于教育系统的冲击，有论者提出ChatGPT会把传统教育“逼入墙角”（倪闽景, 2023）。

　　的确，人类的语言与知识、思维、智能、教育教学都密切相关。孔子的启发式教学、苏格拉底的“产婆术”、人工智能领域的“图灵测试”，都离不开对语言的使用。自然语言处理（NLP）被誉为人工智能皇冠上的明珠。一个能够自然地与人交谈、几乎能完美地回答任何问题、流畅地写作与编程的软件，在令人惊叹的同时，也难免会让人思考人类社会、人类个体、教育系统的未来图景。

　　在教育技术领域，利用技术辅助或代替教师去教学生是一个经久不息的话题。普莱西利用教学机器的商业与教学冒险失败20多年后，斯金纳（B. F. Skinner）用其行为主义学习理论将其“合理化”，并掀起了更大的产业力量投入，这一尝试很快也以失败告终（Watters, 2021, p.212）。但在20世纪中叶控制论、信息论等新兴学科的影响下，教学机器运动的勃兴速亡并未妨碍芬恩（J. Finn）以教学机器、程序教学、电视、收音机、广播等为主要媒体，设想大范围的“教育自动化”（Finn, 1960）。计算机、多媒体、互联网、移动设备、人工智能等技术的出现，无不引起人们对于“计算机教学生学习”的热情探索。以提出颠覆性创新（disruptive innovation）理论闻名的经济学家克里斯坦森（C. M. Christensen）认为，以学生为中心的学习软件和在线课程将是颠覆学校教育的主要因素（克莱顿·克里斯坦森等, 2015, p.94）。2015年，在人工智能热潮的带动下，宣称能够颠覆教育的适应性学习系统Knewton受到风险投资的追捧（Reich, 2020, pp.58-61）。尽管Knewton的预言和当初爱迪生的预言一样很快破灭，但在如此强大的ChatGPT问世之际，仅仅讨论如何防止学生作弊、如何帮助教师生成教学材料，显然是缺乏“教育技术想象力”的。因此，本文拟从行为学的层面，以ChatGPT为例分析大型语言模型对学校教育的可能影响。

　　一、

　　问题分析与术语界定

　　明确界定主要概念是分析的起点。本文对几个主要概念的界定如下。

　　1. LLM与ChatGPT

　　人们关注ChatGPT，当然不是因为ChatGPT本身，而是因为它向公众宣告了大型语言模型的出色性能。信息技术领域的工程技术研发，“从0到1”所需的时间是不确定的，但“从1到N”的速度通常是惊人的。一旦有团队把大型语言模型这条路走通，与ChatGPT性能相当的产品与服务可能很快就会出来，会沿着已经铺就的数字高速公路奔向普罗大众。对于教育领域而言，未来在大模型基础能力上衍生出来的产品与服务可能才是变革教育系统的直接参与者与推动者。本文用LLM指代大型语言模型支持下的原生应用与衍生应用所组成的软件体系，它们通常能够提供某一行业的有价值的服务；ChatGPT则特指微调版的GPT-3.5模型。

　　2. 学校结构与学校结构性变革

　　教学是学校教育的核心，思想政治教育也主要是在教学中渗透进行，其他活动都围绕教学需要展开。本文仅关注学校的教学子系统，后续交替使用学校教育和学校教学两个术语。学校结构指当前大多数学校教育实践表现出来的结构模式或者特征，可概括为年龄进阶、分科课程、班级授课与教师主导（Reigeluth & Karnopp, 2013, pp.1-5; 黄济 & 王策三, 2012, p.330）（图1）。具体来说，年龄进阶指学生学习的分级、进阶，主要看年龄、学期，绝大多数学生都是随学习时间的累积，自动进入下一阶段的学习——这与根据实际能力和成就进阶形成了鲜明对比（Reigeluth et al., 2019, p.15）；分科课程指学校教育的课程形态主要为学科课程，强调学科知识的系统性，并以间接知识为主；班级授课指学校教学多划分为20~50人的班级，以班级为单位开展教学；教师主导指在教学过程中，教师决定了教学的内容、活动方式、进度安排等，是教学过程的实际领导者。

　　图1 学校教育系统

　　学校教育变革可以在系统目标、系统要素、要素间关系等不同层次上进行。学校作为我国教育系统的一部分，其系统目标即人才培养目标或教育目标是由上级主管部门规定的，主要体现在国家颁布的课程标准等政策文件中。学校教育目标当然会受科技社会发展的影响，但这种影响是外在的、间接的，这里不做讨论。系统中某一要素的变革，例如教师备课方式的变化，可能不会影响与其他要素的作用方式，故系统可能仍保持原先的结构不变。若要素之间相互作用的方式发生较大范围、较为持久的制度性变化，则系统的结构也会发生变化。学校结构性变革指年龄进阶、分科课程、班级授课、教师主导等用于组织师生交互的模式发生了变化，比如：不再以年龄进阶，而是以能力进阶（Reigeluth et al., 2019, p.15）；不再以分科课程、班级授课为师生教学的组织方式，而是以项目学习组织教师、学生、内容和空间等资源（Lenz, 2015, p.124）。

　　3. “会不会”，即某事在未来某时刻“会不会”发生

　　学校教育是教育系统的子系统，是人为的社会制度安排。Selwyn在《机器人应该代替教师吗？（Should Robots Replace Teachers？）》一书的标题中，特意用“Should”，而不是“Can”“Will”，来突出其讨论话题的价值意蕴（Selwyn, 2019, p.viii）。本文中的“会”，包含两个层面的问题：一是“能不能”，即LLM的能力及其在学校中的实际表现将如何，这是事实逻辑分析；二是“应该不应该”，即对于学校教学中是否应该利用某种技术重组，这应该是选择性的而不是必然的，是综合事实逻辑、价值伦理、利益关系后的实践决策。

　　二、

　　ChatGPT的教学行为分析

　　相比教学过程中的教师、学生、教学内容等要素，人工智能技术仍属于教学手段范畴。教学手段有物理学和行为学上的双重含义（王策三, 2005, p.253）。本文关注其行为学上的含义，即人工智能技术的教学行为。LLM与ChatGPT是软件，是包含了人类开发意图的信息人工制品（王晓伟等, 2018），因此在分析其行为时有必要明确其开发者的意图与诉求。

　　如前文所说，ChatGPT是美国人工智能公司OpenAI利用海量语料训练出来的GPT-3.5神经网络模型，具有通用的、不限定领域的自然语言理解和文本生成能力，尚处于测试阶段的ChatGPT是GPT-3.5模型的微调版本（Wolfram, 2023）。ChatGPT以对话的方式让用户指定任务，强化了其作为智能体的“主体”感，使其更具人格化色彩。

　　尽管ChatGPT并不是专门为教育开发的，但其功能却极具教学价值。Anders（2023）将其功能概括为回答问题、总结/解释信息、创建新颖的文本内容、提供反馈和编写计算机代码。Skrabut（2023）提出了其课堂应用的80种方法，分为辅助备课、提供教学辅助、创建评价材料、开展课堂活动、辅助学生自主学习等类别。总体上看，目前的建议主要集中在教师主导、班级授课的框架下，即ChatGPT辅助集体授课中的教师教学和学生学习。

　　本文所关注的却是ChatGPT直接去“教”学生的教学行为。由软件代替教师去教学生，由算法控制学生的学习内容与进度，即教的自动化。其大规模常态化应用极有可能改变学校教学系统的结构。

　　这正是适应性教学系统或智能教学软件所追求的。其思路还是源自斯金纳和普莱西的教学机器：机器教学生，才能突破教师辅导的瓶颈，打破班级教学的“整齐划一”，大范围实现学生学习的个性化。运用教育学的术语，从其教学行为的类型上看，ChatGPT能够开展的自动化教学行为有如下五类。

　　1. 对话辅导

　　学生与系统用自然语言对话的方式获取教学信息，表达、更新对知识原理的理解，深化对现象、事件的解释。学生主要用自然语言提问、回答。系统对于学生问题的理解和精准的反馈是这个过程的核心。“提问—回答”可以看作是对话辅导的特殊情况，通常对话辅导有多轮次的问答，且多轮次之间是有内在关联的，而“提问—回答”强调的是单一轮次的提问、回答行为。

　　2. 技能训练

　　写作本身就是一种技能，从这个意义上看，ChatGPT为写作训练提供了前所未有的学习条件。对于其他技能，ChatGPT提供了有限支持。例如，可以通过给ChatGPT指定一个角色，比如让其扮演面试官、Linux系统，学生可以开展模拟面试、Linux命令学习。尽管ChatGPT对于写作之外的技能学习支持有限，但其衍生产品的想象空间却很大。

　　3. 讲授演示

　　讲授演示指软件生成讲解性的文字、视频、声音等学习材料，为学生提供知识讲解。与对话辅导相比，这种教学方式强调系统地呈现大段信息给学生。尽管这似乎是压抑了学生主动性的学习方式，但对于某一主题的初学者，这通常是认知负荷最小的。目前，ChatGPT并未提供这样的功能，但相信有LLM衍生产品会提供类似的资源集成与呈现服务。因此，在此一并讨论。

　　4. 协同创作

　　这里的创作是广义的，作文、研究报告撰写、程序代码编写、活动方案设计等都是创作活动。学生向系统陈述作文题目、方案设计、编程需求、媒体制作说明等任务要求，系统生成初始版本（或者方案），学生评估，向系统提出修改要求，系统给出新版本……在多轮迭代过程中，生成一个作品或者方案——这正是让广大教师头疼不已、让一些学生欢欣鼓舞的功能。

　　5. 交互评价

　　交互评价指ChatGPT具有对学生的回答甚至一些复杂的表现做出评价的能力。对于学习技术而言，能评什么就能指导什么，因此，评价是制约大规模学习技术的瓶颈（Reich, 2020, p.171）。对于教育教学中普遍采用的短文、论文、研究报告等作业，若借助ChatGPT的语言能力，有望提高评价的信度与效度。在对话辅导、技能训练中实际也内嵌有评价。大型语言模型的基础能力为探索其他评价形式提供了很好的条件。

　　从教师教学任务层次划分的角度看，ChatGPT的“教学能力”主要体现在教学活动（行为、任务）层面（图2），ChatGPT在这个层面与学生的互动是以特定任务为情境的。但学校教师的教学需要在所有层面开展，即学段/专业、课程、单元、课时、活动与动作。ChatGPT衍生应用要实现更大范围“教”的自动化，主要面临两个挑战：一是需要能够在更多层面上工作，尤其是课程、单元与课时层面；二是需要提高动作层面的准确性与正确性。对于GPT-3.5模型而言，后者的挑战可能更大：它在行为（活动）之下的“动作”层面，表现并不稳定，仍会犯一些逻辑、事实性错误，ChatGPT称其为“hallucinations（幻觉）”（Anders，2023, p.11）。根据人工智能其他领域的“90%-10%”经验原则，即10%的问题（低概率出现的错误），可能需要90%甚至更多的力气去解决（Mitchell, 2019, p.181），这一问题的解决，也许并不乐观。

　　图2 学校教学的多个层面

　　ChatGPT的设计意图是提供语言理解与生成的一般能力，因此不会预置真实教学工作所需要的课程、课时等上层结构，也不关心教学活动中对语言的精准要求。即便如此，ChatGPT的基本语言能力及其对对话辅导、技能训练、讲授演示等教学行为的支持，也使其具有了“自动化地教”变革学校教学系统结构的基础能力。下面对其进行更深入的分析，先看“能不能”，再看“应该不应该”。由于协同创作在学校教育中的应用存在较大争议与风险，而交互评价尽管很重要，但占学校活动的时间短，且通常正式评价是由校外机构开展，更为专业，因此，对这两种教学行为，本文不再探讨。

　　三、

　　从历史经验看“能不能”问题

　　ChatGPT问世的时间很短，除了一些大学生用其完成作业、进行全球教育者测试之外，有何教育教学历史经验可言？在这个问题上，我们认同Reich的观点：教育领域很少有全新的解决方案，在工程技术、教学模式、教学理念等各层面，新方案中总能看到“旧”技术、模式、理念的影子；这时对于新方案中不同成分的已有应用的考察，对于预测其应用效果和有效条件会有帮助（Reich, 2020, p.233）。因此，ChatGPT虽然是个全新的应用，但是其对话辅导、技能训练、讲解演示等教学行为，已有智能教学系统或资源采用，故分析这些已有的应用情况有助于预测ChatGPT的应用方式与效果。

　　（一）已有系统应用未能变革学校教学系统的结构

　　本文针对ChatGPT的主要教学行为类型来选择对应的智能教学系统或资源作为分析案例。对话辅导、技能训练分别选择AutoTutor、Cognitive Tutor（以及ASSISTments）进行对照分析。至于讲授演示，则选择慕课进行对照，理由是：假设未来的大型语言模型或其衍生应用可以生成视频、图像、声音等多媒体“文本”，视频有可能仍是讲授演示的首选媒体，其学习体验与慕课可能会很接近。另外，尽管人们谈到慕课时往往只想到视频，但是慕课平台可能内置学习分析功能、对于学生作业可能采用人工智能技术进行评判（Koller, 2012），因此有些慕课的智能水平并不亚于某些智能教学系统。

　　1. 对话辅导

　　AutoTutor是典型的对话辅导系统，其研究始于20世纪末。AutoTutor开始时模拟人类教师的辅导策略，后期发展出计算机能够实施的更精细的对话辅导策略，来帮助学生逐步生成问题的正确回答，在这个过程中促进学生对概念和原理的深度理解（Graesser, 2016）。

　　据我们检索到的文献，AutoTutor似乎并没有大范围的“直接的”基础教育学校常态化应用。这里强调“直接”，是因为AutoTutor的一些功能模块，为一些大出版社的产品提供后台服务；作为研究项目，AutoTutor很成功，在物理、生物、批判性思维、信息技术等多个领域获得了与人类教师相当的学习效果，扩展出多个项目与产品（Graesser, 2016; Nye et al., 2014）。AutoTutor的问题是，系统很难恰当、正确地回答学生的新异问题，用一段时间后，通常学生就不主动提问了（Graesser, 2016），即AutoTutor对话辅导时常陷入“语义泥淖”（张志祯等, 2019b）。

　　2. 技能练习

　　Cognitive Tutor（以下简称“CT”）是典型的技能训练系统。其以认知任务分析为基础，实现认知技能的教学。计算机为学生创建一个高度结构化的问题解决环境，逐步跟踪、判断学生的问题解决过程，适时提供反馈、提示与帮助。为支持特定认知技能的学习（如解一元二次方程），需详尽分析完成任务所需的陈述性知识和程序性知识，利用产生式系统表征知识，为学生提供问题解决的认知工具，系统跟踪问题解决过程，将学生表现记录在学生模型中（张志祯等，2019b；Anderson et al., 1995）。CT成功用于中小学几何、代数等学科学习（Koedinger & Aleven, 2016）。ASSISTments与CT渊源颇深，可以算是有意“降低”智能水平的CT版本，降低智能水平是为了让学科老师能够控制（增加、修改）课程内容。ASSISTments主要用于学生完成家庭作业，即学生在线完成作业，从系统（网站）获得即时反馈与指导，同时系统（网站）为教师生成学生学习情况的数据。CT在实践中应用广泛，是成功的产品。ASSISTments一直保持开放与免费，与教师形成了很活跃的实践共同体，截至2020年其学生用户达6万人，解答了学生1,200多万次的问题（Metz, 2020）。

　　从应用模式看，CT和ASSISTments融入了学校教育的现有结构。美国匹兹堡学区的一些学校常态化采用CT，但未用其代替课堂教学，通常是一周内3~4天为常规的课堂教学，1~2天采用系统的个别化学习（Koedinger & Aleven, 2016）。ASSISTments希望帮助教师开展形成性评价，以为学生作业提供反馈、指导为切入点（Heffernan et al., 2014），也许因为设计者曾是中学数学教师，设计的意图是补足学校系统的“短板”，而不是要颠覆它。这从美国教育技术市场曾经的明星企业Knewton的发展轨迹也可以看出：2015年前后，这一备受风险投资青睐的“适应性学习服务”提供商，逐步从前台消退，成为大出版社的内容提供者（Reich, 2020, p.32）。

　　3. 讲授演示

　　慕课在教育领域尤其是高等教育领域已有广泛的应用，但它并未如其倡导者在2012年所宣称的那样颠覆高等教育，而是被高等教育机构吸收，用于提供更全面的学习支持。与此类似，被克里斯坦森寄予厚望的在线课程，也未颠覆基础教育（Reich, 2020, pp.60-61）。这一点，由疫情期间世界范围内开展的在线学习可以得知：教师的课堂讲授仍是主流，不过从物理空间转移到了互联网视频会议平台上（付卫东, 2020; 王继新, 韦怡彤, 宗敏, 2020）。

　　4. 小结

　　从学校的教学系统结构来看，“班级授课”“教师主导”并未受到这些系统/资源的太大挑战。正如王策三（2005, p.266）所分析的，现代教学手段的采用改变了教师主导的方式，教师在任务的组织、管理方面需要做更多的工作，教师对学生学习的主导更加间接了。至于“分科课程”，反而在一定程度上被这些智能教学系统增强了：智能系统都包含复杂的学科知识库，这些知识仍然以体系化的间接知识为核心，而且由于不同教学系统的知识库并不相通且难以更新，分科课程变得更加固化了。“年龄进阶”属于学校、学区管理制度，需要兼顾学生需求和管理成本，某一教学系统很难对其产生影响。

　　（二）已有系统应用未能催生学校结构性变革的原因分析

　　已有的智能教学系统与慕课未能大范围催生学校的结构性变革，这是有多种原因的，这里重点分析其理论与技术原因。

　　第一，理论与研究基础的限制。人们对于个性化学习的内涵与实施方法的认识存在很大分歧（Zmuda et al., 2015）。美国兰德公司对个性化学习项目校的调查表明，即使是项目校的高中教师，其关于个性化学习内涵的认识、策略与实践都存在很大差异（Steiner et al., 2020）。在教育技术领域内部，对适应性学习系统应该通过调整什么去“适应”什么也存在不同观点（Pearson, 2016）。Bloom（1985）的研究是智能教学系统应用的重要研究基础，但近期也有研究者质疑其研究设计：其研究的都是某个领域的入门性学习（对教学和辅导高度敏感），很少包括高阶学习目标。

　　第二，计算机技术的限制。对话辅导系统主要借助自然语言对话开展教学，这限制了它能够达成的学习目标：不能给学生提供“做”的机会，无法发展学生的认知技能；限于计算机自然语言理解和表达能力，系统无法像孔子、苏格拉底那样引导学生讨论开放、深奥、结构不良的原则性、理论性问题；只能支持事实性知识、概念和简单规则的学习。辅导要求精准理解、准确反馈，AutoTutor依靠潜在语义分析（Latent Semantic Analysis, LSA）和正则表达式技术，难以达到自然语言对话的要求（Nye et al., 2014）。技能训练系统能够逐步为学生的问题解决提供反馈，应用范围与效果都更好一些，但是其领域知识库的建构成本很高，更新困难，且适用内容类型有限（仅适用于数学、物理等结构化程度较高的学科内容），这些是影响其应用范围的重要因素。

　　第三，技能学习自身的特点，即高级学习阶段对于学习环境社会性支持的要求很高。技能训练系统能够教授的领域与技能水平有限。技能发展的早期，小步子、及时反馈很有用，资源也容易设计开发；用多个技能综合解决复杂问题时，技能学习很难被拆成小步子，这时同伴间的讨论、展示、启发、激励以及教师的榜样作用就非常重要，反馈的及时性和重要性反而降低，因为学生需要时间去消化吸收，而且学生能够自反馈了。CT最初的系统是教授LISP编程的，但仅实现了入门级别的教学。Anderson等（1995）直言仅停留在入门水平教学的原因是：入门级学习系统容易开发，且学习效应明显。根据Dreyfus（2009, pp.27-46）从现象学视角对技能习得的分析，没有具身参与的低风险①学习环境对于技能发展的支持不足，只能从新手到胜任阶段，无法达到熟练、专家、大师阶段。

　　第四，学习者本身的因素，即学习者需要具备一定的条件才能在技术学习系统中受益。作为开放学习资源，慕课并未像预期的那样有助于缩小“学习结果”的鸿沟。其学习结果存在明显的马太效应，那些已经受过良好专业教育的学习者在慕课学习中更受益，即具备自主学习能力、已掌握专业基础知识的专业人员更能从慕课中受益（Reich, 2020, p.148）。也就是说互联网与开放学习资源确实消弭了地理距离，但并未缩小社会距离。

　　（三）结构对比分析

　　接下来以智能教学系统的一般架构为框架（Woolf, 2009, pp.44-55），对比分析ChatGPT和CT智能教学系统。

　　1. 领域模型

　　领域模型即领域知识库与推理引擎。ChatGPT的知识库是很庞大的，还会给人以系统已“具备常识”的错觉，但它的“知识”主要存储在从语料中学得的大型神经网络中，对于要求事实准确、可靠的形式化推理而言，它显得有些力不从心。而CT有专门的产生式学科知识库，需要由具备一定教育、心理与数学学科素养的专业人员构建，这正是它开发成本高的原因。CT的知识库使其能够在一个小领域中，利用符号运算，精确推理。

　　2. 学生模型

　　ChatGPT会保存用户输入的提示内容，以会话的形式实现有情境的多轮次对话。CT有复杂的学生模型，能够很好地表征学生在特定知识领域的掌握情况（Anderson et al., 1995）。

　　3. 教学模型

　　ChatGPT当然也存储了大量教育学、心理学以及教学方法策略的信息，但是这些信息恐怕仅以陈述性知识的形式存在，并不存在将其“执行”、用其开展教学的机制。CT则有专门的教学模型，ACT*R理论是其基础（Anderson et al., 1995）。

　　4. 交互模型

　　ChatGPT的自然语言对话能力，是先前的智能教学系统所无法匹敌的，在这一点上，若它的对话辅导性能超出AutoTutor很多，将不会令人意外。但是，至少目前的ChatGPT版本的交互方式较为有限，难以模拟出用特定技能解决问题所需要的学习环境，例如类似CT的解方程的界面。因此，除了写作、编程等借助自然语言即可实现的技能训练，其他领域的技能训练难以通过它进行。鉴于当前Web客户端技术（HTML、CSS、JavaScript）的成熟，且ChatGPT已经表现出很强的编程能力，适应性自动交互模型的生成并不是遥不可及的。

　　根据前面的分析，ChatGPT要想实现更为广泛的领域的教学，需要修改或补足领域模型、学生模型、交互模型等，但其大模型为对话、领域知识打下了很好的基础，是非常有希望的智能教学系统的“能力基座”。

　　四、

　　从学校教育实践与理论看“应该不应该”问题

　　相比而言，“应该不应该”问题更为复杂，与各种深层次的观念、习惯与利益纠缠在一起。在学校教育尤其是基础教育层次，利用信息技术直接“教”学生是一个可选项，而不是不可避免、注定如此的。其他行业的智能自动化经验，在教育领域不一定适用。工商业追求效率，追求快速完成交易、交付产品和服务，通常是无损于服务、商品质量的。而仅求快的教学可能会牺牲学生的兴趣、好奇心，不利于学生长期发展。广告商零售商要从茫茫人海中捕获客户，他们的客户主要是陌生人，因此决策窗口很小，就需要在短时间内快速汇集多方信息，做出决策，失去这个时间窗口，就永远失去该客户了；老师和学生则不同，几乎天天共处一个房间，一次交互过程中出现的错误，后续还可以弥补，因此巨细靡遗的全方位大数据也许价值有限。

　　即使ChatGPT这样强大的工具，也不一定非要扮演机器教师的角色，但这种尝试可能也是很难避免的。这里无法提供现成的答案，仅提供几个需要思考的问题。

　　（一）教学的教育性如何保证

　　教学是学校达成教育目标的基本途径。任何教学活动都不仅仅只为特定知识、技能的获取，还有更长远的教育目的。受教育者的价值观、思想信念、一般能力与身心发展才是教学的最终目的。有些目的是以更为有效的“隐性课程”方式，即不明言的，仅通过教师自己的榜样、情感、语气、案例、活动等方式潜移默化地达成。ChatGPT这样的大型语言模型，其训练的语料、过程，是学校甚至教育系统都没有办法控制的；训练出来的模型在特定情境下的表现，即使开发者可能也无法准确预知。用文艺作品的形象来类比，ChatGPT更像“雨人”、周伯通、汤姆·邦巴迪尔②这样的人物，行为的不可控性、不可预测性高。这种情况如何应对？当然不能因噎废食。同时，学生遇到不可预测的信息，也是未来现实生活的一部分，成功教育的目标之一就是要培养学生在面对新异情境和不可预料的信息时，仍能保持批判性思维和立场。但是，学校所提供的教学资源毕竟和生活中随机遇到的不同，容易被过度解读。若用LLM教，学校、教师如何能够预见这样的问题可能发生，在发生时又当如何应对？

　　（二）学习会不会异化为与机器博弈

　　学生可能会去和教学系统博弈，只是为了快速通过测试，快速完成学习任务，而不关注学习内容，有时反而可能会损害真实的技能习得。比如面对某些智能英语听说考试系统，为了得高分，学生需要放慢语速、发音偏向英音，这对于美音的熟练表达者反而不利，需要降低表现水平才能得到系统的高评价。同时，ChatGPT是用语言与学生交互，尽管ChatGPT自然语言理解能力已经很强了，但是毕竟还缺乏常识，高度依赖语言的形式。目前已经有专门的书籍教授如何编写ChatGPT的提示语（Hunter, 2023, p.15），这算不算ChatGPT对学生大脑的“反向编程”？久之，会不会影响其与人类个体的交流？即使这个风险很低，对于类似ChatGPT这样的“人性化”软件，抛开数据和个人隐私不谈，未成年学生与其建立密切关系应到什么程度？企业万一停止服务，历史数据如何处理？

　　（三）大面积采用深度学习技术实现自动化的行业是否能够可持续发展

　　徐英瑾（2021, p.69）认为从哲学角度看，“深度学习机制是海德格尔‘常人’的机械化表达：它浓缩了一个领域内人类智慧的平均意见，并以存在大量个体化的常识判断为其自身存在的逻辑前提……可以被视为寄生在人文资源上的‘技术寄生虫’——它会慢慢挥霍人文资源的红利，而本身却不产生新的历史发展可能性”。学校采用这样的系统自动化教学越多，自己教师的专业实践深度、锻炼机会就越少，不管是学校还是教师个人的专业知识与实践经验就很可能不断萎缩，最终丧失教育智慧。这样的学校多了，整个教师行业就会出现危机。在这个意义上，人工智能的应用确实是一个存在论级别的问题（赵汀阳, 2018）。

　　（四）教师个人劳动的匿名性与去专业化会有什么后果

　　Selwyn（2021, p.24）认为要分析清楚技术对教师的影响，需要关注物品与设备、活动与实践、社会背景，其中社会背景指围绕技术应用的社会安排和组织形式，在不同类型人员和组织中，劳动、决策、资金、数据等是如何流动的。学校采用信息技术尤其是能够自动“教”的技术时，教学过程最重要的决策者并不是在教学现场的，而恰恰是不在场的软件设计者、开发者。教师往往会沦为软件决策的解释者和执行者。教师作为内容专家、教学专家，以匿名的形式呈现给自己或者其他学校的学生——这些学生是不会感知到教师这个人的存在的，因此教师的专业劳动被匿名化，而课堂中的教师角色则日趋去专业化。其他行业自动化的历史表明，采用人工智能技术后，带来的往往不是更少的工作，而是更差的工作（Selwyn, 2021, p.229）。教育行业会是例外吗？如果也是类似的情况，长此以往，会不会影响教师的专业能力、专业热情与责任感？会不会影响教育的整体质量？

　　（五）学校的自主性、灵活性与健壮性如何保证

　　目前ChatGPT只能运行在OpenAI的服务器上，未来类似的产品及其衍生产品大概率也是集中部署的。学校依赖云服务开展教学的风险在新冠病毒感染疫情期间的在线教学中人们都已深有体会。对网络和服务器的依赖让学校变得脆弱：遥远地区的地震、隔壁单位的挖掘机，都有可能让学校的教学和管理停顿。

　　五、

　　初步的结论

　　信息技术的应用、学校的结构性变革本身都不是目的，而是手段。其目的是为了学生的成长、学生和教师的幸福、社会的可持续发展。因此，不能抽象地谈学校教育，要尊重学校中人类个体的主观感受、知识与权力。

　　从前面的分析来看，对于“能不能”问题，即使ChatGPT已经表现出“接近”人类的自然语言理解与生成能力，它依然难以胜任对话辅导对精确、正确表达的需求；其衍生应用仍需要补充大量知识，才能从教学行为层面拓展到课时、单元、课程层面。由于神经网络模型的“黑箱”性质，ChatGPT要整合人类某个领域知识并非易事（Wolfram, 2023）。当然其强大的语言、推理能力，仍为计算机“教”学生提供了极大的想象空间，这是普莱西、斯金纳所难以想象的教学机器的基础设施。

　　对于“应该不应该”的问题，很难有确定的回答，很多问题都涉及伦理、制度、技术等多个层面，现实实践中还有不可回避的权力、经济和效率问题。这些问题纠缠在一起，很难从理论上分析清楚。要允许敢于吃螃蟹的学校、区县做探索尝试。但总体上，对于不同层次的学校，变化可能不同。

　　对于基础教育，学校的教育目标是外在规定的，且多年以来就在明确强调能力、素养，各种力量已经在持续推进学校变革。教师、学生、内容、条件等要素保持不变是不太可能的，也与现实经验不符。但对于绝大部分学校而言，分科课程、班级授课、教师主导等结构特点依然会保持不变；教师的备课、评价等专业活动会有很大变化；学生在学校的课堂学习很可能会保持不变：课堂还是以教师主导的面对面讲授、讨论、项目式学习为主。

　　对于高等教育、职业教育，要看专业、课程的类型。年龄进阶、分科课程、班级授课在不同专业、不同发展阶段的实施方式、程度存在很大的不同。大型语言模型、人工智能内容生成技术对于很多工作岗位（包括科研方式）的影响太大，协同创作很可能会进入专业后半段的学习，但由于写作能力本身的重要性，如同数学中的计算一样，很可能在专业早期的课程中会禁用协同创作。人工智能内容生成技术的进一步发展，可能会与虚拟工作环境、数字孪生等领域相结合，如果这样，它对于与岗位密切相关的课程就会有很大影响，会极大改变其课程形态与教学模式。

　　六、

　　结语

　　百年前，教育研究者和教师将教学机器引入教育系统，教学机器教学、测验的机械与枯燥引起了学生的不满；今天，学生自发使用ChatGPT，学术不诚实的嫌疑、错失写作能力训练机会引起教师的不安。这个变化耐人寻味。不管各学校的具体措施如何，互联网、智能技术都已经挤进了“象牙塔”的大门。信息时代、智能时代的教育机构必须具有开放的意识与能力，也要有应对开放的意识与能力。

　　大型语言模型采用从人类已生成的海量语言中“暴力”挖掘言语的模式，以人类难以把握和理解的方式获取、存储、应用语料库中蕴含的“知识”。人类个体则擅长利用已有知识体验，不断在新情境下挖掘意义，获得启迪。比如，“陪太子读书”这句中国的老话，在人工智能教育应用领域或可用其强调学习的社会性，即太子读书也需要同伴，形象地说明了学习同伴（Learning Companion）这类智能教学系统的价值与定位（Chan, 1990）。在搜索引擎、大型语言模型使信息知识唾手可得、每名学生都可以有一个私人的LLM助理时，这句话还可以做这样的解读：连太子都要“亲自读书”。帝国的太子虽然没有移动互联网，但周围的“师傅”必定很多，太子并未利用这一便利条件将认知外包，而是积极从环境吸收信息到自己的大脑中。为何会这样？估计空空的脑袋在听取信息做决策时，很难评估信息的质量、做出合理的决策吧。再有，这句话还有一种讲法：在太子顽劣或者不愿学习时，不方便直接惩罚，就惩罚“陪读”，这一安排抛开其合理合法性不谈，表明古人已经很清楚：即使对于太子，学习也是一项需要意志投入和控制的活动，不能仅凭自觉自愿和自我调节，还需要有一种“勉强”的机制。这种“勉强”可以替换成由没有共情能力的机器来做吗？

　　注释：

　　①例如，被惩罚的风险降低。在线环境中，学生受到教师惩罚、在同伴面前“丢面子”的风险均降低，这会影响学生的认知与情感的卷入程度。

　　② “雨人”是美国电影《雨人》中的“大哥”；周伯通是金庸《射雕英雄传》等小说中的角色；汤姆·邦巴迪尔是英国作家、语言学家托尔金的小说《魔戒》中的人物。三位都各有特长，但容易沉浸在自己的世界中，不太在意社会、他人的要求或需求。

　　参考文献

　　付卫东. （2020）. 疫情期间我国中小学教师在线教学：现状、问题及策略——基于全国7111位中小学教师在线问卷调查的数据. 现代教育管理（8），100-107.

　　黄济，& 王策三. （2012）. 现代教育论（第3版）. 人民教育出版社.

　　克莱顿·克里斯坦森，迈克尔·霍恩，& 柯蒂斯·约翰逊. （2015）. 创新者的课堂：颠覆式创新如何改变教育（李慧中译）. 中国人民大学出版社.

　　倪闽景. （2023-02-13）. 面对ChatGPT，传统教育已被逼入墙角?. 中国教育在线. https://news.eol.cn/xueshu/hui/202302/t20230213_2299068.shtml

　　孙立会，葛兴蕾，& 陈张兼. （2017）. 技术在未来高等教育中的应用图景——基于《地平线报告2017（高等教育版）》的分析. 电化教育研究（12），121-128.

　　王策三. （2005）. 教育论稿. 人民教育出版社.

　　王继新，韦怡彤，& 宗敏. （2020）. 疫情下中小学教师在线教学现状、问题与反思——基于湖北省“停课不停学”的调查与分析. 中国电化教育（5），15-21.

　　王晓伟，倪静，& 邱莹. （2018）. 软件作为信息人工制品的概念及分类理论研究. 自然辩证法研究（09），55-62.

　　徐英瑾. （2021）. 人工智能哲学十五讲. 北京大学出版社.

　　张志祯，张玲玲，& 李芒. （2019a）. 人工智能教育应用的应然分析：教学自动化的必然与可能. 中国远程教育（1），25-35，92.

　　张志祯，张玲玲，徐雪迎，& 刘佳林. （2019b）. 人工智能的教学角色隐喻分析——以人工智能教育应用领域高影响力项目为例. 中国远程教育（11），24-37，57，93.

　　赵汀阳. （2018）. 人工智能“革命”的“近忧”和“远虑”——一种伦理学和存在论的分析. 哲学动态（04），5-12.

　　Anders, B. A. (2023). ChatGPT AI in Education: What it is and How to Use it in the Classroom. Sovorel Publishing.

　　Anderson， J. R.， Corbett， A. T.， Koedinger， K. R.， & Pelletier， R. (1995). Cognitive Tutors: Lessons Learned. The Journal of The Learning Sciences， 4(2)， 167-207.

　　Bloom， B. S. (1984). The 2 Sigma Problem: The Search for Methods of Group Instruction as Effective as One-to-One Tutoring. Educational Researcher， 13(6)， 4-16.

　　Chan， T. W.， & Baskin， A. (1990). Learning Companion Systems. In C. Frasser & G. Gauthier(Eds.)， Intelligent Tutoring Systems: At the Crossroads of Artificial Intelligence and Education(Chapter 1， pp. 3-23). Ablex Publishing Corporation.

　　Christensen， C. M. (2008). Disrupting Class. McGraw-Hill Professional.

　　Dreyfus， H. L. (2009). On the Internet(Thinking in Action). Taylor and Francis. Kindle version.

　　Finn， J. (1960). Automation and Education: 3. Technology and the Instructional Process. AV Communication Review， 8(1)， 5-26

　　Graesser， A. C. (2016). Conversations with AutoTutor help students learn. International Journal of Artificial Intelligence in Education， 26(1)， 124-132.

　　Heffernan， N. T.， & Heffernan， C. L. (2014). The ASSISTments ecosystem: Building a platform that brings scientists and teachers together for minimally invasive research on human learning and teaching. International Journal of Artificial Intelligence in Education， 24(4)， 470-497.

　　Hu， K. (2023-02-01). ChatGPT sets record for fastest-growing user base-analyst note. Reuters. https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-2023-02-01/

　　Hunter， N. (2023). The Art of Prompt Engineering with ChatGPT: A Hands-On Guide. Kindle version.

　　Koedinger， K. R. & Aleven， V. (2016). An Interview Reflection on "Intelligent Tutoring Goes to School in the Big City". International Journal of Artificial Intelligence in Education， 26， 13-24.

　　Koller， D. (2012-08-01). What we're learning from online education TED. https://www.ted.com/talks/daphne_koller_what_we_re_learning_from_online_education

　　Lenz， B.， Wells， J.， & Kingston， S. (2015). Transforming Schools Using Project-Based Learning， Performance Assessment， and Common Core Standards. Jossey-Bass.

　　Metz， E. (2020-04-14). ASSISTments: From Research to Practice at Scale in Education. Inside IES Research. https://ies.ed.gov/blogs/research/post/assistments-from-research-to-practice-at-scale-in-education/

　　Mitchell， M. (2019). Artificial Intelligence. Farrar， Straus and Giroux.

　　Nye， B. D.， Graesser， A. C.， & Hu， X. (2014). AutoTutor and family: A review of 17 years of natural language tutoring. International Journal of Artificial Intelligence in Education， 24(4)， 427-469.

　　Pearson. (2016-05-14). Decoding Adaptive. https://www.pearson.com/content/dam/corporate/global/pearson-dot-com/files/innovation/Pearson-Decoding-Adaptive-v5-Web.pdf

　　Reigeluth， C. M.， Karnopp， J. R.， Sommer， B.， Namba， N.， Jaeger， P.， & Sherwood， L. (2019). Vision and Action: Reinventing Schools Through Personalized Competency-Based Education. Marzano Resources.

　　Selwyn， N. (2019). Should Robots Replace Teachers. Polity Press.

　　Selwyn， N. (2021). Education and Technology. Bloomsbury Publishing.

　　Skrabut， S. (2023). 80 Ways to Use ChatGPT in the Classroom: Using AI to Enhance Teaching and Learning. Stan Skrabut.

　　Steiner， E. D.， Doss， C. J.， & Hamilton， L. S. (2020). High School Teachers' Perceptions and Use of Personalized Learning: Findings from the American Teacher Panel. RAND Corporation. https://www.rand.org/pubs/research_reports/RRA322-1.html.

　　Watters， A. (2021). Teaching Machines: The History of Personalized Learning. The MIT Press.

　　Wolfram， S. (2023-02-14). What Is ChatGPT Doing… and Why Does It Work? Stephen Wolfram Writings. https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/.

　　Woolf， B. P. (2009). Building Intelligent Interactive Tutors. Burlington: Morgan Kaufmann Publishers.

　　Zmuda， A.， Curtis， G.， & Ullman， D. (2015). Learning Personalized. Wiley.

　　Will Large Languge Model Lead to Structural Changes in Schools?: Prospective Analysis Based on ChatGPT

　　Zhizhen Zhang, Lingling Zhang, Tianyi Mi and Shiping Qiu

　　Abstract:Since the end of 2022, ChatGPT, a Large Language Model, has announced its birth to the public with explosive user growth and online dissemination. Due to its smooth multi-round dialogue, accurate understanding of requirements, and high practical text generation including program coding, it has attracted wide attention in the field of education. The educational technology thinking of the Large Language Model represented by ChatGPT and its derivative applications should not stop at the level of providing suggestions for teachers and students, but should go deeper. One direction is to explore the possible impact of Adaptive Teaching Systems derived from Teaching Machines and the personalized learning they support on the structure of school teaching systems. The analysis of ChatGPT's teaching behaviors shows that in terms of teaching behaviors (activity and task), ChatGPT can carry out dialogue guidance, skill training, teaching demonstration, collaborative creation, interactive evaluation and other activities, but it lacks the superstructure of lessons, units, courses and so on. As the basis of its behavior, “action” also faces the challenge of low credibility and accuracy. Nevertheless, ChatGPT's cross-domain ability to understand and generate natural language still provides a new “ability base” for Intelligent Teaching System, which is expected to change the development mode of Intelligent Teaching System in a wide range, to improve its teaching performance, and to provide more comprehensive and effective support for personalized learning. Will there be structural changes in the school system as a result? This paper divides the question of “will or will not” into two questions: “can or can not” and “should or should not”, respectively in the level of fact logic and practical value. The analysis shows that the system structure of the existing school, such as subject courses, class teaching and teacher-led, remains stable and has not been greatly impacted by the existing Intelligent Teaching System and MOOCs. The teaching automation based on Large Language Models still needs to supplement the “superstructure” and consolidate the “basic actions”. For basic education, the elements of the school teaching system (such as teachers) may change considerably, but the system structure is likely to remain stable.

　　Keywords:ChatGPT; Large Language Model; Intelligent Teaching System; personalized learning; school education; system change; teaching automation

　　作者简介

　　张志祯，北京师范大学教育学部教育技术基本理论研究中心副教授（通讯作者：zhangzz@bnu.edu.cn）。

　　张玲玲，北京开放大学国开业务部研究实习员。

　　米天伊，北京师范大学教育学部教育技术学院硕士研究生。

　　丘诗萍，北京师范大学教育学部教育技术学院硕士研究生。

　　基金项目：本文系2018年度教育部哲学社会科学研究重大课题攻关项目“世界主要国家教材建设研究”（项目编号：18JZD017）的研究成果。

　　责任编辑：刘莉

<<剑指ChatGPT：微软Windows11将集成AI必应、百度3月16日发布文心一言

打开ChatGPT｜ “流浪地球2”人工智能领域科学顾问崔原豪：AI替代的不是人>>

张志祯 等丨大型语言模型会催生学校结构性变革吗？——基于ChatGPT的前瞻性分析

您可能还会对下面的文章感兴趣：

随便看看

张志祯等丨大型语言模型会催生学校结构性变革吗？——基于ChatGPT的前瞻性分析