赴法国巴黎OECD总部学习研究述评
应经济合作与发展组织(OECD)教育技能司邀请,经重庆市教育委员会同意,重庆市教育评估院张东、卢锦运和钟冬梅三名同志于2018年5月14日至5月23日期间赴法国巴黎OECD总部进行PBTS项目的协议签订及交流学习,并进一步深入学习PISA FOR SCHOOLS的重难点技术,了解和探讨其他有关的教育测评项目。具体情况如下:
一、对于PISA的理论与实践学习内容
(一)关于经合组织教育技能司
经济合作与发展组织(Organization for Economic Co-operation and Development,简称经合组织或OECD)教育技能司司长安德烈亚斯·施莱歇尔(Andreas Schleicher)一直致力于促进该组织工作在全球的推广,加强国际合作。本次出访人员也有幸与其进行会谈,他指出,PISA FOR SCHOOLS项目是基于学校层面的测试,可以为学校提供国际比较和经验分享的机会,为学生做好应对 21 世纪经济全球化挑战的准备,同时进一步推动各国的学校教育发展的国际化提供保障。并对重庆市教育评估院前期组织的有效研究给予了充分肯定,并表示将为相关研究在更广范围提供有力支持。
(二)PISA2018新动向
1.PISA2018阅读素养测试内容变化
2018年PISA第三次聚焦于阅读学科,数学和科学学科则作为次要领域。
此次测试阅读素养的主要变化为:
与PISA2000和PISA2009相比,PISA2018阅读素养在定义中增加“评价”元素,删除“纸质”文本限定词 ;主要体现了三层含义 :一是阅读目的不仅是“增长知识,发挥潜能”,而且还要“实现个人目标,并参与社会” ;二是阅读不仅仅是对阅读材料的“理解、运用和反思”,同时更要“评价”并参与到阅读活动中 ;三是阅读材料不局限于传统的纸质文本,而是涵盖一切可读、可视、可听的文本。
测试维度调整为阅读情境、阅读文本、阅读策略。其中阅读文本包括文本单位、文本结构和导航、文本形式和文本类型 ;阅读策略涵盖文本处理策略、任务管理策略两个方面。首次从文本单位来规定试题分布比例,单文本占65%,多文本占 35%。
2.首次测评全球素养
2017年12月12日,经合组织(OECD)教育与技能司(Directorate of Education and Skills)和哈佛大学教育研究生院(Harvard Graduate School of Education)零点项目(Project Zero)共同主持了《PISA全球素养框架》。《PISA全球素养框架》旨在为有意培养青少年全球素养的决策者、领导者和教师提供一个工具,用以解释、发展和评估青少年的全球素养。
全球素养是指青少年能够分析当地、全球和跨文化的问题,理解和欣赏他人的观点和世界观,与不同文化背景的人进行开放、得体和有效的互动,以及为集体福祉和可持续发展采取行动的能力。全球素养框架是建立在知识(knowledge)、认知技能(cognitive skills)、社会技能和态度(social skills and attitudes)和价值(values)的基础之上的。
PISA2018全球素养评估主要有两部分组成,一部分是认知测试,一部分是背景问卷。认知测试主要分为:学生分析当地、全球和跨文化问题;理解和欣赏他人观点和世界观;与不同文化背景的人进行开放、得体和有效的互动;为集体福祉和可持续发展采取行动。在背景问卷中,学生会被问到对国际事件的熟悉程度;语言和交际能力发展程度如何;对“尊重不同文化背景下的人”之类的问题秉持何种态度;在学校有什么机会来培养学生全球素养等等。
二、关于PBTS重难点技术的理论学习及实践
截止目前位置,参加PISA FOR SCHOOLS项目的国家共有10个,加上中国为11个。项目扩展迅速。以下为继美国、英国、西班牙之后参与的各个国家。其中安道尔公国、巴西、哥伦比亚和墨西哥正在实施测试。
2016年,重庆市教育评估院在一年的时间内,组织专业人员、学科专家对7套学科工具和2套问卷进行了翻译和修订工作。2016年5月31日,严格按照PISA学校评价的组织实施流程,将本土化的PISA学校评价工具首次在重庆试运行,测量了重庆市6所高中的840名学生及324名教师。为保证我院翻译的工具具有适切性,能够将结果与国际PISA结果进行对比,2017年3月,重庆市教育评估院数据分析人员在经合组织PBTS团队的帮助和西班牙2E公司专家的培训下,对工具的效度进行检验。为进一步深入学习PBTS项目的重难点技术,此次出访主要就数据分析方法进行了深入学习,具体包括:
1.IRT项目反应理论、似真值计算;
2.描述分析(频数分析、均值分析等);
3.相关分析;
4.差异检验(T检验、方差分析、非参数检验等);
5.回归分析(线性回归、非线性回归、分类回归等);
6.多层线性模型;
7.结构方程模型;
8.社会经济地位指数合成
9.潜在类别分析
10.工具信效度分析
以下是部分学习内容:
(一)关于PFS项目测试工具
PISA2015年学科工具相对于PISA2012进行了一定程度的修订,PFS项目为确保各参与国的工作连续性,学科工具仍然是2012年版本,且短时间内不计划对工具进行改动。因此,出访人员就学科工具二次修订后的质量分析技术与PBTS项目团队进行了深入交流。学科工具质量分析的主要指标及算法如下:
1.难度
利用软件R,通过IRT项目反应理论计算数学、阅读、科学每一道题的难度参数,检查在重庆预试数据的题目难度与国际题目难度是否一致。如果两者标准化后的差异大于1.96或者小于-1.96,则说明题目不好。如下图所示,在一条项目特征曲线ICC中,bi等于曲线在拐点处的θ值。当猜测参数ci=0(曲线的下渐近线为0)时,bi等于Pi(θ)=0.50时的θ值,因为对一条完整的ICC,拐点恰好是曲线的中点和对称点。当ci>0时, P(θ)=(1+c)/2 bi表示一个项目的难度,其取值范围一般在-3.0到+3.0之间。bi越大,表示项目的难度越大。
2.区分度
利用软件R,通过计算学生每道题上的得分与总分的相关性分析题目的区分度。如果区分度低于0.2,说明题目不好。在一条ICC中,ai的大小决定曲线在拐点bi处的陡度。ai很大时,在bi附近的能力θ的增加会导致正确反应概率Pi(θ)有很快的增长;ai很小时,在bi附近的能力θ的等量增加不会导致正确反应概率Pi(θ)有明显的增长。ai越大,曲线在bi附近就会越陡,项目在bi附近的区分能力就越大,但在远离bi的区域,曲线就会变得越平坦,项目的区分能力就越低。也就是说,区分度参数ai大的项目对能力水平接近bi的被试有较大的区分能力,而对能力水平远大于或小于bi的被试区分能力小。相反,区分度参数ai小的项目则在能力分布更广泛范围内对被试都有一定的区分能力。如下图所示,项目1的区分度明显大于项目2。
3.拟合度
利用软件R,通过项目反应理论计算数据和模型之间的拟合度(MNSQ)。如果拟合度高于1.2或者低于0.8,说明题目不好。
4.DIF (Differential item functioning)
DIF是用于测查题目的偏见性,是否某一类学生答题时更有优势,而这优势与能力无关,例如性别导致的DIF。当不同类别的DIF结果显著且绝对值大于0.2,说明题目不好。如下图所示,第11题对男生具有明显的优势,这样的题目需要修订。
(二)关于技术
1.抽样技术
PBTS项目团队经过抽样误差分析,选取样本量为85人/校,最低不超过35人/校。出访人员就中国学校的学生总人数较多这一特征与其进行讨论,在扩大样本量、扩大年龄限制范围、分层抽样的层级变量选择等问题上与PBTS项目团队进行了深入讨论。经讨论,考虑到学校代表性以及测试成本等问题,测试样本可进行增加,且分层抽样的误差可以用R软件进行估计。主要对抽样的相关函数进行了学习:
表1抽样相关R函数示例
2.统计分析技术:
(1)学生能力分数的合成
相对于以前,由于PISA学科工具在2015年发生变化,为了能进行国际比较,学生能力估计的等值模型发生变化,即从分部评分模型(PCM)改为广义分部评分模型(GPCM)。可以利用软件R,通过IRT项目反应理论对学生的阅读、数学、科学能力分数进行合成。下图为广义分部评分模型的项目特征ICC曲线图
(2)阅读类型的判定
利用软件MPLUS,通过潜在内别分析方法将学生分成6种阅读类型,同时对学生属于哪种类型进行判定。分别为肤浅但广泛的阅读者、深入且广泛的阅读者、肤浅且狭隘的阅读者、深入但狭隘的阅读者、肤浅且严重受限的阅读者以及深入但严重受限的阅读者。下图为潜在类别分析的模型图:
(3)关于数据缺失的处理
题目中出现数据缺失的处理办法,需要用到如下方法,重新编码。或采用多重插补、线性回归预测等方法对数据进行填补。
3.信息化技术
本次出访,我们团队还与PBTS的团队就测试报告的计算机自动生成的方式进行了深入的交流与探讨。我方向PBTS的团队演示和介绍了我们目前有的测试报告自动生成软件,这也是PBTS第一个见到的PBTS报告自动生成的软件系统。PBTS团队对我院在测试信息化方面所做出的成绩高度认可,表示在可能的情况下也愿意将我们的系统推荐给其他PBTS项目的国家或地区。因本次我方演示的软件系统并非专门针对PBTS项目所开发,因此还需要对软件进行进一步的完善和调整,双方还针对如何对现有的系统进行Pisa For School项目的适配进行了探讨。
(1)报告中呈现的图片格式的调整
目前PBTS报告中的图片制作方式并非由计算机自动生成,而是由人工在excel中制作完成后交由第三方公司进行了专门的美化处理再使用Adobe公司的Indesign软件进行人工排版。这种方式费时、费力,在大规模测试的情况下需要投入大量的时间和人手才能完成所有图片制作,而且也有很大概率因为人员的疏忽导致图片的错误。我院信息化系统自动生成图片方式能够很好的解决这类问题,但是目前的软件版本尚未能生成与之风格一致的图片,但是为了保证PBTS报告中的图片与大PISA报告风格的一致性,PBTS团队也要求我们用计算机生成的图片应大体风格与他们的一致。经过双方讨论,他们也同意在报告中加入让我国教师更容易看懂的一些图片样式(如:柱形图、条形图等)。我们也将在后期进一步完善软件系统,力争在报告风格上与其接近。
(2)报告模板的调整
本次PBTS团队向我们介绍了最新版本的PBTS的报告模板,与此前发给我们的模板有以下几处不同:封面不同、资料框不同、版面设计等细节方面。他们也要求我们在后续PBTS项目报告的撰写中使用他们提供的最新版本的报告模板。目前,他们的报告模板没有中文版本,需要我们进行翻译。
在PBTS的报告模板中,文字内容描述的是PISA在某个维度的数据分析结论,学校的分析结果只是用图片方式进行表示,在报告中无文字性表述,因此所有测试学校的报告中文字内容都是一致的,不同的只是描述分析结论的图片。在跟他们讨论后,他们也同意在我们的报告中可以加入我们个性化的内容,前提是要保留他们现有报告中的内容,而且不能对此内容进行修改和删除。因此,在后期我们也针对这个问题对我们的软件系统进行调整。
三、关于OECD开展的其余项目的交流学习内容
本次出访人员还就OECD教育与技能司10余个教育评估项目,同相关负责人及专家进行了深入交流与探讨。主要包括以下项目:
1. 教师教学国际调查项目(TALIS)
2. 教师知识调查项目(Teacher Knowledge Survey project)
3. 学前教育评价(Early Childhood and School)
4. PISA 4 U项目
5. 社会进步和社交情感技能力研究(Social and emotional learning)
6. PISA2021创造力测评(PISA Innovative Domain, Creativity)
7. 东南亚区域政策研究(Southeast Asia Regional Policy Network (SEARPN))
8. Innovative Pedagogies for Powerful Learning
9. Enhancing Higher Education System Performance survey
10. PISA FOR DEVELOPMENT
11.Programme for the International Assessment of Adult Competencies(简称PIAAC)
12.高等教育能力测试以及其他相关项目
部分项目介绍如下:
TALIS的关注重点是教师的工作环境、专业发展,评估教师在专业发展活动中的参与程度;教师的教学信念和态度,了解教师采用的教学方式;教师的自我效能感和工作满意度,了解教师的感受和评价。TALIS从2008年开始调查,5年一个周期。2018年共有48个国家参与。中国有上海和台北参加。
不同于TALIS的Teacher Knowledge Survey project是基于国家层面的教师专业发展监测,调研分层进行,主要为学校教师发展的政策支持,学校环境和文化背景提供必要支持。
学前评价项目是OECD从2016年开始发展的一个评价项目,这一项目的对象主要是全世界5岁的学前教育儿童,对儿童的语言发展、数字、自我控制、社交及情感发展等4个方面进行评价,由于学前教育儿童不能像PISA测试那样进行认知性问题的直接填答,因此该项目的一大特色是通过在电脑/平板上玩游戏的方式对儿童的能力发展水平进行评价。
PISA 4 U是PISA团队新开发的促进学校发展的在线项目,旨在通过专家、导师的指导帮助教育工作者学会解决教育中的问题。PISA 4 U类似于网络学习社区,任何教育工作者可以在该网页上免费注册,项目就会提供一个14周的学习计划,在学习计划中,会组成团队,会对教学过程中的真实案例进行探讨,会从专家那里获得支持,也会对教学资源进行共享。完成整个学习计划后,可以获得由PISA颁发的证书。
社会进步和社交情感技能力研究(Social and emotional learning)是主要针对10岁儿童的测试,主要测量被试调节个人思想,情绪和行为的能力。项目主要研究开发这些技能的影响,并强调教育工作者和世界领导者需要优先考虑的基础社会问题。
PISA2021创造力测评与PISA2018年全球素养类似,将在PISA2021年增加测评15岁学生创造力水平,目前正在研发过程中。
四、学习研究启发
(一)坚持以人为本,以评促教
所有测评项目目的并非是甄别,而是为了改进。未来教育测评的重点应更加倾向于学生适应未来社会的能力表现、全球化的国际意识,批判意识和创新思维等。更新现有监测评估工具将是中国教育改革的必要方法。
(二)坚持标准引领, 以点带面
实施基础教育、职业教育、高等教育等领域内各类监测评估标准,提升标准服务化水平,促进教育评估监测专业化、规范化、科学化发展。基于标准规范和要求,总结凝练监测评估实践经验,进一步引进先进国际教育理念和技术,提升教育核心竞争力,不断增强重庆教育的影响力。
(三)坚持数据支撑, 技术创新
数据和技术是现代评估两个重要资源,是大数据时代提升教育质量的关键要素。挖掘教育大数据、做好教育系统的智库建设,充分掌握并运用好国际先进教育测评的数据分析和信息化技术,不断创新和优化监测评估方式,是推动我市教育发展的重要力量。