教育大数据挖掘和分析系统用户需求
第一包:教育大数据挖掘与分析系统用户需求
1 项目概况
1.1项目背景
当前,上海已基本实现教育现代化,正朝着率先全面实现教育现代化的目标大步迈进。为贯彻落实党的十八大精神和教育规划纲要,立足中华优秀传统文化,弘扬社会主义核心价值观,促进中小学生全面发展和健康成长,根据国家教育部《关于中小学生综合素质评价工作的实施意见》,国务院《关于深化考试招生制度改革的实施意见》、《关于推进中小学教育质量综合评价改革的意见》(教基(2013)2号)《上海市深化高等学校考试招生综合改革实施方案》等文件精神,结合上海市实际情况,上海市教委开展了中小学生综合素质评价的研究工作,启动了综合素质评价应用推进工作,2014年发布了《上海市普通高中学生综合素质评价实施办法(试行)》的通知(沪教委基〔2015〕30号),2015年上海市普通高中学生综合素质评价信息管理系统正式上线,计划2017年完成初中生综合素质评价内容研究,2020年开始全面实施具有上海特色和时代要求的中小学综合素质评价体系。
1.2项目名词解释
本文档涉及到的主要系统名词解释如下:
● 上海市高中名校慕课(MOOC)
该平台面向所有初高中学生分享优质、特色拓展型和研究型课程资源的网络学习平台,其主要建设目标在于:一是提升中学生信息化环境下的学习能力;二是推进高中学校特色多样发展;三是培养推进信息技术与教育教学融合的师资队伍。平台提供了学习分析和数据支持服务,收集了学生学习过程的行为数据,为基于大数据的教育治理和决策提供了科学依据。
● 研究性学习系统(MOOR)
MOOR,即大规模在线开放研究性学习,以“教育”+“互联网”的理念,为上海市普通高中生搭建一个自主探索,智能学习环境。围绕学生的研究兴趣和个性特长,系统采用人工智能和大数据学习分析技术,解决了研究性学习的自适应教学问题、管理问题和评价方式。
● 上海市基础教育学生信息管理系统
提供上海市基础教育阶段的学生综合管理与服务,内容涵盖学生基本信息、学籍信息、电子学生证信息、学生行为信息、学生表现与评价信息等综合信息。
● 上海市普通学生高中综合素质评价信息管理平台
针对上海市普通高中学生提供综合素质评价信息采集、管理和展现的信息化平台。
● 上海市基础教育学籍管理系统
对上海市基础教育阶段学生的学籍管理工作提供信息化支撑的平台,并作为全市唯一权威的学籍数据来源。
● 上海市基础教育统一身份认证系统
以学籍数据作为权威的底层数据源,提供统一的用户管理、用户认证及安全保障等服务,用户经由统一身份认证系统登录,在完成身份认证后无再次登录就可以使用所有支持统一身份认证服务的其它信息服务系统提供的服务。
● 上海市中小学专题教育
为上海市中小学生提供各方面专题知识的专业在线学习平台。
1.3建设目标和服务对象
基于教育部加强和改进综合素质评价的意见要求,立足于项目实际应用情况,本项目的建设目标在于整合梳理现有的各类数据资源,并在此基础上整理构建出一套能够从各个维度全面描述学生综合素质的大数据标签体系,基于模型实现(1)针对学生个体的综合素质的全面有效评估与成长建议;(2)针对学生群体的相关分类和分析。
(一)建设目标
具体建设目标包括:
(1)梳理对接现有各类线上、线下,课内、课外的学生学习过程数据;
(2)建设学生360度画像标签体系,深入刻画学生特征,多维展现、评估学生能力与特质;
(3)建设基于标签大数据的系统平台,实现标签刻画内容及分析结果的可视化展现;
(4)针对不同维度学习类型的过程性数据,开展关联分析。
(二)服务对象
服务于市级、区级、学校,为各级部门的调研、决策、研究提供科学支撑。同时,预留针对学生(家长)服务的接口。
1.4建设原则
本项目的建设将结合以业务需求为方向和以数据发现为引导,综合考量标签体系的先进性,实用性和可行性。
具体原则包括:
(1)标准化和规范化原则
严格遵循技术的标准化与技术规范化的要求,从业务、技术、运行管理等方面对项目的整体建设和实施进行初步设计,充分体现标准化和规范化。
(2)先进性原则
立足先进技术,采用主流技术,在满足需求的基础上,使系统具有同领域领先技术的水平。
(3)易用性原则
本系统未来的使用者广泛,方案在设计过程中要充分考虑流程的复杂度、系统使用的难易度,保障本系统建成后的应用与推广。
(4)可扩展性原则
为适应系统自身建设需要,本系统的设计要充分考虑系统应用动态变化因素,充分保障系统的可扩展性,以适应系统需求的变化。
(5)开放性原则
采用的技术均为开放技术、方便移植。
2 建设内容与功能描述
为深入和全面了解学生学习成长情况,学生的学习过程性数据收集及分析是一个重要的方法。要想实现真正的素质化教育,培养出面向新时代社会需求的高素质人才,基础教育的因材施教以及对学生的深入关怀是必不可少的。在传统定性分析的教育模式下,教师只能根据自己所教授课程中,学生的课堂表现,作业反馈以及考试成绩来了解一个学生能力及天分,且很大程度上依赖于教师的主观感受。这种模式相对较为片面,且缺乏足够的横向对比。同样,家长对教育培养的理解上往往也比较单一,通常都会以未来升学为目标,要求在一些基础课程上取得高分,对于子女在技能特长培养上也是人云亦云,集中于一些热门才艺或专项训练,如早年的钢琴热和奥数热。
学生综合素质评价是一项系统工程,为了对学生成长过程及综合素质进行有效评价,上海市电化教育馆对学生综合素质评价各关联系统的数据进行汇聚,通过共享的学生基础数据,建立了不同业务系统间学生数据的关联性,已汇聚的数据源可涵盖至学籍系统、研究性学习平台(MOOR)、统一身份认证服务平台、高中慕课平台(MOOC)、专题教育平台、电教馆其他在线应用系统,如下图所示:(1)通过学籍系统,统一身份认证系统汇聚学生的基础数据;(2)通过互动课堂,在线学习平台汇聚学生课堂学习,在线学习的行为数据和结果数据;(3)通过综合素质评价系统汇聚评价数据,学业成绩数据;(4)通过MOOR汇聚研究性学习的行为数据和研究记录;(5)通过对接实验平台,阅读平台汇聚学生的实验行为数据和实验结果记录,学生阅读行为数据;(6)采用国内外信息技术类和教育类行业标准,学生成长数据遵循xAPI的标准,这是本项目中教育大数据的挖掘与和分析的基础。
2.1数据描述
(一)学生学籍基本信息
包含了学生的人口统计信息及其他相关数据:包括年龄、性别、籍贯、民族、政治面貌、居住信息、基本健康状况等。
(二)学生在线学习记录数据
记录了学生使用高中名校慕课平台、专题教育系统的线上学习情况。包括了课程学习(起始时间、暂停、快进等)、课程中的问题回答、课程用户间交流消息、学生学习评价、课程评价、课时笔记、课程社区发帖、用户登录日志、问卷调查等信息。
(三)学生在线研究行为数据
记录了学生在研究型课程自适应学习平台MOOR上参与创新研究课的信息,包括学生登录信息、职业倾向的测评数据、多元智能的测评数据、研究过程数据(检索、收藏、灵感笔记、收集的资料等)、结果数据(研究报告)、交互数据等。
(四)学生综合素质测评信息
记录了学生阶段性结果类数据,包括品德公民素养(社会实践活动、国防、民防、学工、学农、党团、违纪、犯罪等)、学业成绩、身心健康与艺术修养、创新学习(研究报告、参加科技活动、创造发明等)。
(五)学生数字课堂行为数据
采集的学生数字课堂学习行为数据,包括了结构化数据和非结构化数据,记录了该环境下课前、课中、课后学生的所有学习行为或操作,这些活动流构成了学生学习的全过程。行为数据可以是特定情境下学生学习的一个状态、操作,它大多数情况下是有序的,一组有序的行为能反映出学生学习状态的变化或学习轨迹。从行为类别层,主要(但不限于)包括如下行为:
(六)中学生数字阅读行为数据
记录了学生阅读的类型、内容、层级、数量、时间、阅读前后测评的情况、阅读过程中的交流互动、学生登录日志等数据。
(七)中学生实验行为数据
自动收集学生实验过程中的行为数据,以及学生实验过程的行为与标准实验过程的偏差数据,同时收集教师根据标准实验过程对学生实验过程的评价数据。
(八)Weblog数据
利用Web服务器记录了学生网络访问的信息,可基于此类数据对网络行为进行挖掘和分析。
2.2行为数据的基本格式
基本格式:用户+动作+对象+时间+关联的结果以及行为对应的结果数据+情境辅助信息。用户、动作、对象、时间是每一类行为的共性,关联的结果以及行为对应的结果数据、情境辅助信息依赖于特定的行为。
对基本格式的描述如下:
● 用户
操作行为的发起者,学生是主要的用户。
● 动作
用户所执行的具体操作
● 对象
是指行为所施加的对象、目标或受体,可以是构成支持学生学习的内容、工具、服务、平台等,用以承载一定的知识点、或是提供学习支持。对象的粒度不一,如“试卷”是一个对象,“试卷”中的某一道题也是一个对象。举例如下:
● 时间
用户作用于特定对象的发生时间。
● 关联的结果以及这些行为对应的结果数据
根据所作用的对象特征,可以是对错、成绩、评语、文本、图片、语音、状态等。
● 情境辅助信息
考虑到实际学习的复杂性,除以上其他几方面信息外,用以辅助完善行为数据的其他情境性信息。
2.3学生学习数据的分析
(一)学生监控与管理能力分析
自主学习能力是指学习者在学习活动中表现出来的一种综合能力。此能力不仅有利于学生主动驾驭自己的学习活动,而且有利于激发自己的主观能动性和创新精神。面对新世纪的挑战,知识更新频率的加快,学生仅靠在学校学的知识已远远不够,他们具备终身学习的能力,而终身学习没有教师陪伴在身边,全靠一个人的自主学习能力,可见自主学习能力已成为当代学生必备的基本能力。因此,对学生自主学习能力评价指标和综合评价的研究就显得尤为重要。
(二)学生学习兴趣偏好分析
兴趣是一种认识倾向,是动机产生的重要内部原因。良好的学习兴趣是学习活动的自觉动力。学习兴趣测验可作为为了学生学习兴趣的指向和强度的工具,广泛应用于学习指导、职业指导等方面。学习兴趣可细分为学科兴趣、课外阅读兴趣和课外活动兴趣等方面,有理论研究表明学生的学习兴趣影响思维品质的形成,思维品质决定着学业成绩,学业成绩影响着学习兴趣。所以本项目将建立学生学习兴趣偏好指标与综合评价,同时考察学习兴趣与学生综合素质评价的关系,成为学生综合素质评价重要的组成部分之一。
(三)学生学习风格分析
学习者在知识水平、学习风格、动机、目标等方面是存在个性差异的,根据多数教育研究者所言,学习风格是影响个性差异最主要的一个因素,深深地影响着学习过程,如果在教学中考虑了学习者的学习风格,将会有效激发和维持学习者的学习动机,会使学习变得很容易,可以付出很少时间和努力却能获得很好的学习成绩。学习风格是指学生在完成学习任务过程中所表现的不同学习方式、学习策略,比如有的学生喜欢从图片、视频等媒体类型上获取知识,而有的学生喜欢从言语交谈或文本媒体类型中获取知识;有的学生愿意先从具体实例资源学起,而有的学生愿意从比较抽象的定义中开始学习;有的学生愿意合作学习,而有的学生比较愿意自学等等。
目前学习风格测量方法分为三大类,基于学习风格量表的显式获取法,基于网络学习行为的隐式获取法,以及显式获取为辅隐式获取为主的混合方法。因此,本项目需要采用混合测量法吸取上述方法的优势,通过学生的学习行为构造衡量学习风格的指标体系,同时结合学习风格量表,利用模型评估学生学习行为及预测学习风格。
(四)学生学习过程质量分析
要取得理想的学习结果,就要不断改进学习过程,而学习过程的改进需要借助地学习过程评价;同时,学习过程评价有助于提升学习过程本身的质量,例如增强学习过程的意义感和快乐感。学习过程评价即对学习过程进行的评价,它是全面地收集关于学习过程的信息,对学习过程的质量进行评判,为改进学习过程提供依据的过程。这里的学习过程取广义,指达到一定的学习结果所需要经过的学习历程,包括学习动力、学习方法、学习进程、学习资源等。
与其他评价一样,中学生学习过程评价的关键问题是评价指标问题,因为评价总是基于一定的指标进行的。由于学习过程评价的指标是众多且关系复杂的,因此需要构建一个指标体系,探索中学生学习过程评价指标体系,将为正式和非正式评价中学生的学习过程提供基本的框架,同时也将为提升中学生学习过程质量提供一系列明确的努力目标。
(五)学生研究性学习能力分析
课题式研究性学习作为一门全新的课程进入普通中学课程体系,给学校带来的不只是课程结构的变化,而且是一场教育理念的更新,教学方式的根本变革。研究性学习评价是学生综合素质评价的重要组成部分,是实现课程目标、发展教育评价导向和进行质量监控的有效手段,也是我国新一轮课程改革面临的一个新课题。构建诸如“科研能力、操作能力、信息素养指标解决问题能力、沟通交流能力的分析,对学生探究、计划、执行和反思等进行分析,是实现研究性学习评价的重要组成部分。
(六)关联分析
针对各平台所汇聚的数据,进行关联分析。如学习行为与学习结果的关联分析、不同学习行为之间的关联分析,举例说明如下:
(1)在线学习是否会影响学习成绩;
(2)好的在线学习习惯,是否和学习绩效正相关;
(3)线上线下行为关联分析:积极参加社会实践的,是否网上学习交互更积极;
(4)性别和网络行为的关系等。
2.4学生学习分析内容的要求
(1) 分析内容及其描述富有教育语义
(2) 以模型作为基础,充分尝试Pearson相关性分析、Apriori、主成分分析、SVD等算法模型,基于数据情况与模型效果筛选并采用最优数学模型,进行分析处理与指标体系提炼
(3) 具有信度和效度
(4) 具有可穿透性
(5) 分析内容可导出、可回溯
(6) 支持个体、群体的分析及其比对分析
(7) 基于用户角色权限,提供不同粒度和层面的分析,比如个体、小组、班级、年级、学校等。
2.5学生学习分析结果的可视化要求
对分析内容进行可视化的呈现,帮助用户进行直观、清晰的了解和认识。可视化分析工具的要求如下:
(1) 实时性,与收集工具、分析工具的周期同步
(2) 教育性,可视化呈现方式及其相关描述具有教育语义
(3) 配置有可视化呈现库,工具预设提供一套丰富、美观的可视化方案
(4) 可定制,根据分析内容的性质,用户可以自定义选择呈现方式
(5) 可导出,支持可视化分析结果的本地导出。同时,可以根据不同层次用户和权限,提供符合其需求的整体可视化分析报表的导出,如学生个体分析、群体等。
3 非功能性建设要求
3.1性能要求
(1)响应时间要求
响应时间就是用户感受软件系统为其服务所耗费的时间。
⏹ 操作性界面单一操作的系统响应时间≤3秒;
⏹ 屏幕滚动<2秒;
⏹ 屏幕切换<5秒;
⏹ 一般查询记录<3秒;
⏹ 复杂条件查询<10秒;
(2)系统稳定性
⏹ 应用系统平均故障间隔时间大于3600小时;
⏹ 在正常运行状态下,CPU、内存等主要指标平均负荷小于70%;
⏹ 在正常运行状态下,负荷大于85%的连续持续时间不得超过30分钟。
3.2数据备份以及系统恢复
本项目需考虑到异机备份的需求,对关键数据进行备份。要具备完整可行的数据备份以及数据恢复方案。
● 需确保数据不能有任何的遗失,因此需要在针对数据安全方面制定相应的完整的备份和恢复策略,在对数据存储备份方面需要有异机备份;在数据备份范围方面需要有完全备份、增量备份等备份策略;在数据备份频率以及备份相关文档管理上需要有合理的规范制度。
● 实施方要提供详细的系统紧急恢复方案,制定详细的系统恢复策略。
● 要求实施方在故障发生10分钟之内及时响应,并在30分钟之内赶到现场。系统发生的故障要求在2个小时之内恢复系统正常运行。
3.3界面和操作友好性要求
界面简洁、配色大方、符合教育类系统的常识,操作简单方便,配有相应的操作提示或帮助信息。符合用户操作行为习惯。
3.4工具使用要求
为保证项目实施过程与系统后续使用过程中的稳定性和高效性,项目数据分析与挖掘部分的工具要求使用成熟商业挖掘软件,包括但不限于以下功能:
1) 能够支持Oracle、SQL server、DB2等主流数据库的对接;
2) 具备T检验、卡方检验等统计检验功能;
3) 能够支持决策树、逻辑回归、支持向量机、神经网络、贝叶斯网络、K-Means、Kohonen、Two-steps 、主成分分析等一系列主流模型的构建。
3.5应用环境要求
要求采用B/S架构,满足以下条件:
● 操作系统:能支持windows XP及以上版本,Mac OS X等。
● 客户端:支持当前的主流浏览器,如IE8.0及以上,360浏览器,Chrome浏览器,火狐浏览器等。
● 网络环境:支持电信和教育城域网,校校通网络。
3.6部署环境要求
综合考虑,项目的部署环境要求如下:
● 根据甲方的要求部署在指定的IDC机房,支持云计算架构,并可以根据应用访问量实现计算和存储资源的自动伸缩管理。
● 中标方就软件平台的软硬件运行环境及部署设备的性能做明确陈述,确保软件平台在满足非功能性需求前提下安全正常运行。
3.7安全设计要求
对于系统的安全性方面,安全保障体系的建设要求依据基础网络安全、数据库安全、灾难恢复、服务器安全、应急响应、安全策略与过程、防盗链等技术措施实施,同时加强用户日志、权限的管理,构建的安全要求满足:
(1)数据安全
⏹ 系统对数据的保护要求级别为极高,为了确保数据的万无一失,与能接触到数据的相关单位、个人签订必要的保密协议。
⏹ 系统中存在着数据交互和转移的行为,为确保数据的准确性、安全性,采用必要的数据加密策略确保数据安全。
(2)应用安全
⏹ 系统数据提交、数据交互方面要求进行安全性检测和链接加固。
⏹ 系统采用多模块操作,利用分散的防护策略来管理风险。
⏹ 系统运行失败时有响应的措施保障软件安全,如数据备份、相应恢复机制。
⏹ 系统要求详细记录用户的操作日志:通过系统提供的功能记录用户的详细操作日志,并提供日志的查看分析功能。
⏹ 系统要求将用户管理权限进行详细区分,实现最小有限权:该安全性通过两方面保证:分别为系统管理和平台管理;系统管理通过设置系统用户读写权限进行管理;平台管理是通过针对平台中不同用户的不同权限进行相应的权限设置及权限管理。
⏹ 系统采用防拷贝技术和防下载技术,保证系统资料安全。
(3)系统安全与备份
⏹ 系统应用及存储上做到异机、多地备份,确保系统全面性的安全。
⏹ 针对能够与系统接触到的管理人员上做到专人专职管理负责。
⏹ 流量及应用运维监控体系要完整。有突发事件预案,并要有可操作性。
⏹ 对于信息系统安全保护技术能力需达到国家关于《计算机信息系统安全保护等级划分准则《GB 17859-1999》中的第三级要求,要求中标方配合通过信息系统安全等级保护三级测评,并对运维期间发生的安全问题负责。
3.8工程进度要求
根据本项目的要求,合同签订后12个月内完成建设并将全部功能投入使用。尽量于2017年9月(2017年秋季开学)开始试用,2017年11月全部功能投入使用。
3.9提供材料
⏹ 围绕建设内容形成的系列指标体系和数学模型
⏹ 实施方案
⏹ 需求分析说明书
⏹ 系统概要设计说明书
⏹ 总体设计说明书
⏹ 数据库设计说明书
⏹ 详细设计文档
⏹ 为本项目开发的软件源代码
⏹ 操作手册
⏹ 用户手册
⏹ 帮助手册和系统使用FAQ
⏹ 测试方案(含测试计划)
⏹ 自测报告:含试运行报告,性能测试和功能测试报告
⏹ 系统部署方案
⏹ 用户培训计划、培训材料、培训记录
⏹ 项目实施总结报告
⏹ 应用系统清单
⏹ 系统参数配置说明
⏹ 系统接口说明
⏹ 所提供的第三方产品的技术说明和操作、维护资料
⏹ 系统崩溃及恢复步骤文档
⏹ 技术服务和技术培训等相关资料
⏹ 招投标建设内容和实际完成内容对照表
⏹ 软件代码光盘
⏹ 系统维护手册
⏹ 项目总结报告
⏹ 配合甲方提供项目实施中需要的其他材料
4 项目实施要求
1) 要求中标方能在上海组织一定规模的开发和实施团队(20人以上),且在上海本地提供常驻的服务团队,能随时按要求提供技术支持和服务。
2) 团队要求
由于项目具有一定的前瞻性,项目团队应包含3名及以上高级职称的教育或教育技术专业的研发人员;
要求企业有一定规模的开发和实施团队,且具备专业的服务团队,能随时按要求提供技术支持和服务;
配备专业的系统架构师,具有系统架构设计经验3年以上,能够对项目整体架构进行把控;
系统软件开发工程师要求具有2年以上开发经验;
系统质量管控人员要求具有2年以上软件质量相关工作经验;
项目团队稳定,项目实施前需向甲方提供项目成员清单,项目组核心成员变动,经甲方同意。实施过程中,甲方有权根据项目情况要求换人;
为保证项目质量,中标方需至少保证60个人月的整体工作量与50个人月驻场工作量(驻场所需各类费用由中标方提供);
3)实施过程
投标方针对项目实施过程拥有整套科学严格的管理方案与措施,从而促进项目全面顺利实施。管理方案与措施中应进一步明确和细化每个阶段的工作范围、内容、过程、责任、交付成果等。
4)项目培训
投标方应在投标书中承诺提供相关的培训。投标方为所有被培训人员提供培训用文字资料和讲义等相关材料;投标方应按合同规定安排培训时间和培训名额。
在系统进入试运行后,投标方应提供相关的培训文档,并协助招标方完成最终用户使用手册、培训资料、视频录制等准备工作,确保培训期前后系统平稳运行。
5 项目验收要求
1) 验收标准
本项目拟分两次验收,第一次主要验收(1)分析指标体系和数学模型;第二次为针对系统的整体验收。
系统功能验收,完成预定系统需求说明所要求的各项功能
系统性能验收,通过第三方测试,达成系统需求说明所要求的性能指标
系统安全性验收,通过第三方安全评测,无高危险等级系统漏洞
应用系统集成验收,支持应用系统开发方完成系统需求说明所要求的应用系统集成
2)验收交付
项目开发过程中和验收交付阶段,投标方按时提供各个阶段产生的成果和文档资料,而且要提供明确的交付清单。同时,成果和文档资料符合软件工程的相关要求。要交付的成果和文档资料包括以下部分:
可运行的系统,要求建设方提供确保本期项目正常运行的完整执行代码,以及为本次项目定制开发的源代码(成型的产品化软件除外)
技术文档,提供3.9所列材料,若根据实际建设情况发生了需求变化,提供需求变更说明。
管理文档,管理工作文档应包括计划、报告、讨论纲要、会议记录等。
根据甲方单位性质,不定期配合甲方提供上级部门所需要的汇报,包括相关部门所需的验收等材料。
6 项目运维要求
建设方需为本项目提供免费的运营维护服务,服务期自通过验收之日起计算,期限一年。运维服务内容应包括系统安装与部署、应急响应与故障解决、系统升级、优化配置和性能调整,数据库等的运维服务。在维保期内,小功能的改造和优化,要求中标方有对应的负责人配合解决。
7 其他要求
投标供应商保障用户方在使用其货物、服务及其任何部分不受到第三方关于侵犯专利权、商标权或工业设计的指控。任何第三方如果提出侵权指控,卖方与第三方交涉并承担由此而引起的一切法律责任和费用;
投标方能有效组织力量开展教育大数据研究与应用。并针对本项目制定有针对性的运行保障方案,提供完善的技术支持及运营维护服务。
项目过程中形成的所有软件及相关成果(包括软件程序代码,软件过程文档,模型算法,各类软件接口文档,项目数据标准文档和接口标准文档)的软件著作权、专利都归属于招标方所有;
要求安排技术人员在项目实施期间提供7*24小时的技术支持服务,提供全面的技术支持和保障;
所有项目中标方对本项目涉及到的业务需求、业务数据保密,不得以任何方式泄露给第三方,泄密责任方需承担相应的法律责任。
噢!评论已关闭。