Top
首页 > 智慧城市 > 新闻 > 正文

学霸君陈锐锋:混战多年,AI教育的赛跑才刚刚开始

AI对教育赛道的入侵,基本上是打着“扫除知识盲点”、“实时反馈沟通”以及“因材施教”的大旗。在实际产品中,拍照搜题、在线辅导和STEAM教育等是K12赛道最常见的落地模式。
发布时间:2018-03-07 09:10        来源:i黑马        作者:

在资本推动的教育AI浪潮中,AI教育技术究竟发展到什么阶段?加上了人工智能的教育,究竟发生了什么变化?就此,我们采访了学霸君首席科学家陈锐锋。

教育的“AI故事”从数据开始

AI对教育赛道的入侵,基本上是打着“扫除知识盲点”、“实时反馈沟通”以及“因材施教”的大旗。在实际产品中,拍照搜题、在线辅导和STEAM教育等是K12赛道最常见的落地模式。

目前,贴上“因材施教”等标签的公司很多,操作思路也大同小异:借助AI等技术,拆解不同学科的知识点,在较短时间内检测出学生对知识点的掌握程度;在对学生情况充分了解后,进行个性化推荐。不过,从技术角度来说,要实现K12学习的个性化匹配并不容易。

想用AI来打通某个行业,前提是大量优质数据和强大的计算机能力,教育行业也不例外。个性化的前提,是对学生数据的采集和处理,随后才能进行模型训练,提出解决方案。

收集庞大且高质量的数据并不容易。拿学霸君来说,其收集数据的过程经历了多个阶段。2012年,公司以拍照搜题技术起家,其移动端拍照搜题app“学霸君”借助图像识别等技术将学生拍的照片转化为题目,同时,基于此前积累的题库资源,可以为这些题目匹配相应答案。

围绕此前构建的诸多技术壁垒,学霸君拍照搜题app为其带来了一定的C端流量:9000 万注册用户,超过100亿答题搜索,这些都成为其沉淀的重要基础数据。

2016年12月,学霸君推出在线一对一辅导产品“君君辅导”(现已更名学霸君1对1),在此前纯工具性的拍照搜题中加入了教师。“这个阶段的困难在于大规模直播技术的壁垒:在个人对数百万学生的实时答疑中,为了保证某些通用技术差的区域网络能始终不卡、不断,我们需要定义自己的数据格式来有效传输视频、手写笔迹、课件等数据,在网络传输协议上做定制开发等。”陈锐锋称。

相比前两次相对具体的难点和目标,学霸君第三个阶段的目标显得有些抽象:“实现教育公平,让老师教得更好,学生学得更好”。公司为此推出了以“智能笔+本+Pad”套装,结合包含教师端、学生端和题库等在内的“AI学智慧教育平台”,提供给B端(包括学校和机构等)。在这三个阶段,关于公司收集的数据及其背后的技术迭代,陈锐锋在采访中进行了解读:

从拍照搜题、学霸君1对1到AI学教育平台,中间有哪些数据和技术迭代?

陈锐锋:我们早期在做拍照搜题时,题目只要能看懂,有参考价值,基本上就可以了。在一对一阶段,因为是一个老师对一个学生,它的精度也不需要像入校级别的AI学教育平台精度那么高。

但到了入校级别、需要布置作业的AI学平台,是一个老师对一帮学生,很难像一对一那样针对性地描述疏漏、细节以及相应的不足。所以我们要求入校级别的数据精度要非常高,这对我们的题库提出了很高要求,导致我们早期搜集的题库,不一定能在B端里直接用。为了迭代这样的技术,我们在题库的重新加工上,提出了整套的数据生产方案,以保证应用的题库是高度可靠的。这其中综合应用了录入、数据生产以及自动解题中的题目修正等技术,以保证题目的高精度和比较精确的知识点标签。目前我们的核心题库文字正确率要求是达到99.99%。

目前收集到的是哪些层面的数据?不同阶段的数据来源有哪些不同?

陈锐锋:目前收集到的数据包括内容数据和行为数据。相对内容数据,行为数据更难收集,因为后者必须发生行为才能进行搜集,每次行为的发生成本是很高的。比如说我们要收集写字这个行为,要开发相应的硬件作为数据收集终端。

我们收集时主要有几个渠道。最初,我们有教育机构,这块的积累给我们提供了最基础的题库,通过不断加工这部分数据,我们有了部分内容数据。这其中的加工需要OCR技术和人工矫正技术等。有了内容数据后,我们开始收集行为数据,比如在用户问问题的行为中,我们可以了解到他们喜欢问哪些问题;在答疑中,我们可以了解学生怎样问问题,怎么听老师的讲解;另外还有学生的手写数据等。

在学校中,老师在教师Pad上布置作业,学生端Pad即时显示题目,学生用智能笔在本上作答。这个过程中,结合了摄像头和感压芯片的“智能笔”成为收集学生书写习惯等数据的重要工具,包括学生每天写作业的时间,某道题写了多久,写第几步时有所犹豫等数据都被全面地记录在平台里,系统由此可以判断学生的学习风格,归纳出“学霸”、“中等程度”等学生类型。

通过“智能笔”获得的数据,包括每一笔的力度、从起始点到最后一点握笔到抬笔的时间、过程顺序等。比如,笔不断穿越某个20秒前写的字,快速地和其笔划进行交集,这意味着这个字正在被涂改。在书写时有挣扎,反映学生写时不确定,大量涂改意味着他可能不明白。这些特征都可以有逻辑地提取出来。目前AI学智慧教育平台已在安徽、广东、福建、西藏、上海、深圳等省市的近百所学校试点,并成功帮助试点班级实现提分。

经过几个阶段的产品落地,目前我们收集到的数据主要包括:早期教育机构积累的题库数据;学生拍照和答疑数据;学生手写行为数据和人工精标性数据。这些数据的背后,是各项技术的“组合拳”:包括“拍照搜题”中的图像和文字识别技术;“学霸君1对1”中的手写识别技术以及“AI学平台”中的自适应学习体系、个性化推荐等。

专题访谈

合作站点
stat