BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

张跃:批改网如何做语义分析
录制于:

| 受访者 张跃 关注 0 他的粉丝 作者 杨赛 关注 0 他的粉丝 发布于 2015年9月15日 | QCon北京2018全面起航:开启与Netflix、微软、ThoughtWorks等公司的技术创新之路!
18:13

个人简介 张跃 ,硕士毕业于东北大学,2000年进入微软亚洲研究院,期间负责辅助翻译和英语写作助理等成功已应用到微软Office系列产品中;2005年进入微软中国技术中心担任技术专家,负责国家人事部人事系统、交通部智能交通系统、联通总部OA系统、中软运维系统、微软Contoso项目。2006年进入奇虎公司自然语言部门担任部门经理,负责奇虎搜索引擎的智能文本分析部分。2008年创办北京词网科技有限公司,负责北京移动、上海化工、当当网、新浪网、北京二外翻译数据基地等搜索和语料库项目的技术研发合作。2010年主持研发基于语料库和云计算的英语写作训练与自动批改系统(批改网,www.pigai.org),这是国内第一个完全自主知识产权并实现正式商业应用的英语写作训练与自动批改系统,运营至今已在北京大学、清华大学、南京大学等2000多所学校使用,服务超过5万教师和800万学生,批改作文近亿篇次。

全球架构师峰会(International Architect Summit,下简称ArchSummit)是由InfoQ中文站主办的一次全球性架构师峰会。ArchSummit专门针对架构师人群,讲述与架构和架构师相关的各方面趋势、技术和案例。这也是继QCon之后,InfoQ中文站主办的又一次高端技术盛会。

   

2. 工程师多一些?

张跃:我是计算机毕业的。

   

3. 你为什么会开始做语言处理这一块呢?

张跃:我研究的方向是自然语言理解,它是个跨界的,用计算机去处理语言的问题,但是还是属于计算机科学的范畴。

   

4. 语意分析很多人在做,我们理解本质上它是让电脑能够理解人的语言,人的语言相对来说是比较不精确的。批改网所做的事情是由另一个角度,是非本土的人用英语,然后让机器来比较是不是使用的正确,是不是有流利或者不流利的情况,它这个功能和我们平时理解的功能,或者语音助手的功能都会有什么不一样呢?

张跃:不一样,首先第一个语意理解问题,坦白的说,机器很难去理解一篇文章的美,所以它不会像人一样去理解一篇作文。第二个,我们现在机器批改更多是去测量语言的准确性,语言是否符合语法,是否符合逻辑,类似这样的。像美国的托福、GRE,也是用去机器去批改文章,而且改了数十年了,它在机改领域是一个设施标准,它也公开宣称,它不能去改莎士比亚的戏曲,这是第一点。第二点的话,英文的语法是比较严谨的,这样使得我们有可能做到。我们原理是把学生的作文,当成一个学习的语料库,然后和标准语料库去做比对,这个比对是工程领域的范畴,我可能不知道它在讲什么,但是我知道它对不对,比如说我看它这种用法,在母语用语料库里有没有,这种对比是属于工程领域的范畴,说的简单点,我们并没有去理解它的语意是什么,但是我可以去判断出它是否正确。

   

5. 它也会有一个打分,比如说你有90分是正确的?

张跃:通过刚才的交流,我们那个打分实际上就是学生的作文和语料库之间的距离,距离越近分越高,所以我们的打分实际上是相对的,如果您是老师,班上带了30个学生,我们按照你的学生作文和语料库的远近程度做一个排序,至于第一名是90分,还是95分,完全取决于老师自己的设定,因为我们测量出来只是一个距离,通过一定的映射把距离映射成分数,分数本来也是相对的。

   

6. 但是和老师不同一点就是老师可能会凭自己的感觉,你们是用了很多不同的语法分析维度,就像您在slides列出来的有句子基本的框架,动词名词副词的使用,包括triple搭配的一些维度,这些维度是怎么来的?

张跃:我们在做这套系统之前调研了相关文档,全球很多这方面的研究,有的人是用不同的维度,像ETS它用的是三个维度,还有一些用的是其他维度。我们是从工程师的角度去做这个系统,维度本身谁更重要,我们不具备判断能力,我们把所有能见到的维度都搜集进来,计算出来,至于它的权重有多高,我们让老师自己去判断,所以我们的打分公式的权重老师是可调的,这样老师可以配合他的教学策略,假设是高一或者高二,刚教主语从句,老师可以把主语从句权重设的很高,这样就符合他的教学目的了。回到您的问题就是,第一,维度我们不具备判断能力,但是我们把所有的维度都给测出来,用户从不同的业务需求自己可以对维度进行设置。第二,维度也会增加,像老师使用过程之中有些新的发现,我们都可以把它加进去,所以说从这个角度来说,我们是个打分平台。这样老师可以把需要的维度组合起来,做个权重,构建自己的打分公式。这样我们也是进行逻辑的区别,工程师做工程师的事情,老师做老师的事情,老师对维度是有判断能力的,甚至在不同时候对维度有自己不同的配置。

   

7. 从工程师的角度去实现,不需要具有判断维度对于作文的影响是多少的能力,是这么一个概念?

张跃:工程师也做不到这一点,那是业务上的判断,我们所有的维度跟分数都是相关的,不相关是不能称为维度的,这个工程师可以算出来,但维度有多重要只有用户自己知道。

   

8. 它是来自于关于英语语言的研究,那也有不同的体系了?

张跃:当然是了,这也服务于不同的教学目的,比方说在大学里面,英语专业的教学要求就要比大外高,老师关注的维度也不一样,所以我们就把它做成一个平台,老师根据自己的需求去调整,可以适应不同的用户群。

   

9. 现在有默认的比重配置吗?

张跃:有,你这个说的非常对,有些老师开始不一定知道,那么我可以给他准备好套餐,告诉他,这是常用的大学维度,这是常用的985维度,甚至于这是南京大学的维度,打分公式,你可以先用它,如果你觉得高了,你可以先用扬州大学的也可以,老师使用方便也是我们考虑的一个很重要的方面。

   

10. 好的,那也就是说以后也可能会添加新的维度吗?

张跃:我们一直在添加,因为有老师在做,有老师不停的提出自己的需求。

   

11. 他是你们的顾问,还是?

张跃:是我们的用户,很多用户使用的越来越深入,他在使用过程之中会产生自己的很多需求,这样的话,他跟我们联系,我们可以给他提供。因为学校是不同层次的,需求也不一样,所以我们也在整理出些新的维度加进去。

   

12. 业务方面有个问题,就是你们现在跟学校的这种合作,工程师团队和老师之间具体的互动是怎样的?

张跃:系统是工程师做的,但用是老师来用的,他在过程中有很多反馈,我们运营团队跟老师一直保持密切的联系。老师使用中感觉有什么不方便的,会随时跟我们沟通。

   

13. 然后工程师团队从运营团队那里得到反馈?

张跃:我们工程师团队跟运营团队每周会有一次会议,可以收集到本周的老师的建议,按照权重进行排序,把优先级最高的优先解决。

   

14. 那你也提到语料库,语料库都是标准的用法吗?

张跃:语料库分两种,白语料库和黑语料库,当然我们叫得比较通俗了,白语料库就是你们说的标准用法,是母语用户的用法,这是我们参照的标准;还有一种语料库叫黑语料库,笼统地说,中国学生写的文章我们都叫黑语料库,黑语料库里面包含了大量的错误。我们在写文章的时候,难免会受到一些中国文化的影响,写出来的东西包括一些错误。我们现在拥有全球最大的英语的黑语料库,到了今年5月21号,我们批改的作文已经超过一亿篇,所以说我们现在清楚的知道,中国学生常犯的一些错误,而且可以知道不同地区,不同学校学生常犯的错误分布,这样就会给一线的教学老师提供数据支撑,告诉他学生常犯什么错误,或者本月,本周学生犯的错误,这样老师可以做动态调整。以前我们教育部的教学大纲里面都在说因材施教,以前做不到,以后至少在英语方面可以逐步做到。学生作文可以认为是学生的个性化数据,我们从数据反馈给老师与学生,这段时间常犯的错误,某个学生常犯什么错误,老师的策略就可以做相应的调整,慢慢的可以做到因材施教。还可以顺便再说一下,批改网远大的目标是这样的,我们现在已经处于一种大数据的背景之下了,在大数据时代来临之后,以后老师的行为会越来越像一个医生,你看你去医院看病,医生一定会让你查各种参数,因为要对症下药,它一定是要个性化的,所以他第一步肯定是要去获取你的参数,让你去查CT,验血压,这些过程都是为了获取你的参数,在医院看病的过程,可能80%以上的时间是花在获取参数上面,拿到那张诊断单,然后医生再根据诊断单开药,医院是个提供数据服务的地方。老师也一样,我们批改网就是帮老师拿到那张诊断单,告诉学生现在的水平是什么,薄弱点是什么,下一步该学什么,这是我们以后慢慢要做的事情,在大数据时代,把教学,特别是英语教学带入个性化教学,因材施教的时代。

   

15. 我理解是给每个学生按上很多的特征?

张跃:采集他的参数,每个人成长路线都不一样,现在没有人告诉你,你下一步该学什么。我们学习英语目的都是希望我们说出来的话,写出来的句子跟母语用户一模一样才好,但现在不一样,我们目的是一样的,但是每个人成长路线不一样,每个人犯的错误和薄弱点是有特征的,我们把这个数据拿到之后,会清楚的告诉每一个人,具体到你下一步该学什么,也就是说以后每个人每天做的作业是不一样的,要根据自己薄弱点做动态调整,哪缺补哪,是这样。

   

16. 现在语料库增长的速度是怎样的?

张跃:我们批改网的周期跟学校的周期是一样的,像现在我们就可能少一些,因为现在学校放假了。我们在学生上学期间,大概每天改两百到三百万篇作文,今年是以这样的速度在增长。

   

17. 您也介绍了批改网用到的一些技术Stack,包括像Couchbase,MQ,Hbase,MySQL,原始数据和分析结果都是存储在这里,因为现在只是涉及到文字的批改,提交的不是图像或者音频,所以它应该是一个比较计算密集型的,存储方面可能不是特别重,那么你们现在有八百万用户,平时的并发计算量,还有高峰的并发量大概是怎样的?

张跃:首先我们用户已经超过九百万了,数据一直在涨,第二个,你说的非常对,我们文本计算要比音频视频计算量来的小一点,但也是挺大的。原因是什么呢?在我们的网站学生可以反复修改,有的文章,学生提交多的话,一篇文章可能提交一百多次,这一百多次我都给他记录下来了,而且他中间所有的行为,我也全部记录下来,所以这里面存储量跟音频视频比要小,但是还是不小的。并发量就看平常作业的并发量,每天大概两三百万,而且它的整体的分布是这样的,大学生一般会晚上以后开始做作业,从7点到11点形成一个增量上升的方式,一个月每天两三百万这样的PV,到了11点到了高峰,平常的并发量到11点左右,大概是每秒20到30的样子,有时候我们做大赛,并发量会高一点,有时候能到七八十。

   

18. 是通过添加更多的维度来让它变得更好?

张跃:这是一个方面,首先到现在批改网也不是一百分,还有很多做的不对的地方,因为语言本身确实很难。一方面,我们也在尝试换用不同的算法看看能不能在精度上有所提高,也包括寻求更多的维度,大概是这样。

   

19. 批改网最大的技术瓶颈您觉得主要是在哪?

张跃:文本分析,结构化分析,就是对维度的抽取。不仅是批改网,所有的翻译,搜索引擎,包括所有企图去理解语意,或者浅层语意的话,都是在文本分析方面,因为语言本身很多时候非常灵活,是个非结构化的东西,你要把它结构化成能看得懂的东西,这个过程挺难的。

   

20. 最后就想问一下这个体系是不是也能够套用到中文,因为你刚才也提到英文它是语法比较严谨的语言,跨语言套用,它难度主要在哪里?

张跃:简单说我们对此持悲观态度,至少我们现在不打算去做中文,原因是有这么几点,第一,英文语法非常严谨,它是可以去计算的,中文相对灵活一点,中文难度一定比英文更大。第二个就是市场方面的考量,因为我们中国学生去学英文,很多时候追求的是一种语言的准确性,特别是从考试的角度,比方说在大学里面考四六级的时候,考作文的时候他会把观点告诉你,比如说告诉你,吸烟有害健康,原因有三个,一二三,然后你按照这种框架去写就好了。考英文作文并不是考立意和思想,而是考你的表达有多准确。但中文完全不同,中文不是说写对了就好了,而是有没有逻辑,有没有思想,有没有立意,那个是计算机所不擅长的,这是从市场角度。所以我们还是集中力量先做英文,英文市场足够大,下一步我们做了中国之后,还计划想去做日本市场,韩国市场,他们那边也是有类似的需求和类似的机会的。最终就是单点突破,这一点也是挺大的,我觉得空间机会也足够多,我们离一百分还远,有足够的事情让我们去做,所以我们重点还是把这块先做到极致。

InfoQ:那十分感谢张总今天接受我们的采访。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT