BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

您现在处于全屏预览
关闭全屏预览

标注适应:以中文分词和依存分析为例
录制于:

| 作者 姜文斌 关注 0 他的粉丝 发布于 2014年7月9日 | ArchSummit北京2018 共同探讨机器学习、信息安全、微服务治理的关键点
28:43

概要
在统计方法盛行的时代,大多数自然语言处理系统的性能受限于人工标注语料的质量和规模。人工语料构造代价高昂,然而对于许多语言处理任务,却同时存在多个不同标注标准的语料库。多种标注标准的语料代表着不同语言学观点的比较和碰撞,同时也意味着语言学知识的浪费。本报告阐述了标注适应问题以及解决方案的本质原理,并提出了一系列渐进增强的标注适应算法。在中文分词和依存分析两大任务上,标注适应方法都能在不增加系统复杂性的条件下带来显著的性能提升。

个人简介

姜文斌,博士,中国科学院计算技术研究所助理研究员,中国中文信息学会青年工委委员。研究方向为自然语言处理,先后在词法分析、依存句法分析、成分句法分析和机器翻译等子领域进行深入研究,在ACL和CL等自然语言处理国际会议和刊物上发表论文十余篇。

百度技术沙龙是由百度主办,InfoQ负责策划、组织、实施的线下技术交流活动,每月一期,每期由1个话题,2场演讲以及Open Space开放讨论环节组成。旨在为中高端技术人员提供一个自由的技术交流和分享的平台。每期沙龙会邀请1名百度讲师分享百度在特定技术领域的成果及实践经验,同时还会邀请1名优秀的互联网公司或企业技术负责人对同一话题进行分享。活动主要面向开发者、技术负责人、项目经理、架构师等IT技术人员。我们的口号是:畅想,交流,争鸣,聚会。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT