工软科技网

黄水清介绍,“语料库”是真实语言素材的汇集

简介: 黄水清介绍,“语料库”是真实语言素材的汇集,“语言有很多种,口头语言、书面语言等。

新京报讯(记者 周怀宗)日前,南京农业大学黄水清教授团队推出的新版现代汉语通用语料库——新时代人民日报分词语料。

黄水清教授介绍,新版“语料库”是对北京大学1998年1月人民日报语料库的补充,此外,该语料库将对学界公布,供学术研究用,并且后续还将不断补充最新语料,以促进语料资源的开放和共享。

新京报记者获悉,相对于20年前的语料库,新语料库出现了很多变化,其中“乡愁”“乡村振兴”“扶贫”“精准扶贫”等出现在人民日报上的频率大为增加,如“乡村振兴”在1998年1月全月中,出现次数为0次,2018年1月,全月出现次数为393次。

1998年、2015年、2016年、2017年、2018年1月份,四个词在《人民日报》全部文章中出现的频次。

黄水清介绍,“语料库”是真实语言素材的汇集,“语言有很多种,口头语言、书面语言等。

所谓真实语言,就是在现实中,实际有人说过、有人写过的词汇和句子。

”语料库并非简单收集真实语言素材,黄水清说,“如果只是把一堆真实语言素材放在一起,那是没什么意义的。

”作为现代汉语通用语料,北京大学计算语言研究所发布的“1998年人民日报语料”无论在学界和业界都有巨大的影响力。

但是随着时间的推移,该语料库在词汇的时效性、完备性和覆盖度上均需要进行更新和补充。

这次发布的语料库,都是精标的。

“语料库”是干什么的收集和整理现实中使用过的真实语言素材,有什么用途?

黄水清介绍说,“当前主要用于机器学习,当然也包括当前流行的深度学习”。

”黄水清说,“举例来说,像自动驾驶,理想的方法是输入驾驶的操作方式、交规、地图等,它就能实现自动驾驶了,但现在技术还达不到,这样的情况下,就会选择另一种技术方案,找一些优秀的司机,让机器跟着人学。

语言也是如此,理想的策略,是给它输入语法、语义、语用,它就具备了语言理解和生成的能力,但同样做不到。

这时候,基于真实语言的语料库,就有用处了,机器能从语料库中学到语言能力,相当于跟优秀司机学驾驶能力。

据介绍,新版语料库已收录近年来共9个月的《人民日报》刊发的所有文章,全部为人工标注精加工语料。

具体来看,有些词汇、句子的语境发生了变化。

机器如果还是按照20年前的语料库学习,很可能学的就是错的”,黄水清说。

黄水清介绍,“随着脱贫攻坚、乡村振兴等工作的推进,相应的概念越来越多地出现在主流媒体的话语中。

在1998年,几个词汇出现的次数分别是1次、0次、407次、0次。

到2018年,几个词出现的次数分别是44次、393次、1176次、137次。


以上是文章"

黄水清介绍,“语料库”是真实语言素材的汇集

"的内容,欢迎阅读工软科技网的其它文章