语言学(linguistics)在人工智能(AI)的应用都有哪些?

本题已收录至知乎圆桌:机器之能 X 语言之美,更多「人工智能」相关话题欢迎关注讨论。
关注者
1,141
被浏览
59,440
收录于 编辑推荐知乎圆桌 ·

我是语言学系出身的,很多人以为自然语言处理的理论基础是语言学,很遗憾这个想法大错特错。

当前的理论语言学(theoretical linguistics)主流研究越走越偏,对计算语言学(computational linguistics)/自然语言处理(natural language process)几乎没有任何贡献。包括音系学(phonology),乔姆斯基一系列句法模型(Chomskian syntax),形态学(morphology),语用学(pragmatics)。

主流语言学难以应用的最大问题在于symbolic representation的假设。语言学的模型把语言都写成二进制,非黑即白,要知道自从20世纪80年代开始,AI的人就已经意识到了概率的重要性。概率与传统语言学完全背离。而且理论语言学的人并不喜欢讨论实际自然语言数据,尤其喜欢坐着想句子。著名斯坦福计算语言学大神Christ Manning,也是语言学系出身,但最近十几年几乎再也没发过跟理论语言学有关的论文。

主流贡献相对大一点的分支有形式语义学(formal semantics),但过于依赖手写规则(handwritten rules),大规模推广有困难,面临的问题跟传统专家系统类似。两个冷门的句法模型dependency grammar和combinatorial categorical grammar (CCG)在句法分析领域有一定市场。

对AI领域有帮助的理论都是语言学以及相关学科中偏门的领域,包括语音学(phonetics,语音识别的理论基础,不过语言学很多人不把语音学当作语言学分支),词汇语义(lexical semantics, 主要以LSA, LDA等一系列模型间接实现),历史语言学(historical linguistics)和类型学(typology)对于多语言的技术开发比较有一定启发。

心理语言学(psycholinguistics)依靠行为实验(behavior experiments),大脑成像技术(brain imaging)以及认知建模(cognitive modeling)研究人类实际语言使用,可谓计算语言技术的理论后盾。计算语言学顶级会议ACL每年专门设分领域接收认知模拟的研究。认知建模也是我做的最多的一块。

AI领域志在逼近人类智能,研究人类智能的认知科学才是AI的理论基础,而不是理论语言学。