NLP的早期发展里程碑-鸟哥笔记

大语言模型，为什么要做大，小的不行吗？

这些问题让技术开发者、创业者，还有研究人员都很头疼，作为一个商业记录者，我也曾被各种观点左右。怎么办？

为了理清思路，决定系统学习这门学科。最近，我在学了中科院和清华大学的大模型系列研讨课，收获挺多；说到底，我们可以把问题分成三块：大、语言、模型。如果能搞懂这三个问题，疑惑就解决了一半。

解答这些问题，说难也难，说不难也不难。难的是，得先做点“考古”工作。比如，要了解我们以前是怎么研究语言的，历史上发生了什么。

不难的是，一旦理清了历史脉络，找到了关键问题的核心，答案就清楚了。所以，我把学到的知识梳理一下，从语言学的起源和发展、早期研究的方法，还有自然语言处理（NLP）的雏形三大方面，汇报给你。

01

从哪开始呢？就从80年前说起吧。你知道吗？

语言学这个领域，其实起步挺晚的，大概是1900年左右才真正成型。在那之前，语言学只是人类学里的一个小分支。

说到这儿，你可能觉得有点复杂，又是语言学，又是人类学的，到底啥意思？简单来说，人类学是研究人类是怎么来的，为什么会有「人」这个物种；而语言学，作为人类学的一部分，主要研究的是语言的历史和变化。

大家都知道，现在有很多方言，比如河南话、东北话、北京话，但你知道这些语言的根源是什么吗？

我们常提到的「汉藏语系」就是个好例子。历史上，汉语和藏语其实是同根生的，它们都源自一个古老的语言体系。随着时间的流逝，这些语言慢慢分化，形成了不同的方言和语种。

在1950年之前，语言学受到心理学的很大影响。

那时候，人们把语言看作是脑子里的一些想法，研究语言的方法也是按照行为主义（Behaviorism）来的。

什么是行为主义呢？

简单讲，人的心理和行为是可以通过观察、测量研究的。比如：一个人听到什么，做出什么反应，这些都是可以记录下来的，所以有数据，有实际的经验作为支持。

然而，由于技术限制，当时的研究没法深入探讨意识问题。意识在大脑里太复杂了，看不见也摸不着，所以人们觉得不应该研究那些没有科学依据的意识行为。

于是，人的大脑就被看作是一个“黑盒”：你输入什么，它就输出什么。

所以，在行为主义的影响下，心理学研究形成了一个基本观点：人的行为可以归结为两个因素：先天因素和后天因素。

先天因素是「遗传」，我们为什么会有某种行为，可能是因为我们的父母、祖父母等遗传给我们的；后天因素是环境影响，你现在的行为是从出生到现在，所有环境影响的反映，是你过去所有经历的结果。

还有一点，当时很多学者认为，世界上有很多不同的文化，有的文化影响大，有的影响小。

比如，中国人说话的顺序是一种方式，日本人说话的顺序可能就不一样；我们不应该研究文化，因为这种研究会引来文化争论，

所有，初期有两个观点：人类学反对研究语法差异，否认大脑有「意识」和「思考」的机制。

02

当时语言学处于什么阶段呢？一句话总结即：大家都在争论语言学是什么，并试图给它们下定义。

具体怎么理解呢？

我们可以从1907年到1911年出版的《普通语言学教程》说起。书的作者是费尔迪南·德·索绪尔（Ferdinand de Saussure）。。

他在书里提出了两个重要的概念：语言和言语，还给它们下了定义。他的研究主要关注两个领域：音系学和词法学。

音系学，就是研究语言里用哪些声音作为基础，这些声音怎么组合成词。比如，你说话时，一个词是由很多声音组成的，哪些音素构成了这个词。

词法学，就是研究这些声音怎么组成词语，以及为什么这样的组合能表达特定的意思。

那么，当时最先进的语言学研究是什么样的呢？这里要提到一个人，叫伯尔赫斯·弗雷德里克·斯金纳，大家通常叫他B. F. 斯金纳。

他主要研究心理学和教育，特别是怎么教小孩学习。

他的研究完全按照行为主义的方法来。经过二十多年的研究，他写了本书叫《言语行为》，总结了自己在语言学上的发现；斯金纳认为，人类的语言是一种条件反射。著名的巴甫洛夫实验就是他理论。

举个例子：

比如“Candy”这个词意思是糖果。小孩怎么知道“Candy”是糖呢？因为每次他说“Candy”，就有人给他一块糖。时间一长，他就学会了，只要说“Candy”就能得到糖。

斯金纳觉得，语言的学习是通过外部的刺激和反应形成的，完全可以用行为主义的条件反射来解释。

不过，斯金纳的观点很快就被推翻，推翻他的人是乔姆斯基（Noam Chomsky）。

1957年，乔姆斯基提出了完全不同的观点，还写了两本书，一本叫《句法结构》，另一本叫《评言语行为》。他认为，我们不应该把大脑看作一个“黑盒”，而是应该从心智的角度出发，研究大脑内部发生了什么。

并且，乔姆斯基举了一个例子来说明他的观点。他说：

每个人心里都有一个语言的深层结构。比如，不管你说什么语言，当你想表达“你想吃什么”时，大脑里生成的原始想法都遵循一种逻辑形式。

然后，这个想法会经过语言和文化的转换，变成具体的语法形式，比如英语、汉语。这个过程发生在大脑里，而且可以用机械的方式建模，甚至可以用算法来描述。

简单说，乔姆斯基认为，我们的心智可以用一些简单的规则来描述。

因此，乔姆斯基创立了一门新的学科，研究如何用符号和规则来描述这种转换；他的理论，彻底改变了语言学的研究方向。

03

这个学科叫什么呢？形式语言（Formal language）。

乔姆斯基的理论不光影响了语言学，还和当时的数理逻辑里的自动机理论结合，做出了不少新成果。

比如：

自动机理论和编译原理里的一些概念，像乔姆斯基谱系、乔姆斯基范式、正则文法、上下文无关文法等等，都是乔姆斯基提出来的。

看到这里，你可能会有点迷惑：这都是什么呢？别急，我来简单解释一下。

乔姆斯基谱系是个分类系统，它把语言按复杂程度分了几个等级。比如，最简单的语言叫“正则语言”，复杂点的叫“上下文无关语言”，再复杂点的还有“上下文相关语言”等等。

范式呢，是一种特别的语法规则形式。简单来说，它把句子结构简化成一种标准格式，方便计算机处理。比如，一个句子可以拆分成更小的部分，每个部分都遵循固定的规则。

至于正则文法、上下文无关法，我们可以把它们想象成电话号码或邮政编码的格式，特点是规则简单、比较固定，适合处理像“123-4567”这种有规律的内容。

但是编程语言里的语法规则，或自然语言里的句子结构就不同了；它们的规则更复杂，因为上下文可能有关系。比如，一个句子的意思可能取决于前面的内容，比如：“如果……那么……”

此外，乔姆斯基还提出了普遍文法的概念。什么是普遍文法呢？简单来说，就像所有语言都有名词和动词，所有语言都有表达过去、现在和未来的方式。

乔姆斯基认为，所有人类语言都共享一套基本的规则。

不管是英语还是汉语，大脑里的语言规则都是一样的，这些规则是先天就有的，因为只有人类能掌握语言，动物怎么训练都不行。

所以，他认为这是人类大脑特有的，由基因决定的。

看到这，你可能觉得，他对计算机研究很透彻，其实他不是计算机科学家，他的研究主要集中在语言学和认知科学领域，但他的理论对计算机科学、编程语言、自然语言处理影响很大。

后来，从1950年开始，自然语言处理（NLP）的研究正式起步了。最开始，科学家们有了个新工具，叫做自动机。

从那时起，NLP研究用的是符号主义方法，符号主义是啥意思呢？就是通过人工构造规则来描述自然语言，然后用确定的逻辑推理来处理自然语言。这种方法催生了一个新的学科，叫做计算语言学。

今天，如果你做自然语言处理研究，可能会把成果发表在ACL上。ACL是啥？它是计算语言学学会（Association for Computational Linguistics）的缩写，这个学会的会议是自然语言处理领域最重要的会议之一。

现在，我们发论文还是会往ACL、EMNLP上投。其实，这些会议的名字就是这么来的。

当时的科学家用符号主义方法研究后，很快就取得了一些进展，我们能实现一些简单的自然语言处理功能。当时大家都很兴奋，觉得自然语言处理似乎没那么难。

于是，一些语言学家认为，未来可以像物理学家研究材料一样研究语言，这样就不会带有人类的偏见、主观看法，因为语言必须简化成可操作的形式，才能用电子设备处理。

我们先把语言变成逻辑符号，然后写一些公式来处理它，这样就能避免人类的偏见；不过，今天我们发现，不仅语言学家不能这样研究语言，就连物理学家用类似方法研究材料也遇到了瓶颈。

这是时代发展带来的变化，不管怎样，乔姆斯基老爷子成果还是很了不起的。

04

当时对NLP研究，最早的一个成功案例，历史上叫它乔治城实验，发生在1956年。

这个实验怎么回事呢？

美国人搞了一个机器翻译系统，想把俄语翻成英语。他们在IBM 701计算机上编程序。

那台机器特别大，用纸带输入输出，存储量也小，只能处理几百个词，不过他们还是成功展示了这个系统，翻译了大约60个句子，算是取得了初步成果，

从那时起，DARPA（美国国防高级研究计划局）开始资助自然语言处理（NLP）的研究。

大家都觉得，像机器翻译这样的问题，大概十年就能搞定，语言差异不再是交流障碍。可是十年后，大家发现，还是只能做类似的东西。

1965年，出现了一个叫ELIZA的程序。它的目的是模拟心理治疗过程。这个程序挺简单，只有四百多行代码。它通过一个解释器运行一个三百多行的脚本，实现了聊天功能。

ELIZA的特点是不会没话说，不管你说啥，它都能用一些通用句子回应你，总能和你聊下去。虽然最初是为心理治疗设计的，但人们认为它是世界上第一个聊天机器人，效果还不错。

甚至今天还有报道说，ELIZA在图灵测试中的得分比GPT-3.5还高。不过，符号主义的研究方法并没有取得预期的巨大成功。

为啥呢？

到了1966年左右，大家发现，十年过去了，机器翻译问题还是没解决；DARPA资助了很多研究，投入了大量资金，但进展不理想。DARPA派人去各个项目组检查，看看钱花哪儿了，研究进展如何。结果发现，进展非常慢。

于是，1969年，人工智能研究的热情开始减退。

DARPA的政策也变了，当时苏联很强，美国在冷战中处于劣势，又深陷越战，大部分资金都投入了登月计划，和苏联竞争，剩下的钱用于AI研究，但AI研究看不到短期内的应用前景，所以资金减少了。

DARPA要求，以后资助的项目必须说明短期内对军事的帮助，否则不再提供资金。从那时起，研究资金减少，AI研究进入了第一次寒冬。

所以，寒冬是怎么走出来的呢？

1980年代以后，研究方式变了，大家逐渐不再完全相信乔姆斯基的理论。虽然乔姆斯基的理论很好，一开始很多人相信并做相关研究，但后来发现，写规则似乎永远写不完，效果也不理想。

于是，规则方法逐渐被抛弃，反对乔姆斯基的声音开始出现；同时，计算机技术也在发展，微处理器和个人电脑开始普及。到了2000年左右，互联网迅速发展，语料收集变得容易多了。

以前语料要靠人工输入，现在可以从网上抓取数据。这些条件的变化，使得NLP研究的主流方法转向了统计方法。

这就是自然语言处理（NLP）80年发展。总结四点：

一，人们经历了从行为主义向认知科学的转变；二，早期的自然语言处理依赖于符号主义、规则系统，后来转向统计法；三，乔姆斯基对NLP做出了巨大贡献；四，NLP的发展离不开计算机技术的进步。

一口气说了这么多，不知道讲的够不够清晰？

本文系作者：王智远授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词

NLP