很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
大语言模型,为什么要做大,小的不行吗?
这些问题让技术开发者、创业者,还有研究人员都很头疼,作为一个商业记录者,我也曾被各种观点左右。怎么办?
为了理清思路,决定系统学习这门学科。最近,我在学了中科院和清华大学的大模型系列研讨课,收获挺多;说到底,我们可以把问题分成三块:大、语言、模型。如果能搞懂这三个问题,疑惑就解决了一半。
解答这些问题,说难也难,说不难也不难。难的是,得先做点“考古”工作。比如,要了解我们以前是怎么研究语言的,历史上发生了什么。
不难的是,一旦理清了历史脉络,找到了关键问题的核心,答案就清楚了。所以,我把学到的知识梳理一下,从语言学的起源和发展、早期研究的方法,还有自然语言处理(NLP)的雏形三大方面,汇报给你。
从哪开始呢?就从80年前说起吧。你知道吗?
语言学这个领域,其实起步挺晚的,大概是1900年左右才真正成型。在那之前,语言学只是人类学里的一个小分支。
说到这儿,你可能觉得有点复杂,又是语言学,又是人类学的,到底啥意思?简单来说,人类学是研究人类是怎么来的,为什么会有「人」这个物种;而语言学,作为人类学的一部分,主要研究的是语言的历史和变化。
大家都知道,现在有很多方言,比如河南话、东北话、北京话,但你知道这些语言的根源是什么吗?
我们常提到的「汉藏语系」就是个好例子。历史上,汉语和藏语其实是同根生的,它们都源自一个古老的语言体系。随着时间的流逝,这些语言慢慢分化,形成了不同的方言和语种。
在1950年之前,语言学受到心理学的很大影响。
那时候,人们把语言看作是脑子里的一些想法,研究语言的方法也是按照行为主义(Behaviorism)来的。
什么是行为主义呢?
简单讲,人的心理和行为是可以通过观察、测量研究的。比如:一个人听到什么,做出什么反应,这些都是可以记录下来的,所以有数据,有实际的经验作为支持。
然而,由于技术限制,当时的研究没法深入探讨意识问题。意识在大脑里太复杂了,看不见也摸不着,所以人们觉得不应该研究那些没有科学依据的意识行为。
于是,人的大脑就被看作是一个“黑盒”:你输入什么,它就输出什么。
所以,在行为主义的影响下,心理学研究形成了一个基本观点:人的行为可以归结为两个因素:先天因素和后天因素。
先天因素是「遗传」,我们为什么会有某种行为,可能是因为我们的父母、祖父母等遗传给我们的;后天因素是环境影响,你现在的行为是从出生到现在,所有环境影响的反映,是你过去所有经历的结果。
还有一点,当时很多学者认为,世界上有很多不同的文化,有的文化影响大,有的影响小。
比如,中国人说话的顺序是一种方式,日本人说话的顺序可能就不一样;我们不应该研究文化,因为这种研究会引来文化争论,
所有,初期有两个观点:人类学反对研究语法差异,否认大脑有「意识」和「思考」的机制。
当时语言学处于什么阶段呢?一句话总结即:大家都在争论语言学是什么,并试图给它们下定义。
具体怎么理解呢?
我们可以从1907年到1911年出版的《普通语言学教程》说起。书的作者是费尔迪南·德·索绪尔(Ferdinand de Saussure)。。
他在书里提出了两个重要的概念:语言和言语,还给它们下了定义。他的研究主要关注两个领域:音系学和词法学。
音系学,就是研究语言里用哪些声音作为基础,这些声音怎么组合成词。比如,你说话时,一个词是由很多声音组成的,哪些音素构成了这个词。
词法学,就是研究这些声音怎么组成词语,以及为什么这样的组合能表达特定的意思。
那么,当时最先进的语言学研究是什么样的呢?这里要提到一个人,叫伯尔赫斯·弗雷德里克·斯金纳,大家通常叫他B. F. 斯金纳。
他主要研究心理学和教育,特别是怎么教小孩学习。
他的研究完全按照行为主义的方法来。经过二十多年的研究,他写了本书叫《言语行为》,总结了自己在语言学上的发现;斯金纳认为,人类的语言是一种条件反射。著名的巴甫洛夫实验就是他理论。
举个例子:
比如“Candy”这个词意思是糖果。小孩怎么知道“Candy”是糖呢?因为每次他说“Candy”,就有人给他一块糖。时间一长,他就学会了,只要说“Candy”就能得到糖。
斯金纳觉得,语言的学习是通过外部的刺激和反应形成的,完全可以用行为主义的条件反射来解释。
不过,斯金纳的观点很快就被推翻,推翻他的人是乔姆斯基(Noam Chomsky)。
1957年,乔姆斯基提出了完全不同的观点,还写了两本书,一本叫《句法结构》,另一本叫《评言语行为》。他认为,我们不应该把大脑看作一个“黑盒”,而是应该从心智的角度出发,研究大脑内部发生了什么。
并且,乔姆斯基举了一个例子来说明他的观点。他说:
每个人心里都有一个语言的深层结构。比如,不管你说什么语言,当你想表达“你想吃什么”时,大脑里生成的原始想法都遵循一种逻辑形式。
然后,这个想法会经过语言和文化的转换,变成具体的语法形式,比如英语、汉语。这个过程发生在大脑里,而且可以用机械的方式建模,甚至可以用算法来描述。
简单说,乔姆斯基认为,我们的心智可以用一些简单的规则来描述。
因此,乔姆斯基创立了一门新的学科,研究如何用符号和规则来描述这种转换;他的理论,彻底改变了语言学的研究方向。
这个学科叫什么呢?形式语言(Formal language)。
乔姆斯基的理论不光影响了语言学,还和当时的数理逻辑里的自动机理论结合,做出了不少新成果。
比如:
自动机理论和编译原理里的一些概念,像乔姆斯基谱系、乔姆斯基范式、正则文法、上下文无关文法等等,都是乔姆斯基提出来的。
看到这里,你可能会有点迷惑:这都是什么呢?别急,我来简单解释一下。
乔姆斯基谱系是个分类系统,它把语言按复杂程度分了几个等级。比如,最简单的语言叫“正则语言”,复杂点的叫“上下文无关语言”,再复杂点的还有“上下文相关语言”等等。
范式呢,是一种特别的语法规则形式。简单来说,它把句子结构简化成一种标准格式,方便计算机处理。比如,一个句子可以拆分成更小的部分,每个部分都遵循固定的规则。
至于正则文法、上下文无关法,我们可以把它们想象成电话号码或邮政编码的格式,特点是规则简单、比较固定,适合处理像“123-4567”这种有规律的内容。
但是编程语言里的语法规则,或自然语言里的句子结构就不同了;它们的规则更复杂,因为上下文可能有关系。比如,一个句子的意思可能取决于前面的内容,比如:“如果……那么……”
此外,乔姆斯基还提出了普遍文法的概念。什么是普遍文法呢?简单来说,就像所有语言都有名词和动词,所有语言都有表达过去、现在和未来的方式。
乔姆斯基认为,所有人类语言都共享一套基本的规则。
不管是英语还是汉语,大脑里的语言规则都是一样的,这些规则是先天就有的,因为只有人类能掌握语言,动物怎么训练都不行。
所以,他认为这是人类大脑特有的,由基因决定的。
看到这,你可能觉得,他对计算机研究很透彻,其实他不是计算机科学家,他的研究主要集中在语言学和认知科学领域,但他的理论对计算机科学、编程语言、自然语言处理影响很大。
后来,从1950年开始,自然语言处理(NLP)的研究正式起步了。最开始,科学家们有了个新工具,叫做自动机。
从那时起,NLP研究用的是符号主义方法,符号主义是啥意思呢?就是通过人工构造规则来描述自然语言,然后用确定的逻辑推理来处理自然语言。这种方法催生了一个新的学科,叫做计算语言学。
今天,如果你做自然语言处理研究,可能会把成果发表在ACL上。ACL是啥?它是计算语言学学会(Association for Computational Linguistics)的缩写,这个学会的会议是自然语言处理领域最重要的会议之一。
现在,我们发论文还是会往ACL、EMNLP上投。其实,这些会议的名字就是这么来的。
当时的科学家用符号主义方法研究后,很快就取得了一些进展,我们能实现一些简单的自然语言处理功能。当时大家都很兴奋,觉得自然语言处理似乎没那么难。
于是,一些语言学家认为,未来可以像物理学家研究材料一样研究语言,这样就不会带有人类的偏见、主观看法,因为语言必须简化成可操作的形式,才能用电子设备处理。
我们先把语言变成逻辑符号,然后写一些公式来处理它,这样就能避免人类的偏见;不过,今天我们发现,不仅语言学家不能这样研究语言,就连物理学家用类似方法研究材料也遇到了瓶颈。
这是时代发展带来的变化,不管怎样,乔姆斯基老爷子成果还是很了不起的。
当时对NLP研究,最早的一个成功案例,历史上叫它乔治城实验,发生在1956年。
这个实验怎么回事呢?
美国人搞了一个机器翻译系统,想把俄语翻成英语。他们在IBM 701计算机上编程序。
那台机器特别大,用纸带输入输出,存储量也小,只能处理几百个词,不过他们还是成功展示了这个系统,翻译了大约60个句子,算是取得了初步成果,
从那时起,DARPA(美国国防高级研究计划局)开始资助自然语言处理(NLP)的研究。
大家都觉得,像机器翻译这样的问题,大概十年就能搞定,语言差异不再是交流障碍。可是十年后,大家发现,还是只能做类似的东西。
1965年,出现了一个叫ELIZA的程序。它的目的是模拟心理治疗过程。这个程序挺简单,只有四百多行代码。它通过一个解释器运行一个三百多行的脚本,实现了聊天功能。
ELIZA的特点是不会没话说,不管你说啥,它都能用一些通用句子回应你,总能和你聊下去。虽然最初是为心理治疗设计的,但人们认为它是世界上第一个聊天机器人,效果还不错。
甚至今天还有报道说,ELIZA在图灵测试中的得分比GPT-3.5还高。不过,符号主义的研究方法并没有取得预期的巨大成功。
为啥呢?
到了1966年左右,大家发现,十年过去了,机器翻译问题还是没解决;DARPA资助了很多研究,投入了大量资金,但进展不理想。DARPA派人去各个项目组检查,看看钱花哪儿了,研究进展如何。结果发现,进展非常慢。
于是,1969年,人工智能研究的热情开始减退。
DARPA的政策也变了,当时苏联很强,美国在冷战中处于劣势,又深陷越战,大部分资金都投入了登月计划,和苏联竞争,剩下的钱用于AI研究,但AI研究看不到短期内的应用前景,所以资金减少了。
DARPA要求,以后资助的项目必须说明短期内对军事的帮助,否则不再提供资金。从那时起,研究资金减少,AI研究进入了第一次寒冬。
所以,寒冬是怎么走出来的呢?
1980年代以后,研究方式变了,大家逐渐不再完全相信乔姆斯基的理论。虽然乔姆斯基的理论很好,一开始很多人相信并做相关研究,但后来发现,写规则似乎永远写不完,效果也不理想。
于是,规则方法逐渐被抛弃,反对乔姆斯基的声音开始出现;同时,计算机技术也在发展,微处理器和个人电脑开始普及。到了2000年左右,互联网迅速发展,语料收集变得容易多了。
以前语料要靠人工输入,现在可以从网上抓取数据。这些条件的变化,使得NLP研究的主流方法转向了统计方法。
这就是自然语言处理(NLP)80年发展。总结四点:
一,人们经历了从行为主义向认知科学的转变;二,早期的自然语言处理依赖于符号主义、规则系统,后来转向统计法;三,乔姆斯基对NLP做出了巨大贡献;四,NLP的发展离不开计算机技术的进步。
一口气说了这么多,不知道讲的够不够清晰?
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)