APP推广合作
联系“鸟哥笔记小乔”
从机器学习聊到 AIGC
2022-12-06 17:37:28

1. 几个问题

AIGC 近期成了热点,不少小玩法开始出现在小红书,比较流行的是头像二次元化,效果较好。高端局一般会用 Stable Diffusion,MidJourney 这样的工具来生成 AI 画作。

AIGC 是 Artificial Inteligence Generated Content (人工智能生成内容)的简称,实际当然不止是画画。包括声音、图像、视频,是都可以用类似的技术生成的。

从机器学习聊到 AIGC

(可以在这里看到一些视频的示例:https://imagen.research.google/video/)

作为破圈的先锋,AIGC 的画作还是更令人震撼:

从机器学习聊到 AIGC

(Dall-E2 的官网:https://openai.com/dall-e-2/)

从机器学习聊到 AIGC

(少楠用 Midjourney 绘制的图像,输入的描述是:Ultra realistic tree with green beech leaves, stunning forests in the background, sunrise light, art by Greg Rutkowski + Alphonse Mucha + Rien Portvliet, 8k --ar 16:9 --testp)

于是,有关 AIGC ,引来了几个有意思的问题的讨论:

- AIGC 能否替代真正的创作者?

- AIGC 是否意味着人工智能的质变?

- AIGC 能解决哪些问题?不能解决哪些问题?

我自己有一些观察,跟大家分享下。

2. 机器学习原理

我大学读研时的老本行就是机器学习,做过一些项目,略有了解,试着用白话简单说下机器学习的逻辑。

我们可以设想一下,科学家观测一个现象后,总结出定律的方法。

古代科学家认为天圆地方,这是最直观的推测,因为太阳月亮星星的运转用这个解释是合理的;后来观测到了地球是球型,那地心说就是直观的逻辑;再后来观测到了更多天文现象,就知道太阳才是太阳系中心,地球是公转中做自转的。

这个演进是符合一个逻辑的:依据当前的信息,解释一个现象,用最简单的方式。新的现象出现,解释不了了,再加入别的因子让它变复杂,再解释新的现象。

机器学习正是如此。

我们要识别一个人会不会买口红,最直观的方法就是判断 ta 的性别,是女性,就有更大的概率会买口红。人的属性千变万化,但性别就是我们判断「买口红」这个命题的「特征提取」。我们找到这个规律以后,就能用性别作为特征,建立模型。

输入用户资料 - 提取性别并判断 - 输出

现实情况更加复杂,可能男性也会买,往往是在逢年过节的时候送礼用。那么性别(男)+购买日期(临近节日),也能成为重要的特征,我们就要引入新的特征向量,即购买日期。

输入用户资料 - 提取性别&购买日期并判断 - 输出

根据新的用户资料和购买行为,我们持续会发现新的特征有利于我们的判断。于是就引入更多新的特征,比如除了公共节假日,可能还要看用户女朋友/家人的生日;比如女性里面,购买口红概率更大的,可能会出现在某个年龄段,等等。这样「特征」就越来越多。

输入用户资料 - 提取性别&购买日期&年龄&....... 并判断 - 输出

我们输出的结论肯定就越来越准确。这就是机器学习运作的基本逻辑。

即然要提取这么多特征做判断,就要看不同的特征影响输出的程度有多大。性别和年龄可能权重大一些,其它的可能权重小一些。怎么判断呢?肯定不能人为,那就要训练一个模型。

机器学习的模型就是投入我们认为筛选出来的特征维度(性别、年龄等)、大量的正向和负向的案例(训练集),让机器学习出一个极度复杂的公式,公式来解释每个特征影响结果的程度。

这里面训练集的规模就成了重点,案例越多肯定越准确。在过去的时代,很多训练集是需要人工标注的,标注员会跟富士康的工人一样算是劳动密集型的工作,去判断这个案例是正的还是负的。比如文字识别,这个字是哪个字?图像分类识别,这是猫还是狗?一段翻译,是否翻译准确?

这也是为何互联网公司团队往往拥有最好的「算法」。当我们提到算法好的时候,大部分情况下其实讲的是这个公司的机器学习模型准确度高,这个准确度来源于公司收集的大量用户行为数据,用户是在用准确的行为免费帮企业做标注,比如购买消费行为、浏览点击行为,等等。

此为机器学习的原理。当然这是白话说的,具体怎么提取特征、怎么判断权重和因子间相互的影响、怎么分类、怎么建模等等,其实是很复杂的技术操作。

3. 深度学习与 AIGC 原理

机器学习发展到 21 世纪,计算机的性能大幅提升,开始演化出深度学习(Deep Learning)。

深度学习之所以是「深度的」,就因为除了能学习模型怎么做精确,还能学习怎么建模本身

前面讲的案例里,我们要识别一个人会不会买口红,还是从「生活观察」出发,去猜想,诶,这个特征是不是有关系?那个特征是不是有关系?

深度学习的逻辑不需要判断,就是一股脑把所有的信息,转化成数据投入进深度学习的模型里去,它会自己去判断哪个有用、哪个没用。

这样的好处是很显然的:能覆盖更多的特征、能采集更多的数据。并且由于深度学习的算法是可以叠加很多层次的,就能解决更复杂的场景、更复杂的数据。

所以深度学习的效果会明显变好。

从机器学习聊到 AIGC

(一个 卷积神经网络,即 convolutional neural network 、CNN 的示意图,来源 CSDN)

像我们举的例子,还是单一维度的判断,会不会买口红。而深度学习就可以到图像领域、视频领域了,可以处理大量像素的色值、位置等等问题。

但深度学习也会存在一个问题,就是既然绕过了人为提取特征、人为判断规律,就会让深度学习的模型,几乎不存在可解释性。就相当于这是一个黑盒,我们知道它每次能给出准确的答案,却不知道它为什么给;甚至我们拆开盒子,看到里面大量的函数、公式和逻辑,也会觉得莫名其妙——有可能要判断会不会买口红,有个因子是这人右脚的脚趾头是不是有胎记。

在深度学习领域中,2014 年横空出世了一款全新的算法,生成对抗网络(GAN, Generative adversarial network)。它在后来的 AIGC 领域所向披靡,大受欢迎,效果极佳。而它的原理甚至很有文学性。

GAN 解决这个问题的方式是,放一个老师,跟学生博弈。模型就像一个学生,给出考题的答案,老师来判断正误,直到满意;老师满意以后,学生对老师不满意了,觉得这些题太简单,老师你得出点更难的题目,我还得继续提升成绩呢,于是老师也要进步,给新的考题,直到学生几乎答不出来;接下来学生继续努力学习、答题,到了阈值后,老师继续学习、出题......循环往复,就像 GAN 的名字里所述,对抗的模式来共同提升。

这个算法的逻辑就是:竞争才能使人成长。

从机器学习聊到 AIGC

(在原始图像基础上,用 GAN 生成的一些实例。来源:https://gitcode.net/mirrors/yenchenlin/pix2pix-tensorflow)

它的具体实现当然又更加复杂了。我们只需要知道,它在图像方面,有最出色的表现,很适合基于原始内容(噪音)、补充和丰富细节。

GAN 是 AIGC 最常用的机器学习算法之一,另外一个常用的是 diffusion model,在某些方面很像,比如也是适合基于原始内容(噪音)来生成内容。文章一开头的那几张图,就是基于 diffusion model 原理的。

所以总结下就是,机器学习的发展过程中,大大简化了人工参与的环节和步骤、丰富了输入和输出的维度及准确性,继而从「会不会买口红」这样简单的问题,进化到了可以生成一幅宠物的照片、一段以假乱真的视频、一条模仿某人的声音。(推荐英剧《真相捕捉》,讲的是围绕 Deepfake 这类技术的罪案故事。)

这个过程中,很多公式和模型的复杂性已经到了难以解释,甚至无法去遍历和阅读的程度。聊到这,可能诸位也能有一种感受:这些年机器学习的进展飞快,不过仍然都围绕在最初机器学习的原理上——通过海量的数据训练机器,让机器能更好地预测概率

4. 统计、概率、训练与经验主义

我们换个视角,用更形象的表述,可能有助于理解机器学习是怎么实现我们看到的人工智能的。

自然语言处理/机器翻译领域,我们目光所及的翻译工具,用的方式可以这么理解,比如是中文翻译到英文,机器做的事情是:

  • 当给出的第一个中文词出现的时候,翻译是哪个英文词的概率更大?

  • 当给出的第二个中文词,出现在第一个中文词后面的时候,翻译是哪个英文词的概率更大?

  • ......

类比到 AIGC 领域,比如我们要画一个小狗,机器做的事情是:

  • 当给出的关键词是小狗的时候,第一个像素点在哪个位置、哪个颜色的概率更大?

  • ......

  • 当画完脸部后,它有没有耳朵?

  • 有的话,有几只耳朵的概率更大?

  • 当应该要有左耳的时候,它的第一个像素点出现在哪个位置、是哪个颜色的概率更大?

  • ......

机器在过程中,虽然用的是模型,实际上模型都是基于统计概率的模型。机器更像是在疯狂回忆它记住的所有过往的画作里,所有小狗的形象,力图让结果更接近「大概率」。

这也是为什么在各个 AI 绘图的工具里,关键词给的越精确,画作就会越成立。因为精确意味着缩小了范围,同样类型画作的风格、样貌是更接近的,画作的模仿效果就会更好。

这里训练出来的统计概率模型的过程,恰似古代的杂技工作者,让宠物做计算题的方式。当出现哪几个数字的时候,应该选择怎样的答案,宠物是靠背的,这个是统计概率的问题,不是数学计算的问题。训练的过程给的奖惩,跟机器学习是一样的(机器学习里也有奖惩概念)。

这也是机器学习里的神经网络,跟人的神经网络目前看差异最大的地方。我们很好地运用了计算机夸张的性能和存储能力,让它拥有巨型的统计概率模型,来存储海量数据训练集得到的记忆结果,但说到底,它有的还是围绕统计和概率的。

这也意味着,它是完全经验主义的。AlphaGo 可以参考天下古往今来所有的棋谱,但下不出没见过的棋谱;Novel AI 可以参考所有的小说,但不会用没见过的词组和表述。

只不过在 AIGC 的领域,内容的复杂性,在观感上,就弱化了我们对统计概率逻辑的认识,以为这个就是机器天马行空做出来的。其实机器还是在采纳大量过往画作基础上做「创作」的,但的确不同的拼凑和处理,会出现意想不到的效果,这是因为画作本身就是对现实世界的抽象,若离若即效果最佳。

如果是在书写长篇小说、拍摄一部逻辑完整的电影方面,就要吃力太多了。

5. 几个问题的解答

我们再回到最初的问题,试着解答一下。

- AIGC 能解决哪些问题?不能解决哪些问题?

如前文所说,AIGC 可以解决的,是从历史里做总结和学习,凭借统计概率,解决已被解决过的问题。

不能解决的,则是创造新的事物、总结规律、解释世界的问题。

- AIGC 能否替代真正的创作者?

一定程度上会。

哪怕只是经验主义、原理与 AlphaGo 并无本质区别,AIGC 也有很大的价值,那就是在某些足以乱真的领域,替代掉很多人工的成本。

比如 AIGC 的画作,如今就能替代不少插画。很多自媒体的朋友已经在用它们替代无版权图片作为封面了。

老话说,读书破万卷,下笔如有神。AIGC 的文本工具,其实就是替我们读了万卷书的助手。比如我们要写作,它帮我们生成一段人物小传作为参考、帮我们提供一些场景描述作为素材,就大有帮助。

只不过,对于很多真正需要「创造」的场景,AIGC 就爱莫能助了。例如,机器学习的训练集若是在三年前的,肯定就无法写出疫情故事、也难以想象疫情中我们常人都很难预知的场景。

几年前就出现过 AIGC 替代作者的说法,不过如今再看,应用比较多的还是在短新闻方面。它能很好地基于概率给出一篇「不错」的新闻通稿,但这也是过往短新闻格式一致、风格类似,较好模仿。观点、态度、延伸的想法,自然是很难用统计概率去捉摸的。

- AIGC 是否意味着人工智能的质变?

没有。

AIGC 的逻辑,与半个世纪前统计机器学习的根本逻辑并无二致,还是基于统计概率的,基于训练集去猜测的。哪怕 Siri 里偶尔出现精妙的回答,那也是曾经有对话真正发生过,Siri 从概率出发模仿的而已。

哪怕 AI 绘制的最拍案叫绝的画作,也是基于人类历史所有画作的基础创作的,还是人类作品的杂交。哪怕艺术性很高,也不代表 AI 有了「智慧」。

人类是可以归纳、演绎、总结背后逻辑的,这点机器依然做不到。甚至随着机器学习的黑盒越来越黑、模型越来越难以解释,让机器在更擅长做统计和记忆的路上一去不返,放弃了做解释、研究规律。

不过说到这里,也可以反问一句:是否通过统计概率就真的无法产生智能?这个目前看很难,但未必一定是假命题。人类自己的神经网络都还是朝阳研究学科,这就得留给时间去解答了。

刘飞
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
刘飞
刘飞
发表文章236
资深产品人,滴滴出行司机方向前产品负责人,点我达前产品专家,嘟嘟美甲联合创始人,锤子科技产品经理。《从点子到产品》《产品思维》作者。
确认要消耗 羽毛购买
从机器学习聊到 AIGC吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接