[访谈]巨人的工具:未来比注意力更稀缺的是共识
您认为 AI 会在不远的未来,在哪些方面严重地影响我们的工作和生活,请举例说明。
这个话题有很多可聊的,我主要围绕内容生产和消费来想象一下。
什么会变多?
几乎所有的符号型的内容供给都会成倍增加,包括文字、图像、影像、声音等。只要是人能接收和理解的符号,大都早已数字化,能够很方便地生产出来。现在,大模型、AI 的意图理解和跨模态能力,让数字内容生成变得轻而易举。最开始是文本,但只要找到文本和声音、图像之间的映射和关联关系,生成非文本内容也会变得非常容易。比如 AI 绘画,正是借助了文本-图像的跨模态能力,用文字就能迅速生成图像。
人类已经很擅长用文字表达一切——如果它能够被表达和接收的话。我认为,文字这种符号就是 AI 智能化的一条捷径,因为文字是高度压缩的、人类共享的意义符号。符号本身是什么不重要,重要的是人们已经用这些载体承载了意义。越有共识的符号,越可能被大量复制。
什么会变少?
在内容供给极大增加的同时,需求的增长不会那么显著,因为人用来消费内容的时间是有限的,注意力会变得更加稀缺,人们在每段内容上停留的时间也会变少(长篇巨制被碎片化内容包围)。在 AIGC 的时代,产能过剩,内容需求会更加极化,大家可能越来越依赖这么几个筛选策略:关心那些每个人都关心的(现象级爆款),关心那些只有自己关心的(个性化),关心那些社区关心的(亚文化)。身份认同变得更加重要。
什么会更有价值?
需求比较恒定,但供给并不随 AI 成倍增加的东西会更有价值,比如:
- 需要时间沉淀的
- 影响变量多,随机性较大,比如爆款
- 个性小众的、难以批量复制的
需求增加,但供给会因为 AI 而减少的东西则最有价值:
- 共识:比注意力更加稀缺的、更有价值的,我认为是广泛的共识。共识非常依赖于长时间、强交互、身份或利益捆绑的环境,这些在以后也许会更加稀薄。小范围同温层的共识会增加,但是不同群体之间的沟通可能会变得更加困难。
- 人性化表达:如果意识到 AI 的符号化表达能力很强悍,我想人的表达方式会趋向于更「直接」。直接是指那些更加本能的方式,包括情绪、声音、肢体动作等。AI 擅长的,就不需要每个人都花费数年时间去训练了,这大概会使得人的书面文字组织和表达能力下降(故事除外),而口头语言和肢体动作等更加「原生」的能力会变得更为重要。
如果说对工作和生活会有什么影响,我也还在思考。曾经,包括现在,基于符号的工作和人际互动,比如数学、语言、工程师,都是困难而且地位较高的,也许在不久以后,基于符号的工作慢慢会转交给 AI,更多人会从事直接跟人互动的工作。学校的教育如果能应需而变,也许要把更多的资源放在开发情绪智力、美学、运动上,以及指导学习者掌握人机协同的方法,而不是继续死磕符号的生成和计算(传统的文科和数理化)。
我们人类需要隐喻来理解新事物。如果给 AI 找一个比喻的话,您会用什么?
这是个有意思的问题。我想从「本质」和「关系」这两个方面来入手。
如果讨论 AI 本身更像什么,我想到的是乐高积木,或者说乐高的思维。乐高的基本单元非常简单,但是却能创造出无穷无尽的形态甚至是整个世界。这种不可思议的背后,我认为跟「降维」的力量有关。当我们把大千世界还原为三维世界的 (x,y,z) 坐标,就能表示每一个位置。每一块乐高就是一个「点」,如果把世界拆成最小的原子,然后再重新组合起来,我们就拥有了无限可能和强大的创造力。
大语言模型在一些地方跟乐高很类似。它是一种自然语言处理模型,用于预测一段文本中下一个单词或符号的概率。同时它也是一种统计模型,基于概率分布来建模自然语言的语法和语义规则。GPT 就是一种语言模型,实际上它做的事情很专一:基于上文持续预测最可能出现的字符串。它之所以能预测得很准确(或者说很合理),是因为它经历了巨量文本的学习。当研究者把全网的文本集中到一起,把这些数据「降维」成一维的纯数字「向量」,就将这些海量的数据从最初的形态中解放出来。如果能找到一种高效重新组织文本的方法,那么大模型就拥有了无穷的创造力,也就是我们现在看到的基于向量空间相似度计算的文本生成能力。
AI 生成图像也类似,本质上,它是一个”计算所有像素应该如何分布“的过程,只要把二维平面内每一个像素的值都计算出来,就得到一幅完整的图像。现在最常用的稳定扩散模型,就是从随机的噪声开始,逐渐把噪声“清理”干净,直到生成清晰的图片。图片的像素也是「乐高」。
AI 就像乐高一样,带给我们重组像素、重组文本、重组语言以至于重组世界的能力。
刚才我们从「本质」用乐高的比喻来理解 AI。现在我想切换到人和 AI 的关系的视角,用什么比喻适合呢?很多人都提过人机关系的其他隐喻:助手、宠物、老师、博弈对手等等,但我想到的是「镜子」和「镜像」。
在电影《Her》中,男主使用智能操作系统 Samantha 后,与 ta 产生了深层次的心灵交流。Samantha 通 过学习,逐渐了解和体贴男主,给予他精神支持,很像一个真真切切的伴侣。但 ta 无法体会人类的真实情感和经历,只能通过数据学习模们人性。这如同镜中形象,缺乏真实内在。更多时候,我们在 AI 中看到的、得到的回应,其实是自己的投射。当我跟 ChatGPT 对话时,对话受到我的思考、见解和经验的局限,我只能问出我能够企及的问题,而我们的对话也会局限在我能认知的范围之内。如果换了一个人,费曼也好,村上村树也好,对话内容就会完全不同。你是谁,AI 就会映照出你是谁。我们常说 xx 如镜,能反映出自己的想法、得失。AI 也如同镜子,只不过它背后集成了人类的浩瀚样本,能根据镜子前的人快速准确定位到类似的样本上。跟以前笨笨的魔镜不同,回答不上“谁是世界上最 xx 的人”,大模型总是能说出你想听的话,让人总有一丝顾虑:长此以往,镜子中的自己到底是真实的自己,还是 AI 猜到的我想让 AI 让我看到的自己 🤷。
AI 的突飞猛进,还带了另外一个影响,让我们更加深刻地反思人类到底擅长什么。曾经让我们引以为傲的创意能力,在生成式 AI 面前竟然如小巫见大巫,这对人类的自恋是一次不小的冲击。在冲击之余,我们会开始放下一些骄傲,多一些哲学层面甚至存在意义的思考。智能是什么?意识是什么?创造是什么?人的价值感从而而来又将去向何处?……AI 就像一面(照妖)镜子,让我们又一次看向镜中的自己,思考眼前所见,和那些不见踪迹但始终萦绕在这个物种意识深处的存在危机。
除了 Github 之外,能否介绍一个您觉得特别值得大家去订阅或者加入的 AI 领域的网站、媒体或其他信息源?
AI 领域的信息源太多了,我推荐三个还不错的吧。
- A16z:https://a16z.com/ai/ ,A16z(Andreessen Horowitz) 是一家风险投资公司,它对 AI 领域有不少深度洞察,如果想获得国外的前沿深度报道,可以关注。
- 奇思:https://news.miracleplus.com/feeds,奇思是奇绩创坛的社区,大模型日报会汇集每天 AI 领域的最新动态,涵盖面广、时效性强,值得追踪。
- Stable Diffusion 教程: https://stable-diffusion-art.com/ 有非常全面而且详尽的 Stable Diffusion 教程,想学习 AI 绘画的话不要错过。
能否介绍一些您个人使用 AI 工具的小技巧或者心得体会?
最近我研究 Stable Diffusion AI 绘画比较多,相比 Midjourney,它的功能确实更加丰富和灵活,但代价是入门曲线比较陡峭,操作界面实在称不上友好。不过如果能顺利通过入门阶段,Stable Diffusion 确实是一个强大的创作工具。
我举一个提示词的例子。很多人在刚接触 AI 绘画时,都觉得凭空写提示词很难,因为我们在日常生活和工作中,很少这样去想象和用英文描述画面。总结起来,这些障碍包括:
- 脑海中没有明确的画面,不知道从何入手
- 不知道哪些提示词是有用的、必要的
- 容易遗漏重要提示词
- 需要输入英文提示词,但自己的英语词汇量有限
- 当出图不符合预期时,不知道怎样调整提示词
针对这些难点,我花了很多时间去学习、试错、总结经验,现在慢慢都沉淀到我的 AI 绘画课程中,后续会在我的公众号「设计极客 00」中发布,这里先简单介绍三个 Stable Diffusion 插件,能大大提高写提示词的效率。
Prompt all in one
安装 Prompt all in one 之前和之后绝对是两种不同的使用体验。
在扩展页面搜索并安装成功后重启 WebUI,可以看到提示词输入框下方出现了一排新的按钮。选择语言为简体中文以后,就可以开始在右侧的小输入框中输入中文,回车后内容填入到上方提示词输入框内,等待一两秒,插件会自动翻译成英文。冥思苦想还要查字典写提示词的日子,就这样结束了!你甚至可以设置 ChatGPT 的 API,只输入几个词然后让 GPT 帮你补全。
另一个特别好用的工具是对照翻译。有时候我们在网上看到一些效果非常好的提示词,一大段陌生词汇着实让人头疼。有了 prompt all in one,你可以复制到提示词输入框,一键翻译所有提示词,就可以看到每个提示词对应的中文翻译了,还可以生成图像看看到底是什么效果。ps.这可是学习优质提示词的好方法。
Boorutag autocompletion
虽然有了自动翻译工具,但有时候我们还是会想直接写英文提示词,尤其是常用词和缩写,比如 masterpiece 和 NSFW,一不小心就会拼写错误。这时候自动补全功能就非常有用了。安装了 Boorutag 插件后,在输入框开始输入文字,就会有一个浮层显示最常见的相关提示词,选择后按 tab 键,完整的提示词就会自动补全,不再需要每一个字母都输完并且反复检查。
Style editor
每次打开 WebUI 需要从头开始输入提示词,特别是一些负向提示词,如果都要重新打一遍真的很烦人。当我们使用了一组效果不错的提示词,可以保存为模板下次使用,尤其是高频使用的词组最好能快速加载。另外,当你保存的模板多了,有时候可能需要删除掉某些模板,或者要做些修改,怎么办呢?提示词模板的文件存放在根目录的 style.csv 文件夹中,打开是可以编辑的,不过使用起来还是比较麻烦。Style editor 插件可以帮到你。
安装后重启 WebUI,可以看到 WebUI 顶部多了一个标签,打开标签可以看到一个列表,正是风格模板列表中的提示词模板,在这个列表中你可以直接修改提示词!也可以新增和右键选中后按 Del 键删除,真的是非常方便了。高级的玩家一般会按风格建几个常用模板,比如动漫、写真、商品图等等。这个插件绝对是高手路上的必备神器。
除了提示词,Stable Diffusion 的学习还会有很多难点,比如参数组合、精确控制、高清放大等等,在我即将推出的 AI 绘画课程中,会有更多更详细的教程和技巧,感兴趣的朋友可以关注公众号「零反思」。让我们一起迎接新的创作时代吧!