小有小的用处:大模型传播生态下的小模型
——概念定义、技术构造与价值角色
喻国明 金丽萍 卞中明
[本文提要]大模型在发展中面临着算力极限、数据私属、算法深化、风险治理之困,小模型因其轻参数、低成本、方便运行等特点,为解决大模型之困提供可行路径。针对在大模型生态下扮演的角色而言,场景模型自我收缩智能化处理问题,实现专业化程度的加深、加细、加密与加厚;私域模型基于私有链单边留存数据,联盟链打破数据孤岛,在保障数据安全下实现共享协作;边缘模型作为一种接力传导,实现了对中心计算的算力延伸与存储扩展。大小协同将构建“大模型-小模型-用户”的多级传播形态:一方面,小模型从点、线、面缓解大模型由价值偏态与信息供给窄化造成的信息茧房。另一方面,当大模型、小模型与人共处于一个互动系统时,个人认知、情感与价值通过小模型这一中介反哺微调大模型。一句话,生成式AI生态下价值的最终实现取决于底座通用大模型与各种不同角色小模型之间的融合与协同。
[关键词]生成式AI 大模型生态 小模型 多级传播
《人有人的用处:控制论与社会》是美国数学家、控制论的创始人N·维纳系统阐述控制论的最重要的著述。它围绕着语言、学习、有机体、法律、通讯、社会政策和知识分子的作用、工业革命的历史以及通讯机器等各个方面,讨论了人在控制论系统中所具有的决定性意义。维纳于1948年出版了《控制论》一书,与其说它给社会带来了巨大的影响,还不如说是一场巨大的冲击。从控制论出发,在机电工程中形成了大量的自动机器、自控装置、自动生产线以及弈棋机、机器人和电脑等;在哲学领域中人们在谈论着信息的本质,物质、能量、信息的关系问题,认识活动过程中反馈的作用,人的大脑活动的机制,能不能设计一个人工的大脑的问题,机器人是否能超过人、控制人的问题;在社会领域中,人们在探讨社会系统的自动控制的问题。似乎人应当是社会自动化管理机器上的一个被控制的零件。总之,控制论的出现几乎完全更新了人们的传统观念,而这里受到影响最大的就是“人”这个概念。为了认真回答控制论所引发的这些问题,维纳在控制论发表两年以后出版了《人有人的用处》(丁冬红,1996:1643)。
以ChatGPT为代表的生成式AI的大模型给予世人的冲击与震撼是深刻、广谱和巨大的,本质上是当年控制论的实践落地版,即将写在人类未来实践的大地上。有研究者对于大模型生态下的传播领域有一种深刻的隐忧:随着大模型强大且无所不知、无所不及的知识生成能力,人类对于它的应用与依赖将越来越严重,这种状况将会极大地压缩和减少人类个体多极化传播的生态,无数用户与大模型“一对一”的交流与依赖甚至可能成为人们对外交流的压倒一切的交往对象和交往形式,人类赖以平衡认知的多样化传播生态会变得单一化,甚至被大模型几乎独占式地主宰。我们的研究表明,人类多极化传播的生态不会被改变,只是这种多极化传播“极”不是由一个个的传统媒体构成,而是同样作为算法媒介,但又以轻便、灵活和极其丰富的形式居间于人与大模型之间的“最后一公里”的价值助推者的“小模型”。
一、大模型之“惑”
大模型(Large Model)是指具有巨量参数与复杂结构的机器学习基础模型(Foundation Model),狭义指向大语言模型(Large Language Model),广义上还包括机器视觉大模型,科学计算机大模型、多模态大模型等(Zhao et al.,2023)。大模型之“大”在于其至少由十亿级别参数的神经网络组成,在海量数据上使用自监督或半监督学习进行训练,具有大规模(参数量大)、涌现性(产生预料之外的新能力)以及通用性(不局限于特定领域与问题)等特点(刘学博等,2023)。然而,大模型在发展中面临算力极限、数据私属、算法深化以及风险治理方面的一系列问题与困顿。
(一)算力极限之困
大模型作为“大数据+大算力+强算法”的产物(刘安平,金昕,胡国强,2023),反过来也受到数据、算力、算法之大的掣肘。就算力而言,大模型目前面临着算力极限之困。摩尔定律 ( Moore' s Law) 指出,同样面积的电脑芯片上集成的晶体管数量每隔18个月会增加一倍同时芯片的处理速度和处理能力将提升一倍而成本会降低一半(逄健,刘佳,2015)。OpenAI 2018年发表的研究成果表明,训练AI所耗费的算力自2012年至2018年之间增长了30万倍(虞祝豪,徐昊,2023)。其训练所需算力增长速度远超摩尔定律。并且随着摩尔定律趋于饱和,大模型的算力也无限逼近极限。
同时,大算力对应着高电力与高能耗的大成本。以GPT-3为例,训练时需要10000张V100 GPU持续运行约14.8天,整体算力消耗为625 PFlops(雷波,2023),耗电1.287吉瓦时,相当于120个美国家庭1年的用电量。而这仅是训练前期所需电力,只占模型实际使用时所消耗电力的40%(吴天一,2023)。因此,如何实现大模型训练与使用过程中算力与能耗之间的有效平衡,成为未来大模型可持续化与绿色化发展需解决的困顿之一。
(二)数据私属之困
数据私属亦是掣肘大模型发展的关键性问题之一。一方面,大模型的预训练、运算和运行基于互联网庞大的公域数据,且训练过程必须通过对网络操作系统、分布式计算引擎、网络设备、交换机、计算架构等全栈内容的整体优化来实现。目前只有在“云”的支撑下,才能完成数据中心级的重构(21世纪经济报道,2023)。而上传、运输、存储云端的部署方式加剧了数据隐私泄露的风险。于个人而言,大模型对数据的大量收集,模糊了个人数据的边界,并通过深度分析可以挖掘出潜藏的隐私信息(刘艳红,2023)。因此,大模型对个人隐私数据的利用存在着深度与广度上的风险。此外,大模型在应用国家数据、政务数据、军事数据时同样存在着巨大的管理风险,在调用商业信息时涉及侵权、商业泄密等问题。
另一方面,数据的内容、体量和质量一定程度上决定了大模型的能力。目前大模型赖以训练的公域数据随着模型参数量的扩大将不断饱和逼近上限,若想进一步优化模型,需要扩大对于私域数据的抓取。但数据私属背后是数据开放的有限性,尤其是多模态数据的版权私属和行业私域化严重桎梏了大模型发展。例如国内三分之二高质量图片版权归属于视觉中国,长短视频主要由抖音等平台方运营,这些高质量多模态数据尚未形成多模态数据集或不对外开放(杜晓明等,2023)。未来,如何妥善地处理由数据私属所引发的风险问题将成为衡量大模型安全性和发展前景的重要指标之一。
(三)算法深化之困
除了算力与数据方面的痛点,算法难以深化之困使得大模型通用泛化却精深度不足,即“通才”大模型无法“术业有专攻”,难以深入应对细分场景、解决行业性垂类问题、满足更为个性化的高品质需求。由于其训练数据来源于互联网等公域,具有数量大、噪声大且弱关联等特点,尤其针对行业、专业领域的知识源构造比较缺乏,数据集的内容多样性与质量存在进一步提升空间,导致以ChatGPT为代表的大语言模型,常常被用户称为“中庸回答者”。模型虽然能够解决一般性、通用性问题,但是在涉及一些专业领域或者具体情境的问题时无法深入。另外,除大模型训练数据难以覆盖所有领域和场景以外,模型本身也缺乏足够的知识存储和推理能力来处理复杂的问题(严昊等,2023)。这种疏于垂直化、行业化、专业化知识的通用大模型好比是一个宽泛的知识基石,垂直领域专业知识和对复杂事物的长链条处理能力的双重缺乏,使其无法深化算法以应对具体场景中的复杂任务。
(四)风险治理之困
大模型可能带来行业垄断风险,其极高的准入门槛极大地加剧了传播市场的马太效应,是模型治理中的痛点之一。具体而言,大模型之高门槛集中体现在成本壁垒与技术壁垒两方面:成本壁垒是指个体乃至中小型研究机构与商业公司已经无法负担大模型开发的成本(郁建兴,刘宇轩,吴超,2023a),技术壁垒则意味着开发和拥有大模型的技术门槛越来越高(郁建兴,刘宇轩,吴超,2023b),尤其是以谷歌、微软等为代表的美国科技巨头垄断市场,形成以美国方案为主的大模型技术。目前,已发布的大部分大模型技术,都是基于谷歌的Transform技术构架,谷歌已对其进行专利保护。市场的可竞争性是确保效率的重要条件。而大模型成本与技术上的双重壁垒树立起“围墙”,将资本实力有限的诸多企业隔绝于围墙之外。压缩市场可竞争性,加剧行业马太效应,将会带来行业“寡头独占”式的垄断风险。
此外,大模型简化传播模式易造成信息茧房效应,威胁公共利益与民主治理。一方面,大模型“人机交互”的传播形式压缩甚至消除过去需要与不同信源进行交互以构建结构性社会认知的多元传播模式(林升梁,叶立,2019a)。个人与个人、个人与群体、个人与阶层社会之间不再有较为平衡的信息来源,难以进行相应认知的多种社会参照。另一方面,技术黑箱之下,大模型再现与生产部分社会偏见,成为部分片面化、极端化价值观念的“传声筒”和“放大器”(于水,范德志,2023)。因此,大模型所带来的信息来源的窄化与价值偏态,让个体被囊括于“巨无霸”大模型的单一机制下,大模型的价值选择和内容偏好长期涵化作用于人的认知架构,会带来真正意义上的信息茧房效应,从而造成社会认知与判断的偏态,对公共利益与民主治理造成巨大的威胁。
二、小模型入局:走出大模型之困的解决方案
针对大模型所面临的算力极限之困、数据私属之困以及算法深化之困,OpenAI 首席执行官山姆·阿尔特曼(Sam Altman)在谈及大模型发展趋势时指出:“我们正处于巨大模型时代的终结,模型将以其他方式变得更好”。“Making large models smaller(大模型变小)”成为大模型技术研究热点,目前有四类主流的针对大模型瘦身的技术:(1)剪枝(Pruning),即通过渐进式结构性移除或修剪神经网络架构中的某些组件或元素,从而在降低大模型计算要求的同时使其更加高效、紧凑(Chen et al.2023);(2)知识蒸馏(Knowledge Distillation),通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度(Wang et al.2021);(3)量化(Quantization),通过减少数字表示的位数来减少大模型存储量和计算量;(4)低秩分解(Low-Rank Factorization),旨在将给定的权重矩阵分解成两个或多个较小维度的矩阵,以减少参数量来节约计算资源(Ding et al.2023)。
Zhong等人(2022)基于粗细粒度联合剪枝和逐层蒸馏的算法在保留大模型原有优势的同时,以更小的模型结构实现了在应用中提升下游任务的准确度和处理速度。此外,隐私计算联邦学习开源平台FATE (Federated AI Technology Enabler)发布联邦大模型FATE-LLM功能模块实现小模型联动大模型的方式协同合作。因此,按技术演进逻辑而言,大模型未来的进展不会是更大,而是朝着参数更小的方向发展并出现多个小模型协作大模型的工作方式(Chen et al.2023)。
显然,小模型入局是走出大模型发展之困的关键性解决方案。它不仅是在原有技术上的简单融入,同时也将带来大模型生态的结构性改变,包括权力与信任关系的重构、社会组织与规则的重组、传播范式的升维、技术与社会基础的重构(喻国明,2023)。因此,本文不仅关注小模型的概念定义、技术构造,同时追问其在大模型生态下扮演怎样的价值角色?对传媒生态产生怎样的影响?等等。
(一)小模型概念定义
尽管许多学者主要依据模型参数量与所利用训练数据规模来界定与评估何为大语言模型,然而迄今尚未确立一个被广泛认可的临界标准,用以明确定义何时可将某一语言模型称之为“大”和“小”(文森等,2023a)。
本文提出与“大模型”相对的“小模型”,并非指传统参数有限、人工标注的小模型,而是基于通用大模型参数“瘦身”后针对特定场景、私域数据、部署边缘而训练的模型。小模型因其轻参数、低成本、方便运行等特点,为解决大模型算力、算法、数据、治理之困提供可能性路径。模型之价值不在于技术层面数据、算力、算法的“大小”,而在于能否真正为人创造价值(胡泳,2023)。
(二)小模型技术构造与价值角色
针对大模型之困,小模型可扮演不同的角色进行协调补充。在大模型生态的协同网络中,小模型的价值角色可以分为场景、私域、边缘模型。应景而生的场景模型针对通用大模型精深度不足之困,自我收缩智能化任务处理边界,针对特定任务实现专业化程度的加细、加深、加厚与加密;私域模型基于区块链私有链、联盟链技术,分布式协作公域大模型,在保障隐私安全下最大效率激发数据要素;基于端侧的边缘模型从算力计算、存储方面实现对大模型的接力,解决云端中心部署高成本、高延时、高风险之困。值得注意的是,在实际应用中,一个小模型可能是场景、私域、边缘的耦合,因此在大模型生态下,小模型所扮演的价值角色往往一体多面。大、小模型以其各自优势,是相互补充的协同关系而非相互对立的替代关系,价值的最终实现取决于底座通用大模型与各种不同角色小模型之间的融合与协同。
三、小模型的主要类型:技术特点与价值维度
(一)场景模型:从通用到精深,外延缩小内涵深化
针对大模型通用却有失精深之困,应景而生的场景模型在通用大模型的泛化基础上,自我收缩智能化处理问题的边界,从而实现在特定场景中的任务深化。场景作为“包含特定时间、地点、情感等元素,由企业、用户及其他相关主体间的关系、行为所构成的具体画面或特定过程”(江积海,阮文强,2020)。随着“场景五力”——可穿戴设备、大数据、传感器、社交媒体和定位系统的发展,场景本质超越了微观层面信息服务的适配,更在于实现社会全要素意义上智能化社会的构建(喻国明,曲慧,2021)。作为新技术应用的实验室,场景决定了技术该如何使用,具体表现在三方面:一是场景提供数据收集的环境,创造新需求;二是场景提供市场,完善算法、迭代产品;三是场景提供数据,迭代商业模式(王永杰,刘海波,何丽敏,2021)。
1.产业场景模型:深入业务具体场景打通上下游价值链
就产业场景而言,通用大模型的训练数据主要来源于历史场景和市场环境,难以实现分散在产业上中下游的全场景覆盖,训练数据与实际场景的错位导致大模型专业深度、服务精度、迭代速度无法满足应用需求,而小模型基于场景作为收集数据、提供数据的环境(莫祯贞,王建,2018),能够“术业有专攻”,深入具体业务环节,在实际应用中捕捉动态数据,获取特定领域最新的信息快速更新模型知识。降本增效的同时,以更低粒度建立全新联结从而催生新的业务形态。
2.用户场景模型:识别涌现、生成的场景满足流动需求
在用户场景方面,过去针对群体的标准需求、同质满足会转向对高度差异化的个体需求的满足,并从单一场景转向不同时间、空间,生命历程下外部到心域多场景需求的满足(喻国明,滕文强,苏芳,2022)。因此,应对与固有经验、惯习、偏好并不一致的涌现性、生成性场景,小模型能够更为靠近用户需求,实现精准识别,提供用户以低成本、低代价随时随地获取的陪伴式服务,并聚合随着用户行动轨迹与心理变化变得流动的场景,使碎片化的内容和知识以一种结构化、系统化的有序方式服务于用户(喻国明,胥伟岚,2023),从而为低频但日常细节化场景提供适配服务,满足用户更全面、更个性化、更精准的需求(黄小川,2023)。
质言之,虽然通用大模型可能会把所有行业知识学一遍,但其成本、参数之大并不利于实际应用的落地。且场景的多元复杂化意味着通用模型难以深刻而充分地满足细分需求。因此,未来的价值实现逻辑在于基于通用模型进行专业化、垂直化场景小模型的开发,与特定场景无关数据的加入不仅增加训练成本与微调难度,同时也稀释其解决专业问题的能力。使用一个恰当规模的小模型来解决特定场景下的任务,收缩其智能化处理问题的边界,能更深度地把控专业领域、垂直场景的运行规则与操作逻辑,实现专业化程度的加深、加细、加厚与加密。
(二)私域模型:从公域到私域,保障数据安全同时实现信息共享
目前围绕个人信息采集、加工、开发与销售的数据产业链已经成型(王晓丽,严驰,2023)。区块链作为一种底层信息存储和交互技术,依据不同去中心化程度需求可分为公有链、私有链和联盟链三种架构。其中私有链以弱中心为标志,具有私密性强、数据集中的特色,用以解决数据安全问题。而联盟链根据一定规则对联盟内部成员进行访问权限设置,回应信息共享的效率问题(郑荣等,2022)。
针对公域大模型存在的数据安全、隐私风险等问题,私域模型能够基于私有链实现“数据不动模型动,数据可用不可见”的单边留存,为保障数据安全提供可行路径。此外,基于联盟链使大模型与各个小模型在保护各自数据安全与隐私的前提下,打破数据孤岛,共享协作实现数据价值最大化。
1.私有链模型:单边留存保障私域数据安全
数据的安全问题不仅关乎个人隐私,同时也涉及商业、军事等领域对保障信息安全的应用需求。作为大模型与用户之间的中转站,私域模型可以实现数据不动模型动,数据可用不可见的单边留存,即个人隐私、商业信息以及军事数据无需上传云端,直接基于私域进行训练(高悦等,2023)。例如手机端大量的个人信息能够转变为向量数据库,利用私域模型在本地进行部署与训练即可。此外,基于私有链的小模型能够结合哈希函数、非对称加密、数字签名等密码学算法对数据进行处理(郑荣等,2023),实现个人及企业、军事等特定机构对于数据的确权。即数据的写入权与读取权都限制在参与者手中,参与者可以决定私域数据是封闭还是对外开放,以及对开放程度进行任意限制。
2.联盟链模型:多元主体信息共享提高运作效率
联盟链架构解决多元主体信息共享的效率问题。基于半开放式的联盟链,小模型与大模型之间能够彼此验证与协作,在保障数据安全下提高运作效率,充分释放数据要素潜力。联盟链基于多点验证和分布式数据库,从多个环节有效监督机会共享提升数据共享效率,其去中心化特征无需中介传递者和中心控制,降低了数据垄断的可能(孙国强,谢雨菲,2023)。此外,区块链对信息的不可篡改与可追溯性,保障大模型与小模型之间的信息共享的安全性与可靠性。以医疗领域应用场景为例,Roehrs等人(2019)基于区块链提出了一种分布式和可互操作的模型,使得患者能够收集并管理其健康数据的同时,允许被许可的医疗保健提供者访问此类数据。
质言之,大模型生态下的私域模型能够解决数据安全与效率问题。一方面个人或特定机构将数据存于私域模型,有权选择何种程度的上传与共享,这为数据提供安全保障。另一方面私有链中大量信息没有必要全部存于联盟链,大模型在特定任务下调用私域模型中的关键信息即可,从而在保障安全、信息共享的同时实现效率最大化。
(三)边缘模型:从中心到边缘,扩展计算能力与外部存储
目前大模型主要部署在云端,任务处理需要终端接收信号、云端运算、信息运输、终端发送结果,在此过程中出现数据端影响传输速度,网络延时问题,且存在数据泄露风险。边缘计算(Edge computing)是相对云计算而言,收集并分析数据的行为发生在靠近数据生成的本地设备和网络中,能够将云资源(例如计算能力和存储能力)部署到边缘,从而提供强大而高效的计算、存储、能效、移动性、位置以及上下文感知支持(林威龙,2022)。边缘模型即相对于云端部署与中心计算而言,部署和计算直接发生在设备本地或离用户距离较近的模型。
1.计算扩展模型:端侧计算盘活边缘资源
在计算能力方面,基于边缘模型能够支持各种需要超低时延的创新应用和服务(王晓飞,2020)。特定任务无需传回云端直接在边缘本地进行处理,减少由于大量数据传输、计算和存储产生的功耗与延时。此外,边缘模型由服务端生成,可直接在客户端运行,对算法硬件只有临时性需求,一旦生成即可直接在终端运行。作为大模型可扩展性算力,基于端侧能够盘活日益增多的计算资源,提高计算效率的同时提供更好的用户体验。具体表现为在手机、智能家居、机器人等终端应用上内嵌部署边缘模型,实现不联网也能在设备上进行交互式程序应用。
2.记忆存储模型:外部存储缓解中心过载
在记忆存储方面,由于大模型信息编码参数巨大,神经网络也变得特别臃肿,随着参数数量增长远超CPU内存的扩展,出现中心过载、运行缓慢等问题。此外,在实际训练过程中大模型采用高效的压缩编码方式并非无损压缩,在此过程之中必然带来熵减和信息损失(Ding et al.2023)。这意味着大模型需要外部扩展进行内存管理与记忆效率提升。基于边缘计算的小模型可以充当大模型外部存储的角色,本地化数据存储不仅提高记忆效率,降低网络宽带成本,同时也增强数据隐私与安全性,大模型能够随时调用外部存储信息,以灵活、可扩展的方够解决中心过载的问题。
因此,相对于部署在云端的大模型,需要将数据运输至中心处理,在此过程可能出现网络拥挤、网络延时及数据泄露问题,边缘模型在数据产生的地方进行任务处理具有低成本、低时延和低风险的优势。相对于提供中心和基础功用而言,边缘模型可以作为大模型的计算接力与外部存储补充。
四、大小模型协同,构建全新的大模型生态下的“多级传播”
因此,场景模型针对通用问题下特定任务的聚焦,解决专业任务的加细加厚问题,私域模型解决隐私安全下数据共享效率最大化问题,而边缘模型则是对中心计算的算力延伸与存储扩展。在实际应用中,一个小模型可能是场景、私域、边缘的耦合。因此在大模型生态下,小模型所扮演的价值角色往往一体多面。换言之,小模型外显何种角色并不重要,其本质都是用以解决大模型最终价值实现的中介工具,大小模型并非替代而是互补协同关系,对于传播生态而言,大小模型协同将构建全新的大模型生态下的多级传播。作为在用户与大模型之间的价值桥梁,小模型就是未来传播媒介所扮演的角色。
(一)自上而下:多级传播缓解大模型生态下的茧房效应
多级传播理论指出媒介在传递信息的过程中存在多种方式和途径,以及多种中介因素构成信息的传播链(江成,刘室辰,2020),个体可通过不同的关系和方式介入这个信息传播的多级流程(李京燕,2020)。互联网的到来,一方面将传统媒体时代相对泾渭分明的传播类型共同交汇于社交媒体平台,在混合式的传播中延长也缩短传播的层级;另一方面,去中心化的分布式网络架构加剧了社交媒体中弱连接的弥漫,媒介化进程加速所带来的虚实混融使线下强连接向线上迁移,强弱交织中,传播网络在扩大,传播层级得以延伸。
然而大模型“一对多”的人机对话形式,将大众传播、群体传播压缩在人际传播与人内传播框架之中(林升梁,叶立,2019b),技术黑箱之下,大模型再现与生产部分社会偏见,成为部分片面化、极端化价值观念的“传声筒”和“放大器”。大模型所带来的传播层级压缩与价值偏态,构建了另一重维度上的“信息茧房”。因此,如何在大模型与用户之间建立起增加信源多样性的缓冲地带成为构建良好的传播生态的关键要义。小模型作为人与大模型之间的中介为“破茧”提供点、线、面三条可行性路径。
1.点:扩大数据来源,优化模型算法以赋能多样性
大模型的信息输出能力主要来源于数据的输入与算法模型的训练,数据来源有限和算法模型单一与隐含的偏见均可带来用户认知与价值上的“信息茧房”:一方面,大模型收集的往往是声量较大的数据集,小声量数据或被边缘化(张文祥,沈天健,孙熙遥,2023),片面数据类型难以形成对事物全面、严谨和周到的认知与判断。另一方面,大模型基于预训练使用的偏好数据与强化学习技术实现了对人类认知机制的深度模拟(喻国明,苏健威,2023),能对标人类价值偏好,生成个性化内容,加强信息偏食行为。
小模型作为新传播节点进入大模型生态系统,以丰富垂直的私域数据或行业数据扩充大模型数据来源和数据类型,以差异性和多样化算法弥补大模型算法的单一性,助力学习和知识的“破茧”。
数据维度上,场景小模型深入行业场景和用户需求,捕获大模型缺失的行业垂直数据和个性化数据,私域小模型获取私域数据,边缘模型则聚焦边端数据供给侧,小模型的介入在人与大模型的交互中构建了一个复杂系统,不同类型的小模型涉及多种数据来源和数据类型,意味着反馈机制和渠道的升级。
算法模型上,小模型赋能大模型更加丰富的多样性和可能性,从而刺破信息茧房。人与大模型的交互中,正反馈的过度使用是导致信息茧房的关键因素(Piao et al.2023)。小模型基于不同的算法逻辑,作为“负反馈”调整与优化模型,增加多样性,使单行下的传播生态系统从茧房状态过渡到多样化状态。无论是英国《卫报》的“刺破你的泡泡”还是《华尔街日报》的“红推送,蓝推送”,均通过校正算法模型,提升多样性,增加负反馈来实现“破茧”。
2.线:增加“信息偶遇”,嵌入社会关系以实现其价值扩张
缓解“信息茧房”,需要优化信息结构以实现用户信息接触的平衡。桑达·埃尔德雷斯认为“信息偶遇”是“在未预期情境中,个体意外获得有兴趣或可用以解决问题的信息的现象”,“信息偶遇”行为以尽可能增加能够实现用户信息获取内容、观点、质量和类型等方面的多样化、平衡化的方式(赵云泽,薛婷予,2020),实现开放、强弱连接交织的社交媒体语境和依靠超链接的信息组织方式共同决定了互联网传播环境更易生发“信息偶遇”,因此引入小模型创建出适宜“信息偶遇”的媒介环境是“破茧”的一种可行路径。
具体而言,大模型基于历时数据的生成与理解往往预设了用户需求是可预测且固定连贯的,然而场景、私域、边缘模型能够应对涌现生成的与固有惯习、偏好并不一致的需求。换言之,小模型构建“信息偶遇”实则是关注到个体信息需求凝固之外的“流动”,用户需求与偏好会随着时空转变而改变(彭兰,2020),小模型可及时预测甚至促成用户需求的流转或扩张。大小协同能够让偶发性与惯习性需求都得到感知与回应。
此外,面向个体的私域模型会嵌入更多社会关系的考量。信息作为社会资本的一种,个体的社会关系网络亦是信息网络。一方面社会关系网络的建构和维系机制中蕴含着信息传播或互动的逻辑。另一方面个体的社会关系网络状态决定其信息获取、互动和利用的模式(张明新,2012)。小模型突破大模型预训练时公域数据的束缚,深入私域数据,是对个体细颗粒度的描摹、认知与理解,社会关系网络维度成为构建小模型的重要指标。同时,小模型作为“非人类行动者”,本身也构成了用户社交网络中的一环,拓展用户社会网络,构成“多个小模型-多个用户”的海星式传播。
3.面:大小模型协同,能够完善信息来源的多样性和传播的系统性以减少结构性偏差
大小模型的协同生态下,传播模式不再是“大模型-用户”式的线性单层传播,而是“大模型-丰富多彩小模型-用户”式的非线性多层级传播,就整个社会信息传播系统而言,是对大模型主导下的单向度闭合信息系统的有利纠偏。
一方面,小模型拓展社会信息渠道。控制论指出一个闭合系统,总是存在熵增加的趋势(丁剑豪,1994)。小模型变革了大模型主导下信息系统中的单一渠道模式,同时与大模型协同形成综合性的多层级的信息系统,以适配不同信息需求,并以较低的成本,建立畅通的信息反馈渠道,优化信息系统结构增进负熵。
另一方面,小模型实时更新人类知识成果。当前大模型多基于封闭世界假设系统在预先收集的语料上进行训练。而个体所处真实世界是复杂多变的新的知识不断涌现旧的知识不断更新(Bai et al.2022)。人类 70% 的知识是在不断实践和交流中获取和更新的(Liu, 2020)。低成本、结构灵活的小模型所承担的恰恰是补充与更新这70%的知识的角色,从而对大模型进行系统修正,使整个社会信息系统生成准确内容的能力持续性提升,完善社会信息系统减少偏差性。
因此,小模型从点、线、面三条路径入手:以算法模型为“点”,扩大模型数据来源的多样性,优化算法模型赋予多样性;以社会关系为“线”,增加“信息偶遇”,嵌入个人的社会关系实现扩张性;以信息系统为“面”,大小模型协同互构完善社会信息供给结构,以减少信息系统的偏差,为破茧提供可能性路径。
(二)自下而上:小模型作为认知、情感与价值中转站反哺微调大模型
由于小模型成本不高,运行简单,未来在大模型底座上可以建立各种各样丰富的小模型。个体拥有不同场景、任务下的小模型,从学习、消费到生活全面覆盖。技术在社会扩散过程中,将在与人的链接、社会的相互构建中演化(刘瑞生,韩博,2023)。弱人工智能最多只能模仿人类的逻辑认知过程,而强人工智能则需要具备思考、情感、价值意识等能力(Searle1980)。随着人与小模型实现更细粒度的连接,人的认知、情感与价值将先与小模型互构互建,进而通过小模型中介反哺与微调于大模型,从而实现大模型的纠偏与演进。
1.模拟认知:从快思考到慢思维提升准确性与可信度
丹尼尔·卡内曼(2011/2012:5)在《思考,快与慢》中将人类认知系统分成系统一“快思考”(反应快但易出错)和系统二“慢思考”(反应慢但更理性准确)。理解、生成、逻辑和记忆是诸多大模型公司提出的大模型四大核心能力,然而大模型在实际应用中“逻辑”和“记忆”能力稍显不足。大模型的“理解生成”过程属于类似一种无意识的“快思考”。快速思维作为一种自动、不费力的思维模式,很容易出现错误和偏见。例如大模型在应用过程中出现与现实世界信息相矛盾或无法进行验证的事实性幻觉,以及生成内容与用户指令、上下文不一致的忠实性幻觉(Huang et al.2023)。
针对大模型幻觉病理,小模型一方面针对特定场景、私域数据、边缘任务进行训练与微调,能够减少对先验知识的依赖随时修改输出,促进模型对于具体任务、上下文的感知,以应对反直觉、反经验,与固有惯习、偏好并不一致的生成式内容产出,进而匹配涌现性与生成性的各种场景任务;另一方面,人类的思考过程是快思维和慢思维的模式混合,快思考能够快速处理问题,同时需要慢思维的辅助提高准确性与可靠度。大模型被视为一种能够执行“快速思维”操作的系统,不能缺少小模型作为监督思维过程中的“慢思维”组件。小模型通过可塑性和可扩展性更强的边缘计算架构,实现更为丰富地模拟人脑神经可塑性和高效的记忆调用能力,并在对世事的认知与外部世界相互作用中实现闭环反馈,促进“推理”、“记忆”慢思维的培养,特定领域“专业知识图谱”的生成能够作为外部存储丰富大模型的“通用知识图谱”(卢小宾等,2023)。
因此,小模型作为“慢思维”组件提升大模型在执行“快思考”操作时的准确率与可靠度,在人人都将直接或间接地成为提示语工程师的未来(Clark, 2023),以人的认知思维为参照,通过多样化的信息载体与交互方式,小模型深度思考、存储记忆能够形成对大模型“逻辑”“记忆”能力的补充(白云等,2023)。大模型、小模型在与人的认知互构互建中,推动整个信息环境中知识传递与共享、认知流动与扩散。
2.情感交互:多模态、端侧交互提升情感计算的深度与精度
情感计算理论由皮卡德(Rosalind W.Picard)提出,随之而来的是科技界在人工心理、仿脑计算、情感神经学、情感脑机接口等情感智能研究领域长期纵深的发展,其主要原理在于通过计算建模的方法感知、识别、理解人的情感,并针对人的情感构建敏锐、自然的反应系统(刘光远等,2014)。情感计算是实现自然化、拟人化、人格化人机交互的基础性技术和重要前提。
目前大模型能够在人机对话中通过大规模数据标记和深度学习来进行情感识别、分类,并基于已有情感信息进行情感建模和推理。然而,人类的情感并非大脑的孤立计算,而是大脑、身体(五感)与环境交互的产物,需要通过语言、听觉、视觉、触觉等多模态信息进行综合理解(李耕等,2023)。基于通用情感分类标准、单一模态的情感识别难以实现真正的理解与触达,且大模型“一对多”的不对称情感交互存在标准化输出、情感欺骗等伦理问题(胡盛澜,2023)。
小模型一方面结合多模态技术聚合场景有望能够从声音、面部表情、身体语言等多种形式全面捕捉用户的情感状态,并使用情感记忆单元来存储和更新对话中的情感信息,根据上下文生成合适的情感回应(颜志强,苏金龙,苏彦捷,2019);另一方面,基于端侧与环境产生交互后,小模型能够捕捉复杂多维的情感,涉及身体感受、情绪体验、意识和社会背景等方面(Asada,2015)。目前已有研究利用心理学知识对大语言模型进行情绪提示(Emotion Prompt),发现情绪提示可以提高大语言模型文本输出的真实性和信息量(Elyoseph,Zohar et al.,2023),基于大语言模型的聊天机器人更乐于回应积极情感提示。未来基于场景、私域、边缘模型与人的深度交互,人可以对小模型进行更为个性化的“情绪提示”,以此推进模型情感计算的深度与精度。
3.价值纠偏:人通过涵化小模型实现对大模型价值的微调
在价值纠偏方面,ChatGPT等大模型存在价值偏见的伦理隐忧始终是悬而未决的问题。在技术黑箱之下,基于公域数据训练的大模型无法平衡创造力与约束力,他们要么过度生成,产生真相和谎言同时支持道德和不道德的决定,要么生成不足,表现出对任何决定的不承诺和对后果的漠不关心(文森等,2023b)。小模型能够更为便利地实现价值涵化与微调,在人机互动中无限贴近用户的思维习惯与价值观念,进而对大模型的价值观进行反向微调。
目前对于模型价值纠偏有两种可操作路径,其一是有监督的微调,即将含有特定价值的数据包输入模型,自行进行标注,通过这些格式化的指令数据,以监督学习的方式对模型进行微调。其二是人类反馈的强化学习算法,通过利用人类标注、答案重排序等技术构造符合人类偏好的数据训练一个奖励模型,由奖励模型提供指导信号,这些信号反映了人类对大模型生成的文本的偏好,通常以标量值的形式出现(Christiano et al.,2017)。
由于大模型参数巨大,直接对其进行有监督微调、人类反馈的强化学习算法难度是比较大的,而参数更小的模型更容易以轻量、便利的方式,低成本地进行有监督微调与奖惩反馈。因此,对大模型的价值纠偏,不再是将人的价值直接作用于大模型,而是增加小模型作为中转站,先对小模型进行监督与涵化,再借助小模型中介反哺微调,实现价值的纠偏与演进。
五、“小有小的用处”:模型的价值在于在为人创造价值的链条中扮演关键性角色
大模型在发展中面临着算力极限、数据私属、算法深化之困,其演进逻辑不会是变得更大,而是分化为各类小模型,构建大小协同发展的生态。针对在大模型生态下扮演的角色而言,场景模型自我收缩智能化处理问题,实现专业化程度的加深、加细与加密;私域模型基于私有链单边留存,联盟链打破数据孤岛,保障隐私安全下实现共享协作;边缘模型作为一种接力传导,能够对云端分流,减缓中心运行压力。
大小模型的协同将构建出全新的大模型生态下的“多级传播”,在自下而上的路径中,小模型以算法模型为“点”,扩大模型数据来源的多样性,优化算法模型赋予多样性;以社会关系为“线”,增加“信息偶遇”,嵌入个人社会关系增加扩张性;以信息系统为“面”,大小协同完善社会信息供给结构,为“破茧”提供可行路径。
在自下而上的路径中,当大模型、小模型、人共处于一个互动系统时,个人利用小模型这一中介微调反哺大模型,从认知系统层面弥补大模型当下由“快思考”带来的“幻觉”问题,提升逻辑、记忆的慢思考能力;在情感层面,多模态与端侧感知提高情感计算的深度与精度;在价值层面,以更为便利的有监督微调、人类反馈的强化学习算法实现对大模型价值的纠偏。
耦合最初是在物理学中指多个电路元件或网络通过相互影响、相互作用形成关联的过程(张正荣,肖文丽,2020)。当大模型、小模型、人共处于一个互动系统时,三者之间的价值相互影响与决定,这种依赖关系既是直接的,也是间接的。一方面,个体为了更好地“驯化”小模型,需要不断改变语言方式与思维方式去贴合“小模型”的计算过程和表达逻辑以获得更优体验。另一方面,小模型逐渐被赋予人的意识形态和选择偏好,习得人的认知模式、情感方式以及价值观念。人与小模型在更为便利的交互过程中实现更细粒度认知、情感、价值层面的连接,而作为大模型与人之间的中介,人的认知、情感与价值将通过小模型,反向作用于大模型,从而实现大模型的纠偏与演进。
麦克卢汉(1964/2000:226)指出,一旦新技术进入一种社会环境,它就不会停止在这一环境中的渗透。小模型作为一种新的媒介技术,与大模型构建协同生态,将引起传播生态的改变和传播价值的重构。这启发我们:一方面要把握小模型的内在逻辑机理,在大小模型的协同互构中打通价值实现的最后一公里;另一方面任何新媒介的引入,本质都是传播权力向个体的回归,模型之价值不在于数据、算法、算力之大小,而在于能够为“人”创造真正的价值。大、小模型是协同互补关系而非替代关系,价值的最终实现取决于底座通用大模型与各种不同角色小模型之间的融合与协同——这便是本文的关键性结论。■
参考文献:
21世纪经济报道(2023)。《大模型时代的云计算:云原生、云中立与网络安全同样重要》。检索于https://static.nfapp.southcn.com/
白云,李白杨,毛进,李纲(2023)。从知识困境到认知陷阱:生成式技术驱动型信息生态系统安全问题研究。《信息资源管理学报》,1-9。
丹尼尔·卡尼曼(2012)。《快思考与慢思考》(胡晓姣,李爱民,何梦莹译)。北京:中信出版社。
丁冬红(主编)(1997)。《世界哲学名著博览:人类智慧的光辉历程中》。海口:海南国际新闻出版中心。
丁剑豪(1994)。社会管理与反馈信息结构。《学习与思考》,(02),29-30。
杜晓明,赵晔蕾,张媛玥,李一明(2023)。大模型数据集现状与对电信运营商的启示。《互联网天地》,(09),53-56。
高悦,何旭涛,周颖玉,刘海鸥(2023)。双链区块链赋能突发公共卫生事件信息共享研究。《情报科学》,(02),44-49+68。
胡盛澜(2023)。人工情感智能体的道德赋能问题探析。《自然辩证法研究》,(02),74-80。
胡泳(2023)。超越ChatGPT:大型语言模型的力量与人类交流的困境。《新闻记者》,(08),13-29。
黄小川(2023)。AIGC应用:细分场景是刚需,垂直模型开发是未来。《国际公关》,(20),1。
江成,刘室辰(2020)。谣言网络多级传播路径下关键引爆点识别模型和算法研究。《情报杂志》,(06),152-158。
江积海阮文强(2020)。新零售企业商业模式场景化创新能创造价值倍增吗?《科学学研究》,(2),346-356。
雷波(2023)。大模型时代下新型算力供给体系的几点思考。《通信世界》,(18)30-31。
李耕,王梓烁,何相腾,彭宇新(2023)。从ChatGPT到多模态大模型:现状与未来。《中国科学基金》,(05),724-734。
李京燕(2020)。人物微纪录片的成功之道——以《凌晨四点的南京》为例。《传媒》,(09),62-64。
林升梁,叶立(2019)。人机·交往·重塑:作为“第六媒介”的智能机器人。《新闻与传播研究》,(10),87-104+128。
林威龙(2022)。《基于移动边缘计算的任务卸载和缓存》。北京邮电大学信息与通信工程学院硕士论文。北京。
刘安平,金昕,胡国强(2023)。人工智能大模型综述及金融应用展望。《人工智能》,(02),29-40。
刘光远,温万惠,陈通,赖祥伟(2014)。《人体生理信号的情感计算方法》。北京:科学出版社。
刘倩倩刘圣婴,刘炜(2023)。《图书情报领域大模型的应用模式和数据治理》。检索于http://kns.cnki.net/kcms/detail/31.1108.G2.20231108.0935.002.html.
刘瑞生,韩博(2023)。“嵌入”与“扩散”:ChatGPT的技术特质与传播影响。《出版参考》,(04),5-9。
刘学博,户宝田,陈科海,张民(2023)。大模型关键技术与未来发展方向——从ChatGPT谈起。《中国科学基金》(5)758-766。
刘艳红(2023)。生成式人工智能的三大安全风险及法律规制——以ChatGPT为例。《东方法学》,(04)29-43。
卢小宾,霍帆帆,王壮,霍朝光(2023)。《数智时代的信息分析方法:数据驱动、知识驱动及融合驱动》。检索于http://kns.cnki.net/kcms/detail/11.2746.G2.20230831.0912.002.html.
[加]马歇尔·麦克卢汉(1964)。《理解媒介——论人的延伸》(何道宽译)。北京:商务印书馆。
莫祯贞,王建(2018)。场景:新经济创新发生器。《经济与管理》,(6),51-55。
逄健刘佳 (2015)。摩尔定律发展述评。《科技管理研究 》,(15),46-50。
彭兰(2020)。导致信息茧房的多重因素及“破茧”路径。《新闻界》,(01),30-38+73。
孙国强谢雨菲(2023)。《区块链技术、供应链网络与数据共享:基于演化博弈视角》。检索于https://doi.org/10.16381/j.cnki.issn1003-207x.2022.2727.
王晓飞(2020)。智慧边缘计算:万物互联到万物赋能的桥梁。《人民论坛》,(09),6-17+77。
王晓丽严驰(2023)。《生成式AI大模型的风险问题与规制进路:以GPT-4为例》。检索于https://doi.org/10.13766/j.bhsk.1008-2204.2023.0535.
王永杰,刘海波,何丽敏(2021)。场景概念的演进及其在科技成果转化中的运用。《科技管理研究》,(15),35-41。
吴天一(2023年3月10日)。吞噬电力的怪兽:人工智能蓬勃发展带来碳危机,碳足迹亟需透明。检索于https://www.thepaper.cn/newsDetail_forward_22197806.
文森,钱力,胡懋地,常志军(2023)。《基于大语言模型的问答技术研究进展综述》。检索于http://kns.cnki.net/kcms/detail/10.1478.G2.20231110.1612.002.html.
谢津,王海英,柯平,刘海鸥(2023)。场景生态视角下的区块链赋能研究。《情报杂志》,(06),110-118。
严昊,刘禹良,金连文,白翔(2023)。类ChatGPT大模型发展、应用和前景。《中国图象图形学报》,(09),2749-2762。
颜志强,苏金龙,苏彦捷(2019)。从人类共情走向智能体共情。《心理科学》,(02),299-306。
于水,范德志(2023)。新一代人工智能(ChatGPT)的主要特征、社会风险及其治理路径。《大连理工大学学报(社会科学版》,(05),28-34。
虞祝豪,徐昊(2023)。算力“基石”助力AIGC崛起。《上海信息化》,(05)44-48。
郁建兴,刘宇轩,吴超(2023)。人工智能大模型的变革与治理。《中国行政管理》,(04),6-13。
喻国明(2023)。ChatGPT浪潮下的传播革命与媒介生态重构。《探索与争鸣》,(03),9-12。
喻国明,曲慧(2021)。简论网络新媒体的场景范式。《教育传媒研究》,(04),10-12。
喻国明,苏健威(2023)。生成式人工智能浪潮下的传播革命与媒介生态——从ChatGPT到全面智能化时代的未来。《新疆师范大学学报(哲学社会科学版) 》,(05)81-90。
喻国明,滕文强,苏芳(2022)。“以人为本”:深度媒介化视域下社会治理的逻辑再造。《新闻与写作》,(11),51-60。
喻国明,胥伟岚(2023)。从“点、线、面”看主流媒体传播效能的提升策略。《媒体融合新观察》(01),8-11。
张明新(2012)。社会关系网络中的信息消费与生产:微博用户行为研究。《新闻与传播研究》,(06),85-96+111-112。
张文祥沈天健,孙熙遥.(2023)。从失序到再序:生成式人工智能下的信息秩序变局与治理.。《新闻界》,(10)41-51。
张正荣,肖文丽(2020)。虚实价值链耦合视角下的跨境电商价值创造机制——基于扎根理论的案例分析。《管理案例研究与评论》,(06),715-724。
赵云泽,薛婷予(2020)。社交媒体中的“信息偶遇”行为研究——解决“信息茧房”问题的一种视角。《编辑之友》,(05)38-43。
郑荣,高志豪,魏明珠,王晓宇,陈玉(2022)。基于联盟区块链的产业应急情报协同共享模式研究 —— 以半导体产业应对 “ 四川限电 ” 应急场景为例。《图书情报知识》,(5),67-81。
郑荣,雷亚欣,张默涵,王晓宇,高志豪(2023)。基于联盟区块链的多源个人健康信息协同共享模式研究。《图书情报工作》,(20),79-92。
Asada,M. (2015). Development of artificial empathy. Neuroscience Research, 9041-50.
Bai,Y.Kadavath,S.KunduS.Askell,A.KernionJ.JonesA.Kaplan,J.(2022). Constitutional AI:Harmlessness from AI feedback.Retrieved from https://www.proquest.com/working-papers/constitutional-ai-harmlessness-feedback/docview/2755701368/se-2
ChenC.Feng,X.Zhou,J.YinJ.ZhengX.(2023). Federated large language model: A position paper. Retrieved from https://www.proquest.com/working-papers/federated-large-language-model-position-paper/docview/2839572558/se-2
ChenT.Ding,T.YadavB.ZharkovI.LiangL.(2023). LoRAShear: Efficient large language model structured pruning and knowledge recovery. Retrieved from https://www.proquest.com/working-papers/lorashear-efficient-large-language-model/docview/2884927048/se-2
ChristianoP.LeikeJ.BrownT.B.Martic,M.Legg,S.Amodei,D.(2023). Deep reinforcement learning from human preferences. Retrieved from https://www.proquest.com/working-papers/deep-reinforcement-learning-human-preferences/docview/2076655344/se-2
Clark,P.A.(2023). AI’s rise generates new job title:engineer. Retrieved from https://www.axios.com/2023/02/22/chatgpt-prompt-ai-jobDingT.Chen, T.ZhuH.JiangJ.ZhongY.Zhou, J.LiangL.(2023). The efficiency spectrum of large language models: An algorithmic survey. Retrieved from https://www.proquest.com/working-papers/efficiency-spectrum-large-language-models/docview/2897289545/se-2
Huang, L.Yu,W.Ma,W.ZhongW.Feng,Z.Wang,H.LiuT.(2023). A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. Retrieved from https://www.proquest.com/working-papers/survey-on-hallucination-large-language-models/docview/2888470972/se-2
Liu Bing.(2022). Learning on the job: online lifelong and continual learning.In: Proceedings of the AAAI Conference on Artificial Intelligence, https://aaai.org/ojs/index.php/
PiaoJ.LiuJ.ZhangF.Su,J.LiY.(2023).Human–AI adaptive dynamics drives the emergence of information cocoons.Nature Machine Intelligence, 5(11)1214-1224.
RoehrsA.da CostaC.A.da Rosa RighiR.et al.(2019). Analyzing the performance of a blockchain-based personal health record implementation. Journal of Biomedical Informatics92103-140.
SearleJ.R.(1980). Mindsbrains,and programs. Behavioral and Brain Sciences, 3(3)417.
WangL.Kuk-Jin Yoon.(2021). Knowledge distillation and student-teacher learning for visual intelligence: A review and new outlooks. Retrieved from https://doi.org/10.1109/TPAMIWangL.Kuk-Jin Yoon. (2021). Knowledge distillation and student-teacher learning for visual intelligence: A review and new outlooks. Retrieved from https://doi.org/10.1109/TPAMI.2021.3055564
Zhao W XZhou KLi Jet al. (2023). A survey of large language models. Retrieved from https://www.proquest.com/working-papers/survey-large-language-models/docview/2794390338/se-2
Zhong,Z.TaoL.Chen, D.(2022). Training language models with memory augmentation. Retrieved from https://www.proquest.com/working-papers/training-language-models-with-memory-augmentation/docview/2669770392/se-2
[作者简介]喻国明系北京师范大学新闻传播学院教授、学术委员会主任、传播创新与未来媒体实验平台主任、中国新闻史学会传媒经济与管理专业委员会理事长;金丽萍、卞中明均为北京师范大学新闻传播学院传播创新与未来媒体实验平台研究助理。