新文本间性:生成式人工智能的文本内涵、结构与表征
■周慎
【本文提要】随着生成式人工智能的技术发展与能力增强,文本间生产函数组合方式发生重要变化,引发新文本间性问题。人工智能获得并逐步巩固其作为内容生产者的主体地位,这直接带来由于生产主体不同而生发的“人类生产文本”与“非人类生成文本”之间的文本关系;在“非人类生成文本”的生产流程与机制中,存在提示文本、生成文本与现象文本的文本关系;而根据文本性质与生成功能的不同,在“生成文本”中存在“基础文本”与“对齐文本”,在“现象文本”中存在“机械文本”、“共创文本”与“再训练文本”的文本关系。廓清生成式人工智能的文本内涵、结构与表征,将对中国大语言模型的技术突破、精准构建与监管治理提供重要的理论支撑与实践指导。
【关键词】文本间性 生成式人工智能 大语言模型
【中图分类号】G206
一、引言
随着生成式人工智能的技术发展与能力增强,文本间关系发生了重大转变,产生新的文本间性问题。文本间性(Intertextuality,又称互文性)最早由法国符号学家茱莉亚·克里斯蒂娃(Julia Kristeva)于20世纪60年代末提出,这一概念强调文本与其他文本之间的关联,每一篇文本(text)都不是独立存在的,而是一组符号“编织”的产物(texture)(赵毅衡,2010:2),任何语篇都是对另一语篇的吸收和改造(辛斌,2000:14),是一个文本、主文本把其他文本、互文本纳人自身的现象,是一个文本与其他文本之间发生关系的特性(秦海鹰,2004:19),通过对其他文本的引用、借鉴和重新解释,文本间性可以创造和扩展新的意义和价值空间。文本是一种实践和生产力(Raj, 2015:77),在生成式人工智能的技术与生产逻辑的共同形塑下,文本生产的编织原料与交织技法出现了新情况,拓展了文本间性的内涵与外延,一种反映文本之间关系新特性的新文本间性状态已较为明晰。
二、新文本间性的理论来源
克里斯蒂娃区分意指实践的深层结构和表层结构,认为只有透过文本的表层结构,深入到文本的深层结构,才能真正读懂文本。读懂人工智能生成内容同样需要透过现象看本质。克氏极具洞见地提出的“生成文本”(Genotext)和“现象文本”(Phenotext)在生成式人工智能时代焕发新的生机,成为本文分析新文本间性的理论来源。
(一)“生成文本”和“现象文本”
克氏认为现象文本是文本的表层表现形式,是文本在具体语句结构中的文字现象,具有沟通交际功能;而生成文本是文字背后的深层范式,即“语言中的语言”,是现象文本产生的原因和条件,蕴含着无限的意义生成空间。生成文本表现为以拓扑形式呈现的种种关系,与呈现为完成式生产物的现象文本相比,生成文本处于未完成式的、流动性的、空性的状态。
生成文本表示的是非系统的、前现象的、本能冲动的释放;现象文本是可感知的、可分析的、可用结构描述的符号意指系统。生成文本经历符号态的过程,包括驱力、驱力的形成与驱力的格局,以及围绕这一机制的生态和社会系统(茱莉亚·克里斯蒂娃,2016:64)。生成文本是一种过程,它穿越相关并毗邻的区域,形成一段路径(Parcours),这段路径并没有被限制在两个独立主体之间单义信息的两极(茱莉亚·克里斯蒂娃,2016:65)。生成文本具有萌生现象文本的作用,且这种作用被详细地记载进了现象文本中,同时被记录的还有生成文本的“既往病史”。生成文本是现象文本得以形成的场所,也是意义的诞生地。对于克氏而言,文本的表意工作就是从生成文本到现象文本之间不断的往返活动,并将这一活动称为“生成程序”(Johnson, 1988:71)。
生成文本与现象文本你中有我,我中有你,其概念、特征与生成式人工智能的技术逻辑及内容生成机理高度相关,特别是生成文本存在形成语言的潜在驱力与生命力,现象文本是作为意义作用和传达机能的文本表层,启发并支撑着生成式人工智能文本内涵、结构与表征的提出与分析。
(二)新文本间性的出现
从函数关系出发,互文关系是一种对应关系、映射关系,可以用来描述语篇生成与理解的动态过程(祝克懿,2010:3)。新文本间性本质上可理解为是一种文本生产函数组合方式的改变,且这种新的文本生产函数关系主要体现在以下三个层面:
首先,人工智能获得并逐步巩固其作为内容生产者的主体地位,这直接带来由于生产主体不同而生发的“人类生产文本”(human-written text)与“非人类生成文本”(nonhuman-generated text)之间的文本关系。其中,人类生产文本指由人类内容生产者生产的文本;非人类生成文本指由人类之外的主体生产的文本,现阶段主要表现为人工智能生成的文本。
其次,在“非人类生成文本”的生产流程与机制层,存在提示文本(promtext)、生成文本(genotext)与现象文本(phenotext)的文本关系。其中,提示文本或也可称触发文本,指构成提示指令(Prompt)的文本;生成文本指构成大语言模型(LLM)训练集的文本;现象文本指由人工智能直接或间接参与生产的文本。
再次,根据文本性质与生成功能的不同,在“生成文本”中存在“基础文本”(basic text)与“对齐文本”(aligning text),在“现象文本”中存在“机械文本”(mechanical text)、“共创文本”(co-created text)与“再训练文本”(retraining text)的文本关系。其中,基础文本指用于训练大语言模型普遍生成能力的文本;对齐文本指为与人类需求对齐(如提升人工智能生成内容的精确性、科学性、价值性、个性化、行业匹配度等需求)而用于模型精调的文本;机械文本是由人工智能直接生成的文本;共创文本是由人类内容生产者与人工智能共同参与创作的文本;再训练文本指现象文本中进入到生成文本中的部分文本。
在媒介技术迅速发展的社会背景下,数字发现的过程正在扩展着文本的定义,对文本及互文性的学术理解正在转变(Coffee et al, 2012:383)。人工智能生成的内容并不是孤立存在的,而是受到先前存在的文本的影响。这种关联可以丰富生成内容的多样性,并在某种程度上反映了人工智能系统对于语言和文化的学习和理解。因此,在分析和评估生成内容时,我们需要考虑人工智能生成内容中文本间性的可能性,并理解其对内容生产、技术发展及社会建构的意涵。
三、生成式人工智能带来的新文本关系
(一)人类生产文本与非人类生成文本
人工智能获得并逐步巩固其作为内容生产者的主体地位,这直接带来由于生产主体不同而引发的“人类生产文本”与“非人类生成文本”之间的文本关系。人类生产文本多见于专业生产内容(PGC)、用户生产内容(UGC)、职业生产内容(OGC)等人类内容生产者生产的文本;而非人类生成文本在现阶段主要表现为融合算力、数据、算法,智能化实时生成文字、图像、音频等各类模态的文本内容。
人类生产文本与非人类生成文本之间的不同首先体现在其生产逻辑上的改变。人类生产文本包含人类创作者的真情实感,是有着情感、心态、经验等感性思维的感性创作,既有演绎推理也有来自人类长期观察总结的知识。而人工智能生成内容在于语义相关关系及概率计算,反映知识的平均化水平,其创作并非来自“有感而发”的情感驱动力。在互文逻辑上,人类生产的文本在长期筛选、积淀与继承创新的基础上逐渐构成非人类生成文本的先决条件,而构成大语言模型训练集的人类生产文本质量过低会直接导致人工智能生成文本的质量下降。还有研究预计高质量的人类生产文本的数量非常有限且增长缓慢,预计将在2026年耗尽(Villalobos et al, 2022:2211),人类的创造力很难跟上机器的消耗能力。
人工智能获得生成能力之后生产的文本与人类生产文本的交互流动呈现出一种新文本关系。一方面,生成式人工智能需要深度学习、聚合检索以及创新利用人类生产的文本,从而更好地提升人工智能生成文本的价值密度与拟真程度,进一步补充、嵌入和丰富人类生产文本;另一方面,非人类生成文本也会影响人类内容生产者的思维方式,人类与非人类协同生产的文本可能作为再训练文本反馈到深度学习进程中。
(二)提示文本、生成文本与现象文本
在人工智能生成内容的流程与机制中,存在从提示文本到生成文本到现象文本的过程。提示文本是构成提示指令的文本,生成文本是构成大语言模型训练集的文本,现象文本是由人工智能直接或间接参与生产出的文本。提示文本作用于生成文本并潜在于现象文本之中,不断适配、打破、重组、僭越生成文本的结构,使现象文本变得多层化、空间化、动态化。
提示文本是人工智能内容生产中文本转化的起点,它将提示大模型完成怎样的任务,这意味着提示文本是内容生产过程中人与机器重要的交流媒介。在特定模型下,提示文本的质量将决定现象文本的质量,机器理解与人类真实意图越相近,则越能生产出符合使用者需要的现象文本。提示文本作为人与机器的理解媒介,承担着重要的引发作用。由提示文本引发生成的现象文本也会反作用于提示文本的生产和调整,通过修改和完善形成更加准确、高效的提示文本,从而能够使人工智能模型生成更加符合需求的现象文本。
让·鲍德里亚认为“信息可以告诉我们一切。它拥有所有的答案。但是这是一些我们还没有提出的问题的答案,甚至这是一些不成问题的问题”(Baudrillard, 1990:219)。生成文本成为一种流动的、空性的事物,它潜藏着使用者想要获得的回答,但使用者需要对其提出恰当的问题才能获得期待的回应。因此想要借用人工智能的力量将所需的知识从海量的生成文本中提取出来,再构成使用者所需的现象文本,就需要使用者生产出恰当的提示文本,明确具体的表达任务和需求。但如何恰当地提问需要对人工智能生成内容的技术逻辑有一定的掌握,这也提高了好的提示文本生产的门槛。
(三)生成文本:基础文本与对齐文本
生成文本是对构成大语言模型训练集文本的总称,其中包括用于训练大语言模型普遍生成能力的基础文本,用于模型精调的对齐文本与用于提升大语言模型通用能力的再训练文本。再训练文本可被认为是现象文本进入生成文本中的部分文本,将在下一节中具体讨论。
经由人类生产的高质量基础文本涵盖社会生产的不同领域与行业需求,构成大模型的基础语料库,也是生成式人工智能具有普遍生成能力的基础数据。基础文本之所以成其为基础,是因为它是作为语义相关关系及概率计算形成的基础而存在的,是人工智能生成能力的核心。在大语言模型中温度(Temperature)这一重要参数体现出新文本间性的显著特征。温度参数是一个0和1之间的可设置值,0是最可预测值,1是最随机值。通过温度参数可控制输出的随机性大小,当温度被设置为0时,大语言模型在生成时每次都会做出选择出现概率最高的下一个单词的响应,而当温度参数设置为1时,输出的随机性会增加。因此,在技术领域人们把对温度参数的调节称为文本创造力的设置。
从读者角度出发,互文性又是“具体的”和“体裁的”,其中“具体的”语篇是指包含有具体来源的他人的话语,“体裁的”语篇是指在一个语篇中不同风格、语域或体裁的混合交融(Kristeva, 1980:66)。对齐文本正是出自具体语域的用户需求。生成式人工智能以其空前的个性要素识别、人类认知模拟、针对性输出能力完成个体更细致的内生性需求的对外连接(喻国明,苏健威,2023:88),其应用也已经覆盖到新闻传媒、广告营销、医学健康、工业制造、金融交通等多领域。然而普遍生成能力往往在概率计算中得出平均化水准的文本,在科学事实性、准确性和深度复杂性的问题解释和专业领域解决方案提供方面还存在较大的提升空间,这彰显出对齐文本深耕对于大模型垂直化、模块化构建的重要性和急迫性,同时显示出基础文本与对齐文本的文本关系。腾讯研究院在《2023年AIGC发展趋势报告》中指出,目前AIGC产业生态体系呈现为上中下三层架构,其中第二层就是专门调试和训练预训练模型基础上,快速抽取形成垂直化、场景化、定制化的小模型和应用工具层,实现工业流水线式部署,同时兼具按需使用、高效经济的优势。这反映出基础文本与对齐文本的新文本关系。
(四)现象文本:机械文本、共创文本与再训练文本
如克氏所言,现象文本是文本的表层表现形式。在AIGC背景下,现象文本指经由生成文本的潜在驱力,由人工智能直接或间接参与生产出的文本,包括由人工智能直接生成的机械文本,由人类内容生产者与人工智能共同参与创作的共创文本,及其中部分达到生成文本质量条件而进入用于提升大语言模型通用能力的训练语料库的再训练文本。
现象文本是对于生成文本的整合、重组及涌现。现象文本中的机械文本完全经由大语言模型生成,遵循严格的技术原则,因此是纯粹机械的。人工智能已然跃升成为新的内容生产主体,达成一种与人类紧密相联、协同创作的新型人机关系,并通过共创文本这一载体展现出来。因此,共创文本是人工智能与用户内容生产者、专业内容生产者、职业内容生产者协作生产的文本,相较于机械文本具有多元主体参与的特点,并消磨了传统文本主体相对独立的特点,呈现出人机协同的新特征。
再训练文本可被认为是共创文本的一部分,与完全由人类生产再训练文本不同,本文的再训练文本提出的问题是由人工智能参与生产的文本能否成为再训练文本,以及怎样的共创文本才能够成为再训练文本。再训练文本更加强调借助于人类把关,筛选出部分文本质量更强、题材及表达更丰富的文本反馈于生成文本。再训练文本作为一种信息源,促进AIGC从海量数据和大规模知识中不断进化,实现从提出、规划到解决问题的全流程可持续发展,并使得生成文本与现象文本间有机形成了一种不断更新的“生成程序”。在生成程序中,还存在提示文本经由生成文本形成其自身的现象,提示文本的人工智能生成在性质上属于现象文本,在作用上属于提示文本的范畴,其文本生产主体却有了实质性的转变。
四、新文本间性对大语言模型的启示
廓清生成式人工智能的文本内涵、结构与表征,将对大语言模型的技术突破、精准构建与监管治理提供重要的理论支撑与实践指导。
(一)提示文本:模板化、商业化与职业化
生成式人工智能技术的发展正在逐步打破自然语言与计算机语言之间的壁垒,这降低了使用者的技术门槛,更多的人能够通过自然语言向人工智能表达自己的需求,生成需要的内容。在提示文本方面,显现出模板化、商业化与职业化的趋势。
在人工智能中国大模型的未来发展中,需要增强用户对提示文本的使用能力及大语言模型对提示文本的理解能力。提示工程(Prompt engineering)已经被视为与大语言模型进行有效对话的一个愈发重要的领域,以模板的形式呈现的提示目录能够在特定的常见问题中提供有效的解决方案(White, 2023:2302)。例如讯飞星火认知大模型在用户界面中加入“输入‘/’可获取模板”的设计,提示模板涉及文章润色、续写、翻译、活动方案制作等方方面面的需求。提供符合特定问题需求的模板也已发展出了提示文本的交易市场,如“PromptBase”就是一个针对主流大语言模型的提示库交易平台,为用户提供提示文本,以产生最佳的生成结果。这也意味着提示工程师未来也许将会成为人工智能内容生产的一个重要岗位,帮助内容生产者基于提示文本的技术逻辑来建构提示文本。人工智能的跨模态生成也意味着文本内容将不仅仅局限于文字,提示文本的未来形态也同样具有多样性,人工智能模型需要理解多模态的文本内容,才能够实现跨模态的内容生产。
(二)生成文本:高质、多量与宽领域保证
生成文本的生成性受到文本质量、数量与多样性的影响。对于中国大语言模型,生成文本中的基础文本启示着赓续中华文脉的“基因库”,打造新时代数字化、标签化“四库全书”的重要价值。做好国家文化大数据体系建设,如打造《儒藏》、《佛藏》、《道藏》等宝藏的“数字生命”。国外大语言模型能够获得多元、大量、高质的文本数据集也是受到开源文化的影响,用于训练的数据集都是开源的数据库。开源文化作为计算机科学领域的一种文化现象,表达了对智慧成果共享、自由的追求,是大语言模型获得可持续发展的重要动力。
对齐文本的持续涌现和补充,才能更有利于生成式人工智能的场景应用与价值转化,而这离不开与特定领域专家的多元合作和通过指令调整模型(Instruction Tuned LLM)对基础模型(Base LLM)的精调完备。例如,Google医疗大语言Med-Palm 2模型在谷歌基础模型基础上通过医疗领域对齐文本来精调行业模型,使得对于医学问题的回答准确率提高了9倍。未来,“AIGC+”将成为新的发展趋势,深刻把握理解和重点开发细分场景和满足个性化需求是激发生成式人工智能生产力的重点方向。
(三)现象文本质量把关与筛选、确权机制
如克氏所言,生成文本萌生现象文本的作用被详细地记载进了现象文本的自身中,同时被记录的还有生成文本的“既往病史”。由于现阶段生成文本在专业性、个性化上的欠缺,现象文本中的机械文本仍会出现真实性、准确性、匹配性不足的情况,需要人类内容生产者对机械文本进行把关与再造。在共创文本中,人类内容生产者应在内容的生产和加工的全流程中担任监督者和提质增效者的角色,运用自身的专业知识储备,对机械文本进行审核与评价,在对于内容失真的部分及时加以更正的基础上创作出质量更好的内容。由于AIGC的协助,文本生产效率得到提升,也经由人类生产者的再造,共创文本的质量可能比仅有人类生产者创造的文本质量更高,达到成为生成文本的条件,能够成为再训练文本。因此,何种现象文本能够成为再训练文本需要一套监管与筛选机制,促进共创文本到再训练文本的有效转化及人工智能生成内容的可持续发展。
从文本视角看待生成式人工智能,还意味着在提示文本、基础文本、对齐文本、机械文本及共创文本的生成与使用上都存在版权、肖像权、隐私权等风险,有必要加以识别和治理。对于提示文本而言,其文本质量直接关系到机械文本的质量,引发提示文本独创性的问题;对于基础文本而言,其中可能存在大量受版权保护的客体被无差别地运用于基础模型训练,在基础文本挖掘过程中,权利人也可能无从知晓其作品是否已经被用作基础文本;就对齐文本而言,为提升生成内容的专业性、科学性和个性化等,就涉及与科学性内容有关的科技论文著作权,与个性化内容相关个人的隐私权等;就机械文本而言,首先面临的就是人工智能生成内容是否具有可版权性的特征和操作路径;就共创文本而言,存在多主体共同参与下的共创方式的道德风险及版权归属风险等。只有在厘清人工智能生成内容的文本间性问题基础上,才有可能对版权风险及其治理有更深刻的认识及更可行的机制设置。
五、结语
克氏认为,“当我们意识到意义不是直接从作者传递给读者,而是通过其他文本传递给作者和读者的‘代码’来调节或过滤时,文本间性的概念就取代了主体间性的概念”(Kristeva, 1980:66)。在生成式人工智能的作用下,展现出文本作者的重要性下降,传统的自主、自足文本观念被打破,创造性和生产力更显示出从作者转移到文本之间的相互关系上。在技术与生产逻辑的共同形塑下,一种反映文本之间关系新特性的新文本间性状态已较为明晰,这种新状态可理解为文本间生产函数组合方式的改变,廓清新生产函数中的基要内涵、结构与表征,将对大语言模型的技术突破、精准构建与监管治理提供重要的理论支撑与实践指导。■
参考文献:
秦海鹰(2004)。互文性理论的缘起与流变。《外国文学评论》,(3),19-30。
辛斌(2000)。语篇互文性的语用分析。《外语研究》,(3),14-16。
喻国明,苏健威(2023)。生成式人工智能浪潮下的传播革命与媒介生态——从ChatGPT到全面智能化时代的未来。《新疆师范大学学报(哲学社会科学版)》,(5),81-90。
赵毅衡(2010)。论“伴随文本”——扩展“文本间性”的一种方式。《文艺理论研究》,(2),2-8。
茱莉亚·克里斯蒂娃(2016)。诗性语言的革命(张颖,王小姣译)。四川:四川大学出版社。
祝克懿(2010)。互文:语篇研究的新论域。《当代修辞学》,(5),1-12。
Baudrillard, J.(1990). Cool memories, Vol. 4. London: Verso.
CoffeeN.et al.(2012).Intertextuality in the digital age. Transactions of the American Philological Association142(2)383-422.
Johnson, M. (1988). Intertextuality and the psychical model. Paragraph11(1)71-89.
KristevaJulia. (1980). Desire in language: a semiotic approach to literature and art. New York: Columbia University Press.
Raj ,P. (2015).Text/Texts: Interrogating Julia Kristeva’s Concept of Intertextuality. Ars Artium, 377-80.
VillalobosP.et al. (2022). Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. arXiv221104325.
White, J. et al.(2023).A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT. arXiv230211382.
周慎系中国科学技术大学科技传播系、中国科学院科学传播研究中心特任副研究员。本文为国家社会科学基金重大项目“虚拟现实媒介叙事研究”(项目编号:21&ZD326)的阶段性成果。