杨明澔 李小波 曾倩 李欣
摘要:人工智能大语言模型是一种经过大量文本数据预训练、具有大量参数的深度学习模型。针对大语言模型落地油气上游业务领域存在的专业认知深度、可信度以及能力拓展等方面的挑战,探讨了相关技术途径,包括专业知识语料准备、微调、知识嵌入、检索增强等,并通过打造大语言模型应用PetroAI来实践其中关键技术。初步应用效果表明:在通用大语言模型基础上,通过内部专业知识的嵌入与增强,为油气上游业务知识共享和智能化利用提供了新的技术手段,具有广阔的应用前景。针对如何提升大语言模型在油气上游业务的应用范围和效果,仍需进一步探索研究。
关键词:大语言模型;
油气上游;
知识智能化;
知识嵌入;
检索增强
一、前言
大语言模型(LLM)是指经过大量文本数据预训练、包含几十甚至上千亿参数量的深度学习模型(简称大模型),具有强大的自然语言表达能力和泛化能力,可以识别、总结、翻译、预测和生成文本及其他内容,将信息传递密度从“数据”提高到“答案”。自2022年开始,大模型相关研究快速上升为人工智能学术研究热点,国际计算语言学年会(ACL)大模型相关文章数量从2022年的48篇增长到2023年的121篇,占发布文章的约10%,大模型也在自然语言理解任务,限定条件和无限定条件的自然语言生成等任务上取得领先表现。2022年11月基于大模型的生成式应用ChatGPT发布后,国内外大模型正经历爆发式增长,先后推出了包括BLOOM、GLM、LLaMA等开源大模型以及文心一言、星火认知、通义千问等闭源大模型。据不完全统计,截至2023年8月底国内已经发布的大模型数量已经过百。随着大模型逐步成熟,其在垂直领域落地应用趋势越发明显[1],目前金融、医疗、教育、地学、电力等多个行业已经利用大模型转变传统知识工作模式。
大模型落地垂直行业,仍面临一些挑战:大模型的预训练语料大都来自公开的通用语料,部署在公有云上,缺乏行业内部数据和专业知识,直接使用存在缺乏行业认知深度、数据安全隐患、内容及时性和可信度无法保障等问题。此外,大模型部署还存在部署和运行成本方面的挑战。
油气产业链条长,业务面广,专业性强,数字化转型和智能化发展过程中面临多样化和碎片化的需求挑战。大模型在油气上游业务的落地应用,将聚合公司内外部各类业务数据和专业知识并智能化应用,显著提升业务报告撰写、专业工具使用、业务问题推理分析、措施建议推荐等知识密集型任务工作效率和决策管理水平,将重构目前油气行业技术研发生态和价值体系,加速“数字中国石油”目标实现,助推业务一体化和高质量发展,提升数字时代企业的核心竞争力。
二、大语言模型落地油气上游业务的关键技术
(一)油气上游业务技术特点分析
从知识工程角度看,油气上游业务具有如下四个方面的突出特点。
专业多学科:油气上游业务链条长,专业面广,认识和开发利用地下油气资源除了本专业相关知识外,还需要综合物理、化学、生物、地质、力学等学科知识。如何有效融合各学科专业知识,保证输出内容的专业深度和可靠性,是大模型落地油气上游业务首先要面对的问题。
资料多模态:勘探开发过程中形成的专业数据来源广、类型多、数据体量分布不均,包括但不限于地震、测井、岩心、露头、实验和生产测试过程中产生的图像、音视频、曲线、结构化表格、文字报告、专业软件输出结果文件等,如何有效利用这些多模态数据资料提升大模型的专业深度,是大模型落地的一大挑战。
对象不确定:受探测手段精度和可靠样本数的限制,地下储层认识都存在不同程度的不确定性,相应的解释结果、方案措施往往都存在多种可能选择,如何动态引入地下钻采数据和专家知识约束,提高输出答案的质量,也是大模型深度应用的关键挑战。
数据实时性:油气勘探开发过程中某些数据具有实时性要求,这些数据往往存储在特定数据库中,使用者需要根据这些数据作出分析决策。受计算资源和成本限制,大模型无法通过预训练过程实时更新其知识语料,需要通过检索相关数据库获取实时资料。
(二)大语言模型落地油气上游业务的关键技术
从前面分析可以看到,大模型落地油气上游业务领域,需要结合勘探开发的业务特点,重点需要提升大模型在行业认知深度、内容可信度和实时性方面的能力,需要突破如下几个方面的关键技术。
1.高质量专业语料准备
油气上游业务领域构建高质量专业语料,主要包括三个方面:名词释义,知识图谱,问答对。
百科语料库是训练大模型的必要语料之一,其中包含了大量的条目,涵盖了各种石油上游的主题。通过专家编纂而成,因此它们提供了高质量的语言数据,包含了广泛的词汇和语法结构,并且这些条目通常都按照一定的结构组织,例如分类和层级结构,这有助于训练模型理解和处理复杂的语言结构。是训练大模型的基石。
问答对语料[2]库是另一种重要的语料来源,其中包含了大量的问题和答案对。有时候一个问题会有多个答案。这种语料库可以帮助模型学习如何处理自然语言交互,例如如何理解问题和如何生成适当的答案,明白正确的回答,较差的回答和错误的回答是什么样的,并且对齐用户的思考。问答对语料库还可以帮助训练模型理解语言的上下文和推理能力,提高回复的质量。
知识图谱[3]是一种用于表示实体和它们之间关系的图形化数据结构,它包含了各种领域的大量知识。知识图谱可以帮助训练大模型理解实体之间的关系,例如分类、属性和关系。知识图谱还可以帮助模型理解语言中的隐含意义和推理,可以一定程度上限制大模型的偏见和幻觉。
2.知识嵌入与检索增强
油气上游业务领域已经建立起各类专业数据库与知识库,提供了实时性与专业性极强的数据知识语料,可通过知识嵌入与检索增强来提高大模型解决油气上游专业问题的能力。
知识嵌入是通过向量化技术将文本、图像等类型的业务知识从稀疏样本空间投影到稠密向量空间,参与深度学习的训练和预测过程。知识嵌入与检索增强两者都依赖向量数据库[4],通过对多种数据进行编码后,作为索引存储,可以进一步加快搜索的效率。与基础数据库的针对文字标签的模糊搜索相比,向量作为索引的情况下,允许对多模态的信息搜索,允许用户通过自然语言去搜索对应文字信息,并且对于基于语言大模型为入口的应用,向量化文字和图片信息有助于增强基础大模型和多模态大模型的知识蒸馏与更新。
向量检索过程包括三个技术:各个模态的编码技术,向量数据库和计算向量距离的算法。向量数据库会先把多模态信息根据固定的编码格式和升维方法,提取出其中的特征,当用户使用同样格式的信息进行搜寻的时候,向量数据库会将用户输入的信息也向量化,之后通过计算向量间的距离,确认相似度,并且输出相似度高的对应模态。
3.模型效率微调
在节省硬件资源的前提下,让大模型对齐下游任务成为挑战。传统的全参数微调对硬件的要求与预训练所需不相上下。为了更好地使用大模型,通过冻结部分或者全部模型参数,进行部分参数调优的技术发展了起来。
在对于模型的微调方面,早期的思想是在模型中添加一些参数以保证其在下游任务中的效果。其中包括prompt-tuning,prefix-tuning,p-tuning等通过在输入层加入前缀完成参数效率微调[5],adapter等通过在大模型中加入可训练层进行微调[6]。
但是,以上的方式都存在问题:由于增加了模型的深度从而额外增加了模型推理的延时。Prompt较难训练,同时减少了模型的可用序列长度,方法往往效率和质量不可兼得,效果差于full-finetuning。LoRA模型诞生了,它通过冻结预训练模型权重并注入可训练的秩分解矩阵来减少可训练参数的数量,从而实现精炼模型。这被称为“Low-Rank Adaptation”(LoRA)[7]。在GPT-3上训练发现该技术可以降低硬件入门门槛3倍。
三、油气勘探开发大语言模型应用实践
本文研发团队围绕上述关键技术开展了一系列攻关,通过打造油气勘探开发大语言模型应用PetroAI来实践上述部分关键技术。
(一)专业语料准备
构建了一个石油的百科,包括26509条具体释义(见图1)。通过对英文、中文的对齐和并且基于含义分类,作为知识图谱构建本体和实体的基础,也作为大模型分词器的起点。支持通过其中字词和首字母进行查询,并且支持后台编辑其中字词以保证信息鲜度。
在此之上,结合其他分词字典了,通过sentence piece技术构建了一个石油专业分词器(见图2),与传统大模型自带的分词器相比,石油专业分词器可以更好地对石油文章进行分词。分词器作为自然语言处理的基础,可以帮助模型更好地处理石油相关概念。
对于石油知识的记忆与展示,基于图数据库的知识图谱是最好的语料。通过对本体和实体的构建,院协同研究平台通过平台上上万篇石油论文,构建出有33377个节点和25369条关系的石油勘探开发主干知识图谱,为未来构建知识图谱相关应用和大模型检索提供基础。
问答对作为支持大模型和人类对齐的基础语料,能更好地让大模型学习到如何输出正确的格式和形式,并且在已有问答对的情况下对话机器人与人类交谈时可以保证正确和简洁的输出。在问答对的创建上,结合大模型的基础能力,构建了可以通过直接将文章片段放入后生成json格式的问答对功能(见图3)。在问答对的使用上,通过院协同研究平台后端可以修改其中的问答对并且可以进行启用和禁用。
(二)知识嵌入与检索增强
为了充分利用企业内部知识库,提供生产内容的专业可信度,嵌入了油气上游知识图谱和石油百科内容,通过检索来提高生产内容的专业质量。
(三)模型微调
通过从数千篇石油科技文档上准备高价值问答对,并且使用ptunring或者lora技术对模型进行监督微调和人类反馈学习,改善了大模型的“偏见”和“幻觉”,将一些词的通用领域概念特征修改为石油领域的特征(见图4),并且更加详细地展示在石油领域具体问题的分析细节和研究成果。
(四)文档知识库问答
利用大模型开发框架LangChain,将知识库中的文本切块并且向量化,能在用户提出问题的时候快速找到对应文章块并注入大模型。通过这个过程,用户可以更加方便地获取文章的全部或者部分的简介,或者通过文章块提高大模型对问题的回复质量。PetroAI支持建立知识库对文章的动态管理,并且之后将会针对用户的权限进行文档访问的限制,进一步保证信息安全(见图5)。
四、下一步探索的技术方向
为了进一步发挥大模型在油气上游业务的应用效果和范围,还有如下一些方面值得进一步探索。
(一)多模态知识应用
油气勘探开发业务中数据具有文本、图片、音视频以及特定专业格式。如何与基于文本的大语言模型融合实现多模态知识使用是行业当前痛点。主流的方法分为两个,多模态的互相转换和多模态的特征融合。由于大语言模型的核心为文字,如果可以将其他模态的信息转换成文字,就可以使用提示词工程将这些信息作为先验知识加入模型的输入[8]。接下来的多模态转换主要讨论的是其他模态的信息怎么通过模型以文字的方式输出。而通过将多模态的知识进行编码,提取其特征。之后在模型中进行特征融合。模型针对融合后的特征进行解码,在这个过程中,模型可以依据多模态知识正确回复用户提问[9]。
(二)代理(Agent)
Agent应用于语言大模型[10],现实世界场景中的智能Agent(人类或人工)可以从交换信息中受益匪浅,这些信息使它们能够协调、制定战略并利用其组合的感官体验来在物质世界中行动。为了增强大模型的推断能力,需要让大模型与其他模型和软件协作,并且现有的石油产业已经沉淀了很多的模型,可以给大模型进一步的支持。进一步来说,大模型在数学计算上面也存在一定问题,高等数学等计算的准确率无法达到可用的级别。在模型应用方面,由于语言大模型主要输出手段是文字,而想应用其优秀的推断能力进行自动化生产还需要其他软件配套。
五、结论
本文探讨了语言大模型在油气上游领域应用的难题,对关键技术的探索与时间和未来的方向。在探讨大模型在油气上游应用的主要方向时,可以看到,随着人工智能和机器学习技术的不断发展,大模型的应用前景越来越广阔。在油气勘探和开发领域,大模型可以更好地辅助用户减少部分重复的文字工作,辅助策略决定。然而,大模型在油气上游应用仍面临许多挑战和问题,比如回复的部分情况下会有的错误和幻觉。因此,我们需要进一步加强技术研究和创新,不断优化和完善大语言模型在油气上游业务的应用,助力油气勘探和开发业务的智能化发展。
参考文献
[1]Pir R M.Large language models (llm):
need, methods,and research trends[J].2023,13(1).
[2]易洪川.关于问答对[J].湖北大学学报(哲学社会科学版),1992(05):28-34.
[3]Hogan A, Blomqvist E, Cochez M, et al.Knowledge graphs[J].ACM Computing Surveys, 2022, 54(4):
1–37.
[4]Guo R, Luan X, Xiang L,et al.Manu:
a cloud native vector database management system:
arXiv:2206.13843[Z/OL].arXiv, 2022(2022–06–28)[2023–10–16].http://arxiv.org/abs/2206.13843.
[5]Liu X, Zheng Y, Du Z, et al. GPT understands, too:
arXiv:2103.10385[Z/OL].arXiv, 2021(2021–03–18)[2023–07–25].http://arxiv.org/abs/2103.10385.
[6]Houlsby N, Giurgiu A, Jastrzebski S,等.Parameter-efficient transfer learning for nlp:
arXiv:1902.00751[Z/OL].arXiv, 2019(2019–06–13)[2023–10–13].http://arxiv.org/abs/1902.00751.
[7]Hu E J, Shen Y, Wallis P, et al.LoRA:
low-rank adaptation of large language models:
arXiv:2106.09685[Z/OL].arXiv, 2021(2021–10–16)[2023–07–25].http://arxiv.org/abs/2106.09685.
[8]Wu C, Yin S, Qi W,et al.Visual chatgpt:
talking, drawing and editing with visual foundation models:
arXiv:2303.04671[Z/OL].arXiv, 2023(2023–03–08)[2023–10–13].http://arxiv.org/abs/2303.04671.
[9]Zhu D, Chen J, Shen X,et al.MiniGPT-4:
enhancing vision-language understanding with advanced large language models:
arXiv:2304.10592[Z/OL].arXiv, 2023(2023–04–20)[2023–04–25]. http://arxiv.org/abs/2304.10592.
[10]Abhishek D, Théophile G, Joshua R, Dhruv B, Devi P, Michael R, Joelle P, et al.TarMAC:
Targeted Multi-Agent Communication.[J]. Computing Research Repository, 2019, abs/1810.11187.
基金项目:1.中国石油天然气集团公司“十四五”重点科技项目“油气勘探开发人工智能关键技术研究”(项目编号:2023DJ84-06);
2.中国石油勘探开发研究院信息化重点项目“勘探开发知识成果共享与协同研究平台”
作者单位:中国石油勘探开发研究院人工智能研究中心、中国石油天然气集团有限公司勘探开发人工智能技术研发中心
■ 责任编辑:张津平、尚丹