大语言模型(参数量在数十亿或更多数量级的深度学习模型)

大语言模型

大语言模型（Large Language Models，简称LLM），也称大语言模型或大型语言模型，是一种由包含数百亿以上参数的深度神经网络构建的语言模型，通常使用自监督学习方法通过大量无标注文本进行训练，它通过大规模数据集训练来预测和生成文本和其他内容。

绝大部分大语言模型都是基于Transformer架构。相比于传统的循环神经网络（RNN）和长短时记忆网络（LSTM），Transformer具有独特的注意力机制，自注意力机制允许模型根据序列中的其他位置调整每个位置的表示，从而提高模型对上下文的理解能力。

自2018年以来，谷歌、OpenAL、Meta、百度集团、华为等公司和研究机构都相继发布了包括BERT，GPT等在内多种模型，并在几乎所有自然语言处理任务中都表现出色。2019年大模型呈现爆发式的增长，特别是2022年11月ChatGPT 发布后，更是引起了全世界的广泛关注。2024年3月18日，马斯克的AI创企xAI正式发布了大模型Grok-1，其参数量达到了3140亿，远超OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型，遵照apache 2.0协议开放模型权重和架构。

发展历史

大语言模型的发展历程虽然只有短短不到五年，但是发展速度相当惊人，截止2023年6月，国内外有超过百种大模型相继发布。它的发展历程可以分为三个阶段：基础模型阶段、能力探索阶段、突破发展阶段。在正式出现之前，还经历了漫长的萌芽阶段。

萌芽阶段

大语言模型的基础最早可以追溯到20世纪50年代进行的神经网络和神经信息处理系统的实验，这些实验允许计算机处理自然语言。国际商业机器公司（IBM）和乔治城大学的研究人员合作创建了一个系统，该系统能够自动将短语从俄语翻译成英语，是对于该领域的研究的开始。

大语言模型的想法最早是20世纪60年代在世界上第一个聊天机器人Eliza的创建中提出的，它由麻省理工学院研究员约瑟夫·魏岑鲍姆（Joseph Weizenbaum）设计，它使用模式识别来模拟人类对话，将用户的输入转化为问题，并根据一组预定义的规则生成响应。Eliza的出现标志着自然语言处理（失明）研究的开始，为未来更复杂的大语言模型奠定了基础。

20世纪70年代，由贾里尼克提出的N-gram语言模型成为最常用的统计语言模型之一，广泛用于多种自然语言处理系统中。然而，N-gram模型存在数据稀疏性、计算复杂性和语言模型可扩展性等局限性。

1997年，长短期记忆（LSTM）网络应运而生。它们的出现导致了更深入、更复杂的神经网络，可以处理更多的数据。

2010年，斯坦福大学推出的Core NLP套件，该套件提供了一套工具和算法，帮助研究人员处理复杂的NLP任务，允许开发人员执行情感分析和命名实体识别。

2011年，出现了一个较小版本的谷歌 Brain，具有单词嵌入等高级功能，使自然语言处理（失明）系统能够更清楚地理解上下文。

2013年，自然语言处理模型Word 2Vec诞生，首次提出将单词转换为向量的“词向量模型”，以便计算机更好地理解和处理文本数据。

2014年，被誉为21世纪最强大算法模型之一的GAN（对抗式生成网络）诞生，标志着深度学习进入了生成模型研究的新阶段。

2017年，Vaswani等人提出了变压器架构，在机器翻译任务上取得了突破性进展。Transformer是一种完全基于注意力机制的序列转换模型，不依赖循环神经网络（RNN）、卷积神经网络（CNN）或长短期记忆（LSTM），极大地提高了模型的并行化处理能力和对长距离依赖的捕捉能力。

基础模型阶段

基础模型阶段主要集中于2018年至2021年。从2018年开始，研究人员专注于构建越来越大的模型。

2018年，谷歌和Open AI分别提出了BERT-1和GPT-1模型，开启了预训练语言模型时代。

2019年，Open AI又发布了GPT-2，其参数量达到了15亿。此后，Google也发布了参数规模为110亿的T5模型。Google的研究人员还推出了 BERT，是一种双向、3.4 亿参数的模型（同类模型中的第三大模型），可以确定上下文，使其能够适应各种任务。通过自监督学习对各种非结构化数据进行BERT预训练，该模型能够理解单词之间的关系。很快，BERT就成为自然语言处理任务的首选工具。

2020年，Open AI进一步将语言模型参数量扩展到1750亿，发布了GPT-3。

能力探索阶段

能力探索阶段集中于2019年至2022年。研究人员们开始探索在不针对单一任务进行微调的情况下如何能够发挥大规模语言模型的能力。

2019年，Radford等人就使用GPT-2模型研究了大规模语言模型在零样本情况下的任务处理能力。在此基础上，Brown等人在GPT-3模型上研究了通过语境学习进行少样本学习的方法。之后推出的指令微调方案将大量各类型任务，统一为生成式自然语言理解框架，并构造训练语料进行微调。

2022年，Ouyang等人提出了使用“有监督微调+强化学习”的InstructGPT算法。

这些方法在直接利用大语言模型进行零样本和少样本学习的基础上，逐渐扩展到利用生成式框架针对大量任务进行有监督微调的方法，有效提升了模型的性能。

突破发展阶段

突破发展阶段以2022年11月ChatGPT的发布为起点。ChatGPT通过一个简单的对话框，利用一个大规模语言模型就可以实现问题回答、文稿撰写、代码生成、数学解题等过去自然语言处理系统需要大量小模型订制开发才能分别实现的能力。

2023年3月GPT-4发布，相较于ChatGPT又有了明显的进步，并具备了多模态理解能力。GPT-4在多种基准考试测试上的得分高于88%的应试者，包括美国律师考试（Bar）、美国法学院入学考试（LSATs）、SAT的阅读和数学考试、GRE等。

从2022年开始大模型呈现爆发式的增长，各大公司和研究机构相继发布了此类系统，包括谷歌推出的Bard、百度集团的文心一言、科大讯飞的星火大模型、智谱ChatGLM、复旦大学MOSS等。

2024年3月18日，马斯克的AI创企xAI正式发布了大模型Grok-1，其参数量达到了3140亿，远超OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型，遵照apache 2.0协议开放模型权重和架构。2025年4月4日，中国人工智能企业深度求索（DeepSeek）与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的论文，提出自我原则点评调优（SPCT）与元奖励模型（Meta Reward Model）两项核心技术，为提升大语言模型（LLM）的推理能力提供了全新方法论。这一成果被视为DeepSeek下一代推理模型R2的重要技术铺垫。

构建流程

预训练

预训练是大语言模型训练的第一步，目的是让模型学习语言的统计模式和语义信息。主流的预训练阶段步骤基本都是近似的，其中最重要的就是数据，需要收集大量的无标注数据，例如互联网上的文本、新闻、博客、论坛等等。这些数据可以是多种语言的，并且需要经过一定的清洗和处理，以去除噪音，无关信息以及个人隐私相关的，最后会以tokenizer粒度输入到上文提到的语言模型中。这些数据经过清洗和处理后，用于训练和优化语言模型。预训练过程中，模型会学习词汇、句法和语义的规律，以及上下文之间的关系。

在预训练语料集方面，GPT-3中通过主要包含经过过滤的Common Crawl数据集、WebText2、Books1、Books2以及英文Wikipedia等数据集合。其中CommonCrawl的原始数据有45TB，进行过滤后仅保留了570GB的数据。通过子词方式对上述语料进行切分，大约共包含5000亿子词。为了保证模型使用更多高质量数据进行训练，在GPT-3训练时，根据语料来源的不同，设置不同的采样权重。在完成3000亿子词训练时，英文Wikipedia的语料平均训练轮数为3.4次，而Common Crawl和Books 2仅有0.44次和0.43次由于Common Crawl数据集合的过滤过程繁琐复杂，OPT则采用了混合RoBERTa、Pile和Pushshift.io Redit数据的方法。由于这些数据集合中包含的绝大部分都是英文数据，因此OPT也从Common Crawl数据集中抽取了部分非英文数据加入训练语料。BLOOM使用Megatron-DeepSpeed框架进行训练，主要包含两个部分：Megatron-LM提供张量并行能力和数据加载原语：DeepSpeed提供ZeRO优化器、模型流水线以及常规的分布式训练组件。通过这种方式可以实现数据、张量和流水线三维并行。

指令微调

在完成预训练后，就可以通过指令微调去挖掘和增强语言模型本身具备的能力，这步也是很多企业以及科研研究人员利用大语言模型的重要步骤。

指令微调也称为监督微调，是利用少量高质量数据集合，包含用户输入的提示词和对应的理想输出结果。用户输入包括问题、闲聊对话、任务指令等多种形式和任务。在指令微调阶段，首先需要准备一系列的NLP任务，并将每个任务转化为指令形式，其中指令包括人类对模型应该执行的任务描述和期望的输出结果。然后，使用这些指令对已经预训练好的大语言模型进行监督学习，使得模型通过学习和适应指令来提高其在特定任务上的表现。

为了让模型训练更加高效和简单，这个阶段还有一种高效的fine-tuning技术。Parameter-Efficient Fine-Tuning (PEFT)旨在通过最小化微调参数的数量和计算复杂度，达到高效的迁移学习的目的，提高预训练模型在新任务上的性能，从而缓解大型预训练模型的训练成本。在训练过程中，预训练模型的参数保持不变，只需微调少量的额外参数，就可以达到与全量微调相当的性能。很多研究对PEFT方法进行了探索，例如Adapter Tuning和Prefix Tuning等。其中，Adapter Tuning方法在面对特定的下游任务时，将预训练模型中的某些层固定，只微调接近下游任务的几层参数。而Prefix Tuning方法则是在预训练模型的基础上，添加一些额外的参数，这些参数在训练过程中会根据特定的任务进行更新和调整。

工业界现在常用的Adapter Tuning的技术是Low-Rank Adaptation（LoRA）。它通过最小化微调参数的数量和计算复杂度，实现高效的迁移学习，以提高预训练模型在新任务上的性能。LoRA 的核心思想是将预训练模型的权重矩阵分解为两个低秩矩阵的乘积。通过这种分解，可以显著减少微调参数的数量，并降低计算复杂度。该方式和机器学习中经典的降维的思想很类似，类似地，LoRA 使用了矩阵分解技术中的奇异值分解或低秩近似方法，将原始权重矩阵分解为两个低秩矩阵的乘积。在微调过程中，LoRA 只更新这两个低秩矩阵的参数，而保持其他预训练参数固定不变。这样可以显著减少微调所需的计算资源和时间，并且在很多任务上取得了与全量微调相当的性能。LoRA技术的引入使得在大规模预训练模型上进行微调更加高效和可行，为实际应用提供了更多可能性。

奖励建模

奖励建模阶段的目标是构建一个文本质量对比模型，对于同一个提示词，SFT模型给出的多个不同输出结果的质量进行排序。奖励模型 (RM模型)可以通过二分类模型，对输入的两个结果之间的优劣进行判断。RM模型与基础语言模型和SFT 模型不同，RM 模型本身并不能单独提供给用户使用。

奖励模型的训练通常和SFT模型一样，使用数十块GPU，通过几天时间完成训练。由于RM模型的准确率对强化学习阶段的效果有至关重要的影响，因此通常需要大规模的训练数据对该模型进行训练。

强化学习

强化学习阶段根据数十万用户给出的提示词，利用前一阶段训练的RM模型，给出SFT模型对用户提示词补全结果的质量评估，并与语言模型建模目标综合得到更好的效果。使用强化学习，在SFT模型基础上调整参数，使得最终生成的文本可以获得更高的奖励(Reward)。该阶段需要的计算量相较预训练阶段也少很多，通常仅需要数+块GPU，数天即可完成训练。

经过强化学习方法训练后的RL模型，就是最终提供给用户使用、具有理解用户指令和上下文的类ChatGPT系统。不过，Andrej Karpathy指出，强化学习并不是没有问题的，它会使基础模型的降低从而减少了模型输出的多样性。由于强化学习方法稳定性不高，并且超参数众多，使得模型收敛难度大，再叠加RM模型的准确率问题，使得在大语言模型上有效应用强化学习非常困难。

相关技术

Transformer

当前流行的大语言模型的网络架构其实并没有很多新的技术，还是一直沿用当前NLP领域最热门最有效的架构——Transformer结构。相比于传统的循环神经网络（RNN）和长短时记忆网络（LSTM），Transformer具有独特的注意力机制（Attention），这相当于给模型加强理解力，对更重要的词能给予更多关注，同时该机制具有更好的并行性和扩展性，能够处理更长的序列，立马成为NLP领域具有奠基性能力的模型，在各类文本相关的序列任务中取得不错的效果。

根据这种网络架构的变形，主流的框架可以分为Encoder-Decoder, Encoder-Only和Decoder-Only，其中：Encoder-Only，仅包含编码器部分，主要适用于不需要生成序列的任务，只需要对输入进行编码和处理的单向任务场景，如文本分类、情感分析等，这类代表是BERT相关的模型。Encoder-Decoder，既包含编码器也包含解码器，通常用于序列到序列（Seq2Seq）任务，如机器翻译、对话生成等，这类代表是以谷歌训出来T5为代表相关大模型。Decoder-Only，仅包含解码器部分，通常用于序列生成任务，如文本生成、机器翻译等。这类结构的模型适用于需要生成序列的任务，可以从输入的编码中生成相应的序列。同时还有一个重要特点是可以进行无监督预训练。在预训练阶段，模型通过大量的无标注数据学习语言的统计模式和语义信息。这种方法可以使得模型具备广泛的语言知识和理解能力。在预训练之后，模型可以进行有监督微调，用于特定的下游任务（如机器翻译、文本生成等）。这类结构的代表也就是我们平时非常熟悉的GPT模型的结构，所有该家族的网络结构都是基于Decoder-Only的形式来逐步演化。

很多失明任务可以通过多种网络结果来解决，这也主要是因为NLP领域的任务和数据的多样性和复杂性，以及现代深度学习模型的灵活性和泛化能力。

基于人类反馈的强化学习

在进行有监督微调后，大语言模型具备了遵循指令和多轮对话，以及初步与用户进行对话的能力。然而，由于庞大的参数量和训练语料，大语言模型的复杂性往往难以理解和预测。当这些模型被部署时，可能会产生严重的后果，尤其是当模型变得日渐强大、应用更加广泛，并且频繁地与用户进行互动时。研究者追求将人工智能与人类价值观进行对齐，大语言模型输出的结果应该满足帮助性 (Helpfulness) 、真实性 (Honesty) 及无害性 (Harmless）的3H原则。由于上述3H原则体现出了人类偏好，因此基于人类反馈的强化学习很自然地被引入了通用对话模型的训练流程。

基于人类反馈的强化学习主要分为奖励模型训练和近端策略优化两个步骤奖励模型通过由人类反馈标注的偏好数据来学习人类的偏好，判断模型回复的有用性，以及保证内容的无害性。奖励模型模拟了人类的偏好信息，能够不断地为模型的训练提供奖励信号。在获得奖励模型后，需要借助强化学习对语言模型继续进行微调。OpenAl在大多数任务中使用的强化学习算法都是近端策略优化 (ProximaPolicy 最优化，PPO)算法。近端策略优化可以根据奖励模型获得的反馈优化模型，通过不断的迭代，让模型探索和发现更符合人类偏好的回复策略。近端策略优化涉及以下四个模型：(1)策略模型 (Policy Model) ，生成模型回复。(2)奖励模型(Reward Model) ，输出奖励分数来评估回复质量的好坏。(3)评论模型(Critic Model)，预测回复的好坏，可以在训练过程中实时调整选择对未来累积收益最大的行为。(4)参考模型(Reference Model)，提供了一个SFT 模型的备份，使模型不会出现过于极端的变化。近端策略优化算法的实施流程为：(1)环境采样:策略模型基于给定输入生成一系列的回复，奖励模型则对这些回复进行打分获得奖励。(2)优势估计:利用评论模型预测生成回复的未来累积奖励，并借助广义优势估计(Generalized Advantage Estimation，GAE)算法估计优势函数，有助于更准确地评估每次行动的好处。(3)优化调整:使用优势函数来优化和调整策略模型，同时利用参考模型确保更新的策略不会有太大的变化，从而维持模型的稳定性。

混合专家系统

混合专家系统(混合物of-Experts, MoE),是目前预训练万亿参数模型的关键技术。该模型是在不过度增加计算成本的前提下，提高神经网络模型容量的有效手段。MoE的基本思想是由许多专家子网络构建出一个统一网络，其中每个输入由一个合适的专家子集处理。因此，与标准神经网络相比，MoE只调用了整个模型的一小部分，从而产生了如GLaM等语言模型应用程序所示的高效率。GLaM体系架构中的每个输入 token 被动态路由到64个专家网络中的两个进行预测。与稠密模型相比,MoE中的条件计算可以在相同计算量下大幅提升模型参量。然而在大规模集群中高效且有效地训练MoE仍然具有挑战。混合专家系统类思路是目前大模型落地比较优质的路径。过去十几年来，人工智能尤其是深度学习技术的发展积累了很多优质的模型，将大模型与混合专家系统等优质模型结合，将是未来大模型由纯数字经济，向数字经济赋能实体经济转变的重要途径。

提示工程

提示工程（Prompt Engineering）主要应用于提示词开发和优化，帮助用户将大语言模型用于各场景和研究领域。掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。研究人员可利用提示工程来提升大语言模型处理复杂任务场景的能力，如问答和算术推理能力。开发人员可通过提示工程设计、研发强大的工程技术，实现和大语言模型或其他生态工具的高效接轨。提示工程不仅仅是关于设计和研发提示词。它包含了与大语言模型交互和研发的各种技能和技术。提示工程在实现和大语言模型交互、对接，以及理解大语言模型能力方面都起着重要作用。用户可以通过提示工程来提高大语言模型的安全性，也可以赋能大语言模型，比如借助专业领域知识和外部工具来增强大语言模型能力。

工作原理

大语言模型通过利用深度学习技术和大量文本数据来运行。该模型通常基于转换器架构，它擅长处理文本输入等顺序数据。在训练过程中，该模型学习根据句子前面单词来预测下一个单词。它通过将概率分数归因于重复的已标记单词（分解为较小的字符序列）来实现这一点。然后，这些标记被转换为嵌入，嵌入是该上下文的数字表示。为了确保准确性，这个过程涉及在大量文本语料库（数十亿页）上训练大语言模型，使它能够通过零样本和自我监督学习来学习语法、语义和概念关系。经过这些训练数据的训练后，它就可以根据收到的信息自动预测下一个单词，并利用它们获得的知识来生成文本。从而生成连贯的语言，可用于广泛的内容生成任务。该模型还可以通过即时工程、即时调优、微调和其他策略来提高模型性能，这是确保企业级 LLM 随时可用，不会使组织承担不必要的责任或对组织声誉造成损害的最重要的方面之一。

典型模型及对比

训练成本

训练通用的大语言模型非常“烧钱”。例如，OpenAI的GPT-4模型训练成本超过1亿美元。随着模型规模的增大，训练成本急剧上升，2023年发布的模型训练成本已逼近2亿美元。预计到2024年底或2025年初，新一代模型的训练成本可能已逼近10亿美元。以ChatGPT在1月的独立访客平均数1300万计算，其对应芯片需求为3万多片英伟达A100GPU，初始投入成本约为8亿美元，每日电费在5万美元左右。如果将当前的ChatGPT部署到谷歌进行的每次搜索中，需要512820.51台A100 HGX服务器和总共4102568个A100 GPU，这些服务器和网络仅资本支出就超过1000亿美元。

应用

大语言模型的应用于社会科学、自然科学以及形式科学领域。截至2023年，大语言模型已经在很多领域开始产品化落地，除了ChatGPT这类产品，主要还有以下一些主流的应用：

办公Copilot类产品

微软最早尝试在自己旗下的Office系列软件中应用大语言模型。通过使用大语言模型，可以对word文档进行总结并提出修改编辑的建议，也可以对所给的文章进行总结；Microsoft Excel中的各种复杂操作也可以直接通过描述就处理数据；Microsoft Office PowerPoint中通过对提出要求识别就能自动生成一份展示内容；Outlook中直接使用自然语言来生成邮件内容等功能，实现真正的AI秘书。

Github Copilot类产品

将大语言模型应用于Github Copilot类产品后，能够直接通过对话方式进行各种功能代码的生成，包括帮忙写测试用例、解释代码片段和debug程序问题。这个功能对解放程序员生产力取得了革命性的进步，能让开发人员更多的关注到业务理解，系统设计，架构设计等更高级需求的事情上。

教育知识类产品

得益于大语言模型强大的理解以及知识储备，很多公司将该模型嵌入了知识类产品进行应用当中。chatPDF中嵌入大语言模型后，可以帮助经常看论文的科研人员快速地通过问答的方式进行文章的信息提取，理解以及总结重要内容，大大提升了阅读新论文的效率。对于学习语言的人来说，一款叫嵌入大语言模型后的Call Annie的软件基本能取代口语老师的角色，并且可以无限时间，随时随地进行口语对话练习。

搜索引擎和推荐系统

大语言模型可以应用于企业的搜索引擎和推荐系统，通过深度学习算法，对用户的搜索意图进行准确理解，提供更精准的搜索结果和个性化的推荐内容。这有助于提升用户体验，增加用户黏性，提高企业的转化率和销售额。

计算相关上下游相关产业

为了跟上大语言模型的训练和推理速度，很多公司正在积极探索基于GPU、FPGA和ASIC等硬件的加速制造技术。此外，云计算技术的发展也为大语言模型的训练提供了更多的计算资源支持。

除了应用于上述这些领域外，大语言模型还在算法优化、隐私和数据安全以及模型可解释性等方面有应用，有很多大语言模型的应用正在不断涌现，国内的优秀大语言模型代表例如百度文心也正在搭建全系统产业化的大模型全景。

局限性

安全性不高

安全性是大型语言模型面临的重要问题之一。大语言模型能够应用于各个学科领域的任务,但同时这也就意味着该类模型面临广泛的内容安全问题。尽管大语言模型已经通过基于人类反馈的强化学习等多种方法,尝试将模型输出对齐至人类价值观,但语言模型在应用至各个领域时仍容易被恶意使用,从而生成偏见言论、煽动性言论、隐私侵犯言论等不安全的文本。

成本高昂

大语言模型的训练和部署需要大量的计算资源和人力资源，成本非常高昂。对于一些中小型企业而言，难以承担这些成本，也难以获得足够的技术支持和资源。企业级应用最好使用百亿级基础模型，根据不同需求训练不同的垂直模型，只需要负担垂直训练成本。但是，企业如何实现高效的垂直训练，如何控制成本，仍是大模型面临的问题之一。

无法保障内容可信：

可信度是目前大型语言模型的重要局限之一。尽管以大语言模型可用于解决各类真实场景中的问题,但其仍会生成不可信的文本。当前使用者只能根据自己需求去验证生成的内容是否真实可信，很难具有权威说服力。同时,模型在解决涉及推理的问题时,可能因推理过程错误而得到不可信的结果。这对其研究发展和应用落地均有负面影响。

参考资料

硅谷这场AI大战中，Meta彻底掉队了.华尔街见闻官方账号.2023-12-18

大语言模型综述文章.中国人民大学高瓴人工智能学院.2023-12-17

..2024-01-06

观点 | 大语言模型的技术发展及金融领域应用展望.金融电子化杂志社官方账号.2023-12-18

黄荣怀：准确把握新一轮科技革命赋能教育变革的核心价值.中国教育新闻网官方账号.2023-12-18

原创 | 大模型扫盲系列——初识大模型.清华大学大数据研究中心官方账号.2023-12-18

高手论技 | 大模型的基石——Transformer框架.《中国信息技术教育》杂志旗下账号.2023-12-18

马斯克Grok开源.财联社-今日头条.2024-03-18

..2024-01-06

The history, timeline, and future of LLMs.Toloka.2024-01-01

What is a Large Language Model?.scribble Data.2024-01-06