首页网页编程编程综合正文

我要投稿

深入探究ChatGPT的工作原理

admin 编程综合

2023-12-05 0 812

目录

这篇文章主要探讨了ChatGPT的工作原理。ChatGPT是基于OpenAI开发的GPT-4架构的大型语言模型。首先，文章介绍了GPT的基本概念，即生成预测性网络模型。GPT模型利用大量的文本数据进行训练，从而学会在各种情境中生成连贯的文本。

接着，文章详细阐述了训练过程，分为预训练和微调两个阶段。在预训练阶段，模型学习理解文本数据，包括词汇、语法、事实等；在微调阶段，模型使用具有限制性任务的数据集来调整，以获得更准确的输出。作者还提到了训练数据的来源，强调了在大量网络文本数据中获取知识的重要性。

在解释输出生成时，文章提到了一个关键技术：集束搜索（Beam Search）。这是一种启发式搜索策略，用于选择最优文本序列。此外，作者强调了解决生成内容问题的策略，包括设置过滤器和调整温度参数。

最后，文章讨论了ChatGPT的局限性，例如处理输入数据时可能会产生偏见，或无法回答一些问题。尽管如此，作者指出ChatGPT是一个强大的工具，能够在各种任务中提供有价值的帮助。

像ChatGPT这样的大型语言模型实际上是如何工作的？嗯，它们既非常简单又极其复杂。

你可以将模型视为根据某些输入计算输出概率的工具。在语言模型中，这意味着给定一系列单词，它们会计算出序列中下一个单词的概率，就像高级自动完成一样。

要理解这些概率的来源，我们需要谈论一些叫做神经网络的东西。这是一个类似网络的结构，数字被输入到一侧，概率被输出到另一侧。它们比你想象的要简单。

想象一下，我们想要训练一台计算机来解决在3×3像素显示器上识别符号的简单问题。我们需要像这样的神经网络：

一个输入层
两个隐藏层
一个输出层。

我们的输入层由9个称为神经元的节点组成，每个像素一个。每个神经元将保存从1（白色）到-1（黑色）的数字。我们的输出层由4个神经元组成，每个神经元代表可能的符号之一。它们的值最终将是0到1之间的概率。

在这些之间，我们有一些神经元的排列，称为**“隐藏”层**。对于我们简单的用例，我们只需要两个。每个神经元都通过一个权重与相邻层中的神经元相连，该权重的值可以在-1和1之间。

当一个值从输入神经元传递到下一层时，它会乘以权重。然后，该神经元简单地将其接收到的所有值相加，将该值压缩在-1和1之间，并将其传递给下一层中的每个神经元。

最后一个隐藏层中的神经元执行相同的操作，但将值压缩在0和1之间，并将其传递到输出层。输出层中的每个神经元都保存一个概率，最高的数字是最可能的结果。

当我们训练这个网络时，我们向它提供一个我们知道答案的图像，并计算答案与网络计算的概率之间的差异。然后我们调整权重以接近预期结果。但是我们如何知道如何调整权重呢？

我们使用称为梯度下降和反向传播的巧妙数学技术来确定每个权重的哪个值会给我们最低的误差。我们不断重复这个过程，直到我们对模型的准确性感到满意。

这被称为前馈神经网络- 但这种简单的结构不足以解决自然语言处理的问题。相反，LLM倾向于使用一种称为Transformer的结构，它具有一些关键概念，可以释放出很多潜力。

首先，让我们谈谈单词。我们可以将单词分解为token，这些token可以是单词、子单词、字符或符号，而不是将每个单词作为输入。请注意，它们甚至包括空格。

就像我们的模型中将像素值表示为0到1之间的数字一样，这些token也需要表示为数字。我们可以为每个标记分配一个唯一的数字并称之为一天，但还有另一种表示它们的方式，可以添加更多上下文。

我们可以将每个 token 存储在一个多维向量中，指示它与其他标记的关系。为简单起见，想象一下在二维平面上绘制单词位置。我们希望具有相似含义的单词彼此靠近。这被称为embedding 嵌入。

embedding 有助于创建相似单词之间的关系，但它们也捕捉类比。例如，单词“dog”和“puppy”之间的距离应该与“cat”和“kitten”之间的距离相同。我们还可以为整个句子创建 embedding 。

transformer的第一部分是将我们的输入单词编码为这些embedding。然后将这些嵌入馈送到下一个过程，称为attention，它为embedding添加了更多的上下文。attention在自然语言处理中非常重要。

Embedding难以捕捉具有多重含义的单词。考虑bank这个词的两个含义。人类根据句子的上下文推断出正确的含义。Money和River在每个句子中都是与bank相关的重要上下文。

attention的过程会回顾整个句子，寻找提供词汇背景的单词。然后重新调整 embedding 权重，使得单词“river”或“money”在语义上更接近于“word bank”。

这个 attention 过程会多次发生，以捕捉句子在多个维度上的上下文。在所有这些过程之后，上下文 embedding 最终被传递到神经网络中，就像我们之前提到的简单神经网络一样，产生概率。

这是一个大大简化了的LLM（像ChatGPT这样的语言模型）工作原理的版本。为了简洁起见，本文省略或略过了很多内容。

编辑中可能存在的bug没法实时知道，事后为了解决这些bug,花了大量的时间进行log 调试，这边顺便给大家推荐一个好用的BUG监控工具 Fundebug。

以上就是深入探究ChatGPT的工作原理的详细内容，更多关于ChatGPT工作原理的资料请关注悠久资源网其它相关文章！

您可能感兴趣的文章:

macbook安装环境chatglm2-6b的详细过程
ChatGPT平替- ChatGLM多用户并行访问部署过程
ChatGPT平替-ChatGLM环境搭建与部署运行效果
ChatGLM 集成LangChain工具详解
基于prompt tuning v2训练好一个垂直领域的chatglm-6b
ChatGPT将批量文档翻译成中文的方法
一文带你快速梳理ChatGPT、GPT4和OpenAPI的关系
在小程序中实现ChatGPT 聊天打字兼自动滚动效果
linux环境部署清华大学大模型最新版chatglm2-6b图文教程

收藏 (0) 打赏

感谢您的支持，我会继续努力的!

打开微信/支付宝扫一扫，即可进行扫码打赏哦，分享从这里开始，精彩与您同在

点赞 (0)

悠久资源编程综合深入探究ChatGPT的工作原理 https://www.u-9.cn/biancheng/bczonghe/98657.html

ChatGPT 原理 ChatGPT工作原理

admin

上一篇： MobaXterm详细使用图文教程(MobaXterm连接Linux服务器)

下一篇：基于Python和Java实现单词计数(Word Count)

常见问题

相关文章

VSCode远程XHR failed无法连接的问题及解决方案

VSCode远程XHR failed无法连接的问题及解决方案

编程综合

admin

3周前 506

ApacheBeam中的延迟数据处理方法

ApacheBeam中的延迟数据处理方法

编程综合

admin

3周前 1,102

typescript 实现RabbitMQ死信队列和延迟队列(订单10分钟未付归还库存)的过程

typescript 实现RabbitMQ死信队列和延迟队列(订单10分钟未付归还库存)的过程

编程综合

admin

4周前 457

VSCode远程XHR failed无法连接的问题及解决方案

VSCode远程XHR failed无法连接的问题及解决方案

编程综合

admin

4周前 68

猜你喜欢

VSCode远程XHR failed无法连接的问题及解决方案 2024-04-22
ApacheBeam中的延迟数据处理方法 2024-04-22
typescript 实现RabbitMQ死信队列和延迟队列(订单10分钟未付归还库存)的过程 2024-04-19
VSCode远程XHR failed无法连接的问题及解决方案 2024-04-19
如何部署kubernetes-dashboard改成http免密登录 2024-04-19
ApacheBeam中的延迟数据处理方法 2024-04-19
一文弄懂字符集编码 2024-03-01
轻量级思维导图XMind 2023免费激活教程 2024-03-01
VSCode SSH远程连接与删除的实现步骤 2024-03-01
MobaXterm远程连接Linux服务器(Ubuntu)图文教程 2024-03-01

发表评论

暂无评论

官方客服团队

为您解决烦忧 - 24小时在线专业服务

联系官方团队在线提交工单

如遇问题，请联系客服
联系客服请注明来意高端主题开发
微信公众号

总裁主题·高端主题
返回顶部