你需要对ChatGPT、Claude、DALL-E、Firefly、StableDiffusion或Llama2如何解码提示以及如何使用提示有一个基本的了解

先做个广告：如需代注册GPT4帐号或代充值 GPT4.0会员（plus），请添加站长微信：gptchongzhi

今日份知识你摄入了么？

推荐使用GPT中文版,国内可直接访问：https://ai.p6p6.cn

编写适当的提示语是一项非常艰巨的任务。有些人似乎总能从GPT中获得比其他人更好的结果。要想写出有效的提示语，让你的想法得到确切的结果，就必须了解GPT模型是如何工作的。你需要对ChatGPT、Claude、DALL-E、Firefly、StableDiffusion或Llama2如何解码提示以及如何使用提示有一个基本的了解。

在DiffusionBee中使用RealVisXL30模型生成，采用“黑暗幻想”风格，使用582个字符的提示符，通过不同权重调整光照、光源等。

图片来自作者

在本文中，我们将深入探讨提示工程的秘密，以及各种模型如何逐步处理你的提示。我还将用通俗易懂的英语进行解释，避免涉及不同步骤的数学背景。本文的目的是让你扎实地了解这些模型，从而更有效地进行提示。本文是有效提示的实践指南，不会过于理论化或具体化。

GPT如何处理你的提示

这里所说的人工智能模型是指生成预训练转换器，简称GPT。你给它一个文本，它就会返回一个输出，可以是一个新的文本、图像、视频或音频流。无论它被训练成什么样子。

什么是张量以及GPT“大脑”的结构

首先，GPT并不是类人的实体。它有能力产生看起来类人的输出。像HuggingFace或Civitai上的开源模型会将它们的信息存储为GGUF或Safetensors文件类型中的张量。所有的GPT都以一种形式或另一种形式使用张量。

张量的简单解释

将张量想象成一个神奇的盒子，可以容纳数字，就像玩具盒容纳玩具一样。但是，这个盒子不仅可以有玩具，还可以有许多行和列的数字，它以一种特殊的方式帮助我们理解事物之间的关系。

现在想象一下，GPT就像一个由张量组成的大型三维蜘蛛网，里面有小的“盒子”装着数据。这些小盒子是GPT训练过程的结果。每个小“盒子”（张量）都与另一个小“盒子”（张量）相连，它们之间也都相互连接。有些与彼此直接相连，有些通过它们的同行间接相连。这个蜘蛛网构成了GPT模型的“大脑”。

显示GPT内部信息网的GPT“大脑”幻想图

GPT是如何使用“大脑”的

由于GPT的“大脑”是一个大型网络（不要误解为神经网络！），每个GPT都有不同类型的网络，并以不同的方式处理它。根据你的提示，它可以识别出其“大脑”或“网络”中与提示最相关的部分。

(Simplified)生成文本或图像的GPT模型的不同步骤，图片来自作者

当你向GPT发送提示文本时，它首先会将文本分成标记。标记是具有相互关系的小文本片段。就像在学校里分析句子的语法一样。有了这些标记，GPT就会权衡特定标记（或“单词”）的重要性以及它们之间的关系。这种“结构化提示”可以想象成信息框的小网格，即张量。

然后，GPT会使用“结构化提示”找到最相关的其他信息框，并在一个称为“扩散”的过程中将它们混合在一起。它会在多个迭代（或循环）中执行这个过程，直到达到配置的最大循环次数。在每个周期内，它还会评估先前的结果。一旦完成了定义的循环次数，它会将结果返回给用户。无论结果的质量如何。

以张量为目标进行有效提示

现在，进入实际操作部分。在大多数情况下，你会在大脑中凭借着对最终结果的模糊想象来提示GPT。你的想象力是你的大脑根据之前的所见所闻创造出来的。现在，你需要用语言（最好是英语）将这种想象从你的大脑转移到GPT的大脑中。

确保GPT模型已掌握信息

对于GPT-4、Claude 3或Mixtral等大型模型来说，缺乏信息并不是问题，但对于小型开源模型来说，这却是一个问题。首先，你需要确保模型已经训练好了所有必要的数据。如果你给它发送了一个很好的提示，但它的“大脑”却没有你所指的信息，那么输出的质量就不会达到预期的形式。在制作一个完整的提示之前，先尝试一些较小的提示，看看模型是否拥有你所需要的数据。

憨豆船长：英国星际舰队“荒唐号”飞船指挥官

为RealVisXL30（稳定扩散XL）提供提示

«(((STAR TREK COMBADGE)))((masterpiece))，屡获殊荣的电影作品仍然以mrbean，mr_bean，Mr Bean的形象呈现，饰演一位星际迷航船长，穿着星际迷航制服。红色衬衫，黑布裤子。深色妆容，超详细的摄影，柔和的光线。充满活力，美丽，富有绘画感，细致，有质感，艺术气息浓厚。浅景深，晕影，高度详细，高预算，背景虚化，电影宽幅画面，沉郁，史诗般，华丽，电影颗粒感，粗糙感。((Vogue magazine)),((NatGeo people)),((Conde Nast))，完美的照明，完美的阴影，体积照明，次表面散射，（科幻海报）»

底片：低质量，最差质量，劣质，低分辨率，糟糕照片，劣质艺术作品，构图不佳，解剖结构不准确，签名，文字，错误，裁剪，JPEG伪影

请注意RealVisXL30既有大量与星际迷航相关的训练数据，也有来自Mr.Bean的数据。由于该模型有数百万张图片用于训练，仅输入“Mr.Bean作为星际迷航船长”是无法得到所需图片的。通过在提示周围添加额外的关键词和权重，可以明确地指导RealVisXL30模型选择能够产生所需图片的张量。其中大部分是“猜测训练数据”，并假设模型具有特定的风格或结构（或者简单地说是“网络”）。

定义权重和目标张量

许多关于提示的教程都会提到“风格”、“情感”之类的东西。通过在提示中描述具体事物，可以将GPT引向必要的张量。描述“情感”、“风格”等会引导GPT在大脑中找到这些张量。此外，使用完整的语言，而不仅仅是关键词，也有助于GPT更好地解读提示。

Anthropic Claude 3 Opus(2024年2月29日)的提示要求写一个关于曼哈顿的小短文，字数为500个字符。按照Karl Baedeker在20世纪编写的旅行手册风格进行撰写。假设曼哈顿存在于George Orwell的书《1984》中描述的世界中。

曼哈顿，大洋国首都的跳动心脏，充斥着党的忠诚子民不断的活动。高耸的玻璃和钢铁建筑如同英社集体力量的象征。无产阶级群众在老大哥电视屏幕的监视下，在灰暗的街道上蹒跚而行。思想犯罪者，请小心行事--思想警察时刻保持警惕。但不要害怕，因为在曼哈顿，正统意味着无需思考。无知就是力量。

这个提示特意不包括“旅行指南”一词，因为那会导致Claude GPT选择大量学习的旅行指南数据。这会完全覆盖Karl Baedeker风格的提示。这是需要对模型进行彻底测试的发现。

这种特定行为可以在所有主要模型（GPT-4、Claude 3和Gemini）中观察到，被称为马太效应。除了正确地设计你的提示，并一遍又一遍地与模型进行测试，没有其他方法。

了解并处理幻觉效应

通常描述为“幻觉”的效应出现在模型要么没有足够的数据来匹配提示，要么数据中存在导致对特定张量产生重大偏向的数据点（马太效应会导致“GPT幻觉”）

有几种方法可以消除幻觉效应。

最简单的方法是检查提示中的变化，删除可能导致幻觉的任何内容。
如果减少提示并不能减少幻觉，则重新开始提示工程。
如果模型继续出现幻觉，那么它显然缺乏完成任务所需的训练。你需要一个新的模型，或者用RAG（检索-增强生成）来扩展它。

让自己回想一下我们之前的网络插图。幻觉是指你的提示将GPT引向其方格网的边缘。你实质上是在要求它获取一个特定的内容，而它并没有这个盒子（没有经过训练），或者这个盒子藏在一堆其他盒子里（偏向其他信息，马太效应）。

当提示“（（（MontanaBlack））的肖像）”时，模型JuggernautXL会对德国YouTuberMontanaBlack产生幻觉，因为它缺乏来自社交媒体的任何训练数据（剧透：他是一名白人男性）

设计和维护良好的提示基础

你使用的提示文本在某种程度上可以比作计算机软件的源代码。你需要对提示文本进行跟踪，最好还能对其进行版本控制。使用Github资源库对最佳提示进行排序和分类无疑是一种好方法。我个人使用Civitai来存储图片和提示语，以便日后使用。这完全取决于你。

# My boilerplate prompt for creating magazine-like # high quality images with RealVisXL30 and JuggernautXL## Prompt((masterpiece)), award winning cinematic film still of **DESCRIBE SCENE HERE**. Dark makeup, hyperdetailed photography, soft light. Vibrant, beautiful, painterly, detailed, textural, artistic . shallow depth of field, vignette, highly detailed, high budget, bokeh, cinemascope, moody, epic, gorgeous, film grain, grainy. ((Vogue magazine)), ((NatGeo people)), ((Conde Nast))## Negative Promptlow quality, worst quality, bad quality, lowres, bad photo, bad art, bad anatomy, bad hands, signature, text, error, cropped, jpeg artifacts

由于每个模型的训练数据和“信息网络”都完全不同，因此熟悉任何新模型都非常重要。Claude 3与GPT-4或Gemini几乎完全不同。在使用各种生成图像或视频的GPT时，这一点就更加明显了。