硬核科普：从贝叶斯定理到大语言模型，智能写作创业者的探索之路

Update: 2023-06-11

Description

2019年，我们在做智能写作的时候，面临的最大的挑战就是AI给的数据效果和预期偏差太远。特别是做扩写的时候，发现生成的文字很容易跑偏。

当时，我们做了很多算法和模型研究。几乎爬取了全网的自媒体文章，然后训练一批模型，问题依然很多。因为中文博大精深各种修辞手法和阴阳怪气，再加上随着时代的发展，“米”、“口罩”、“W”等特殊词的用法也如雨后春笋一般涌现，如何让AI能跟上人类语言的理解能力是个让人头痛的问题。

当时我们也训练了不少语言模型，发现它根本无法弄懂词的含义，无法理解“心灵鸡汤”和“鸡汤”是完全两码事，写出了“老鼠爱喝心灵鸡汤”的令人啼笑皆非的错误；另外，很容易跑偏，从“心灵鸡汤”跑偏到“老鼠喝汤”再跑偏到“动物世界”，一口气扩写出几百个字，能跑偏到十万八千里，让人完全摸不着头脑。

在试了很多方案之后，我们得到了一个结论：机器无法真正理解人类的语言。然后，我们悄悄把“扩写”放到了“实验室”的板块，放弃了文本生成的持续研发。

AI生成文字这条路到底通不通？到2023年，在没有体验ChatGPT之前，我还是持保留态度，但是体验之后，我忍不住惊呼：“这三四年的时间到底发生了什么？”

我和大家一样，重新补起了功课……

一、什么是语言模型？

语言模型（ Language Model）是一种机器学习算法，它可以根据给定文本来预测下一个词语或字符的出现的概率。

语言模型通过大量的文本数据来学习语言的统计特征，进而生成具有相似统计特征的新文本。其核心目标是建立一个统计模型，用来估计文本序列中每个词语或字符出现的概率，从而实现语言生成、语言理解等自然语言处理任务。

比如，我们可以给一句话让ChatGPT做扩写："我今天吃了一个___"

它可能会扩写出“苹果”，“馒头”、“面包”、“汉堡”。根据大量的文本统计，这些词出现频率大致如下图：

苹果为0.07，馒头为0.035，面包为0.025，汉堡为0.022。

因为”苹果“出现得比较多，ChatGPT大概率会写出”今天我吃了一个苹果“。但它不太可能预测出”我今天吃了一个火车”，因为”火车“不是食物，虽然语法通顺。但喂给GPT训练的语料里面基本没有人会这样造句。

正是因为GPT在训练过程中吸收了大量的人类语言数据，所以我们会觉得它的回答符合我们的逻辑。

人类区别于普通动物的最主要智慧特征可能就是强大的语言能力。语言不仅仅只是一种沟通工具，还包含着人类的思考逻辑和对世界的认知。

不管AI是否有真正的智慧，我相信只要语言模型的预测能力做到极致，就能够让人类信以为真。

二、概率从哪里来？

那么，语言模型是如何预测概率的呢？这要从200多年前的贝叶斯学派说起。

贝叶斯定理，由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发明的。其主要思想就是，通过已知的知识来预测接下来要发生事情的概率。即我们通过以往的经验、分析或实验，可以推断出一些事件发生的概率。为了更好的理解，我们举个预测地震的例子。

假设有人收集了大量历史数据，我们可以发现地震和自然界的某些异常现象有某种关系，如鸡飞狗跳、老鼠上街、青蛙搬家、湖水干涸等现象，我们可以根据历史的数据事先计算好这些现象出现的概率，叫做先验概率。地震的概率可以写作P(地震)，异常现象的概率可以写为P(异常现象)，例如，老鼠上街的概率可以写作P(老鼠上街)。

正所谓：一切偶然背后都会有个必然。根据历史数据，我们可以算出地震和异常现象的概率关系，我们称之为条件概率。例如，在某个异常现象发生后出现地震的概率，可以写作P(地震|异常现象)，先决条件写在|后面。如果是已知地震再计算异常现象的概率，也可以反过来P(异常现象|地震)。

有了这些数据，我们就可以根据观测，预测还未发生的地震了。通过观测一些现象来预测的还未发生的概率，这叫做后验概率，我们记为P(新地震|异常现象)。

例如，P(新地震|鸡飞狗跳)表示的是我们观测到鸡飞狗跳，预测可能发生地震的概率。这时我们可以用到贝叶斯公式。

后验概率 = (先验概率 * 条件概率) / 证据概率

我们把预测地震的例子迁移回语言模型。假设要预测在给定“吃”这个词之后，下一个词是“苹果”的概率，即P(苹果|吃)。

首先，语言模型学习了大量的文本数据，获得了大量的先验知识，已经知道了P(吃|苹果)、P(苹果)和P(吃)这三个概率值。其中，P(吃|苹果)表示在给定“苹果”这个词之后，出现“吃”的概率；P(苹果)表示“苹果”这个词出现的概率；P(吃)表示“吃”这个词出现的概率。

然后，我们可以根据贝叶斯定理，计算后验概率P(苹果|吃)：

我们还可以通过输入法的联想词模拟整个句子的生成过程。

我们以“今天吃”这个词作为输入，语言模型会继续根据统计数据，计算出在“今天吃”这个词之后，各个词出现的概率。例如，它可能计算出“饭”这个词出现的概率为0.4，“了”这个词出现的概率为0.35，“的”这个词出现的概率为0.33……我们结合语境选择“了”，然后输入法刷新联想词，然后我们选择“一个”。依次重复这个过程，最终得到了“今天吃了一个苹果”的句子。

大家可能也注意到了它的问题。输入法的语言模型，只能预测上一个词和下一个词的关系，如果没有人类的主动选择就很容易跑偏，这是一个长文本预测的问题。

在2019年，我们遇到了问题是一样的。而且我们在实际应用中我们会使用更加复杂的模型，我们会用到一些RNN等深度学习的技术，让语言模型可以预测更长一点的句子。但是针对长文本依然无法解决跑偏的问题。

当时的解决方案就是一句一句的扩，让用户随时可以纠正偏差。但问题是这种扩写的意义又在哪里呢？让我对AI文本生成的信仰顿时崩塌。

三、什么是大语言模型（LLM）？

2023年，让整个人类最为振奋的AI技术就是ChatGPT。“大语言模型（Large Language Model）”这个词也随之映入人们的眼帘。ChatGPT让人觉得惊艳之处，能够结合上下文，像人一样有逻辑性地回答问题，就算生成超长的文本也不会跑偏。到底什么是大语言模型？

大语言模型与普通语言模型相比，大语言模型的一个显著区别在

Comments

In Channel

一起微调llama3，做自己的大模型！

2024-04-2602:44

人工智能经典《苦涩的教训》聊聊背后的思考

2024-04-1710:57

聊聊Mixlab Node：AI时代如何重塑内容创作产品与社区生态

2024-04-0809:56

AI时代，程序员会失业吗，还需要学习编程吗？

2024-03-2111:17

SORA会是职业发展的革新引擎吗？【下】

2024-03-0336:40

SORA会是职业发展的革新引擎吗？（上）

2024-03-0237:21

给大家看的AI绘画教程：如何使用AI来设计炫酷的产品概念图

2024-01-1409:35

AI时代下的超级个体：与Rui畅聊AI实时互动游戏

2023-12-1709:17

AIGC产品经理：传统产品经理转型的时代机遇与挑战

2023-11-2309:46

比尔·盖茨：AI代理人将彻底改变人们使用电脑的方式

2023-11-1418:17

AIGC工作流：新时代产品经理和创业者的秘密武器

2023-11-0510:33

春江水暖鸭先知：洞悉AIGC技术趋势，把握内容产业变革的先机

2023-10-1614:43

AI时代的产品经理的成长之路：可能是小宇宙最全的产品经理指南（中）

2023-09-2432:18

AI时代的产品思维：如何打造具有商业可行性的AI产品？

2023-09-2416:01

AI时代的产品管理：产品经理需要具备的5项技能

2023-09-2220:49

和西坡聊“整体产品”：一位AIGC产品经理的实践思考

2023-09-1409:08

突破不可能三角： AI创作工具，如何走出用户采纳的鸿沟？

2023-07-3018:36

AI时代的产品经理的成长之路：可能是小宇宙最全的产品经理指南（上）

2023-07-0323:29

硬核科普：从贝叶斯定理到大语言模型，智能写作创业者的探索之路

2023-06-1116:56

什么是用户体验地图？

2023-05-3008:31

00:00

硬核科普：从贝叶斯定理到大语言模型，智能写作创业者的探索之路

#box-pro-ellipsis-176132939345158{-webkit-line-clamp:2;}硬核科普：从贝叶斯定理到大语言模型，智能写作创业者的探索之路

硬核科普：从贝叶斯定理到大语言模型，智能写作创业者的探索之路

硬核科普：从贝叶斯定理到大语言模型，智能写作创业者的探索之路