最近这段时间,大语言模型(LLM)火了起来,而这一现象和趋势也给许多AI创业者或智能产品的从业者们带来了更多思考。比如本文作者便曾经在几年前尝试过智能写作产品研发,在大语言模型火了之后,他对语言模型、对先前的创业项目又有了新的思考,一起来看。
2019年,我们在做智能写作的时候,面临的最大的挑战就是AI给的数据效果和预期偏差太远。特别是做扩写的时候,发现生成的文字很容易跑偏。
(资料图)
当时,我们做了很多算法和模型研究。几乎爬取了全网的自媒体文章,然后训练一批模型,问题依然很多。因为中文博大精深各种修辞手法和阴阳怪气,再加上随着时代的发展,特殊词的用法也如雨后春笋一般涌现,如何让AI能跟上人类语言的理解能力是个让人头痛的问题。
当时我们也训练了不少语言模型,发现它根本无法弄懂词的含义,无法理解“心灵鸡汤”和“鸡汤”是完全两码事,写出了“老鼠爱喝心灵鸡汤”的令人啼笑皆非的错误;另外,很容易跑偏,从“心灵鸡汤”跑偏到“老鼠喝汤”再跑偏到“动物世界”,一口气扩写出几百个字,能跑偏到十万八千里,让人完全摸不着头脑。
在试了很多方案之后,我们得到了一个结论:机器无法真正理解人类的语言。然后,我们悄悄把“扩写”放到了“实验室”的板块,放弃了文本生成的持续研发。
AI生成文字这条路到底通不通?到2023年,在没有体验ChatGPT之前,我还是持保留态度,但是体验之后,我忍不住惊呼:“这三四年的时间到底发生了什么?”
我和大家一样,重新补起了功课……
一、什么是语言模型?
语言模型(Language Model)是一种机器学习算法,它可以根据给定文本来预测下一个词语或字符的出现的概率。
语言模型通过大量的文本数据来学习语言的统计特征,进而生成具有相似统计特征的新文本。其核心目标是建立一个统计模型,用来估计文本序列中每个词语或字符出现的概率,从而实现语言生成、语言理解等自然语言处理任务。
比如,我们可以给一句话让ChatGPT做扩写:
我今天吃了一个___
它可能会扩写出“苹果”,“馒头”、“面包”、“汉堡”。根据大量的文本统计,这些词出现频率大致如下图:
苹果为0.07,馒头为0.035,面包为0.025,汉堡为0.022。
因为”苹果“出现得比较多,ChatGPT大概率会写出”今天我吃了一个苹果“。但它不太可能预测出”我今天吃了一个火车”,因为”火车“不是食物,虽然语法通顺。但喂给GPT训练的语料里面基本没有人会这样造句。
正是因为GPT在训练过程中吸收了大量的人类语言数据,所以我们会觉得它的回答符合我们的逻辑。
人类区别于普通动物的最主要智慧特征可能就是强大的语言能力。语言不仅仅只是一种沟通工具,还包含着人类的思考逻辑和对世界的认知。
不管AI是否有真正的智慧,我相信只要语言模型的预测能力做到极致,就能够让人类信以为真。
二、概率从哪里来?
那么,语言模型是如何预测概率的呢?这要从200多年前的贝叶斯学派说起。
贝叶斯定理,由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发明的。其主要思想就是,通过已知的知识来预测接下来要发生事情的概率。即我们通过以往的经验、分析或实验,可以推断出一些事件发生的概率。为了更好的理解,我们举个预测地震的例子。
假设有人收集了大量历史数据,我们可以发现地震和自然界的某些异常现象有某种关系,如鸡飞狗跳、老鼠上街、青蛙搬家、湖水干涸等现象,我们可以根据历史的数据事先计算好这些现象出现的概率,叫做先验概率。地震的概率可以写作P(地震),异常现象的概率可以写为P(异常现象),例如,老鼠上街的概率可以写作P(老鼠上街)。
正所谓:一切偶然背后都会有个必然。根据历史数据,我们可以算出地震和异常现象的概率关系,我们称之为条件概率。例如,在某个异常现象发生后出现地震的概率,可以写作P(地震|异常现象),先决条件写在|后面。如果是已知地震再计算异常现象的概率,也可以反过来P(异常现象|地震)。
有了这些数据,我们就可以根据观测,预测还未发生的地震了。通过观测一些现象来预测的还未发生的概率,这叫做后验概率,我们记为P(新地震|异常现象)。
例如,P(新地震|鸡飞狗跳)表示的是我们观测到鸡飞狗跳,预测可能发生地震的概率。这时我们可以用到贝叶斯公式。
后验概率=(先验概率*条件概率)/证据概率
我们把预测地震的例子迁移回语言模型。假设要预测在给定“吃”这个词之后,下一个词是“苹果”的概率,即P(苹果|吃)。
首先,语言模型学习了大量的文本数据,获得了大量的先验知识,已经知道了P(吃|苹果)、P(苹果)和P(吃)这三个概率值。其中,P(吃|苹果)表示在给定“苹果”这个词之后,出现“吃”的概率;P(苹果)表示“苹果”这个词出现的概率;P(吃)表示“吃”这个词出现的概率。
然后,我们可以根据贝叶斯定理,计算后验概率P(苹果|吃):
我们还可以通过输入法的联想词模拟整个句子的生成过程。
我们以“今天吃”这个词作为输入,语言模型会继续根据统计数据,计算出在“今天吃”这个词之后,各个词出现的概率。例如,它可能计算出“饭”这个词出现的概率为0.4,“了”这个词出现的概率为0.35,“的”这个词出现的概率为0.33……我们结合语境选择“了”,然后输入法刷新联想词,然后我们选择“一个”。依次重复这个过程,最终得到了“今天吃了一个苹果”的句子。
大家可能也注意到了它的问题。输入法的语言模型,只能预测上一个词和下一个词的关系,如果没有人类的主动选择就很容易跑偏,这是一个长文本预测的问题。
在2019年,我们遇到了问题是一样的。而且我们在实际应用中我们会使用更加复杂的模型,我们会用到一些RNN等深度学习的技术,让语言模型可以预测更长一点的句子。但是针对长文本依然无法解决跑偏的问题。
当时的解决方案就是一句一句的扩,让用户随时可以纠正偏差。但问题是这种扩写的意义又在哪里呢?让我对AI文本生成的信仰顿时崩塌。
三、什么是大语言模型(LLM)?
2023年,让整个人类最为振奋的AI技术就是ChatGPT。“大语言模型(Large Language Model)”这个词也随之映入人们的眼帘。ChatGPT让人觉得惊艳之处,能够结合上下文,像人一样有逻辑性地回答问题,就算生成超长的文本也不会跑偏。到底什么是大语言模型?
大语言模型与普通语言模型相比,大语言模型的一个显著区别在于其规模。大语言模型通常具有大量的参数,并且在训练过程中使用了巨量的文本数据。大型语言模型的参数规模通常与效果成正比,能够更好地理解和生成自然语言文本,更好地完成各种自然语言处理任务,如写作、翻译、问答等。
GPT优秀之处是做了前无古人的突破性的尝试,使用了巨量的参数和预训练数据。GPT-3拥有1750亿个参数,使用了45TB的文本数据进行训练。训练数据和参数量都远远超过传统的语言模型。
1. 大规模的参数有什么用?
我们要从词嵌入(Word Embedding)说起,为帮助语言模型更好地理解每个词的特征和含义, 我们需要使用大量的参数来存储和处理信息。我们会将这些词嵌入一个高维的向量空间里面,像GPT-3的向量空间的维数就有12288,这意味着GPT-3可以使用12288个维度来充分理解某个词。对于很多单词的理解可能比人类都要透彻。
语言模型还可以通过词向量空间中的位置的远近来理解词与词之间的关系。
假设我们的词向量空间有三个维度:颜色、形状和类别。我们有三个单词:“苹果”、“橘子”、“手机”,应该如何嵌入到向量空间呢?
“苹果”和“橘子”都属于水果类别,因此它们在类别维度上的值相同都是用数字“1”表示;但“苹果”的颜色是红色用数字“1”表示,而“橘子”的颜色是橙色用数字“2”表示;至于形状维度,由于“苹果”和“橘子”的形状都是圆形,都用数字“1”表示,于是有下面这个数值。
“手机”属于电子产品类别,数值用“3”表示;手机的形状是方的,数值用“2”表示;颜色是多色的,数值用“8”来表示。
他们之间的关系可以一目了然地展示在向量空间的关系中,如下图:
我们可以看到语义相似的单词在向量空间中彼此靠近。当GPT在生成文字的时候,它可以根据向量空间知道“苹果”和“橘子”是一类水果,在“吃”的语境中可以相互替换。
但是这也有新的问题,“苹果”也有可能是指生产手机的“苹果公司”, GPT怎么能知道“苹果”是否特指“苹果公司”呢,根据不同的语境推理出不同含义的“苹果”呢?
2019年,如何结合语境,让语言模型能够准确地理解词的含义,这在当时也是个巨大的难题。我们当时想的策略也相对简单粗暴,就是通过命名实体技术强制将它们标记为不同的实体名词,例如,“苹果手机”类别为电子产品,“苹果公司”为企业。但是遇到的问题是,我们没有办法列举完所有的命名实体,需要不断扩充新词库;另外在很多语境中“苹果”就能代表”苹果公司“和”苹果手机“,没办法根本解决这个问题。
GPT-3高明之处就是使用上下文相关的词嵌入方法和自注意力机制来解决这个问题。它的词嵌入方法考虑了单词在给定文本中使用的上下文,而自注意力机制则允许模型在生成文本时考虑前面的所有的单词。最终,让机器能更好地理解语境 ,解决词的多义性和歧义性问题。
2. 什么是注意力机制?
GPT的Transformer模型通过使用自注意力机制(Self-attention mechanism),能够让模型在处理每个单词时都能考虑到文本中所有单词的信息,从而更好地捕捉文本中的长距离依赖关系,解决了长文本的跑偏的问题。这在传统的模型中是无法做到的。
注意力机制的灵活性来自于它的“软权重”特性,即这种权重是可以在运行时改变的,可以根据上下文来推断出单词的含义,来达到更好的预测效果。
举个例子,假设我们有一个句子:“我喜欢吃苹果,但我不喜欢苹果手机。”在这个句子中,“苹果”这个词出现了两次,第一个“苹果”是指一种水果,而第二个“苹果”是指一种手机品牌。
如果是没有注意力机制的模型来处理这个句子,那么模型可能会将两次出现的“苹果”都当做水果来处理。但对于GPT来说就不一样了,它能够根据上下文来推断出每次出现的“苹果”的含义。
这主要归功于GPT包含的巨量参数中不仅仅包含了词汇的意义,还包含了词在句子中结构和语法、语言风格、语境信息等等。
注意力机制可以通过计算每个词的相似度来实现注意力权重的计算。当它处理第一个“苹果”时,会注意到前面有一个权重较高的“吃”字,因此会推断出这里的“苹果”指的是一种水果;而当模型处理第二个“苹果”时,它会注意到后面有一个权重较高的“手机”,因此会推断出这里的“苹果”指的是一种手机品牌。
我们可以简单模拟一下这个注意力权重的计算过程。
假设我们有个三维的词向量空间,我们先把“我”、“喜欢”、“吃”、“苹果”这4个词嵌入到这个空间里面:
如果绘制成图,他们在向量空间中的关系一目了然。如下图,两个词越是接近,关系就越紧密。
语言模型可以用数学方法来分别计算“苹果”与“我”“喜欢”“吃”三个词的权重分数,我们可以通过向量的点积计算方式模拟计算一下,值越大代表的是向量的相关性越大:
通过计算我们发现“吃”的相似度最大为2.66,那就说明“吃”这个词相对于“苹果”应该有更高的注意权重。
或许看到这里,你已经觉得自己消耗了不少的脑细胞。但似乎我们也能够理解GPT的工作量是有多么的大。因为要不断地动态的生成和预测下个词,需要消耗大量的算力。没办法一步到位,所以它只能是一个字一个字地给你呈现出来。
算力也是我们在2019年遇到的难题,因为训练模型的沉没成本很高。稍微复杂一点的模型训练可能需要几天的时间,但是你也没有办法保证预期结果。而且,在模型训练好之后,用户还需要长时间的等待计算结果,导致体验非常糟糕。对于一个争分夺秒的创业团队来说,显然有些不切实际。
所以我们当时思路是尽可能把模型做多做小,按照不同的文章分类进行训练,想通过这种方式平衡时间和效果,但效果依然不尽人意。从今天的结果来看,没有通用的大语言模型作为基座,把模型做小做细基本就是一条不归路。最终,我们放弃了文本生成算法的持续研发。
GPT的成功之处,不仅仅是技术的成功,也是在商业上面的成功。有了微软的算力加持,可以更好的保证模型训练和服务体验,才能在普通的用户人群获得巨大的反响。
四、尾声
今天,在ChatGPT闪耀的光环之下,我们看到OpenAI的CEO 山姆·奥特曼(Sam Altman) 风光无限,我在短视频平台经常能刷到他的精彩演讲语录,我也总是希望能够从他的成功经历上学到点什么。
如果有一天,我拿着2023年的大语言模型的论文,穿越回了2019年,重新开始智能写作的项目,我会做得更好吗?其实,我依然觉得很难,因为创业需要“天时地利人和”。
先不提OpenAI所在的土壤对于创新极其的开放,它吸纳了全球最顶尖的人才,并获得了资本的鼎力支持。光是能够看清未来的方向,并且能够坚定不移地走下去,也是我们大多数创业团队无法企及的高度。
对于一个创业者来说,看见未来很重要,但认清自己也很重要。看见未来,你才能坚定不移地走下去;认清自己,你才能力所能及地把事情做得更好。在没有能力之前,需要先学会成长;在机遇没有到来之前,需要先学会等待;在没有成功之前,也要学会选择坚持。
现在ChatGPT的热度之下,又有一些朋友重新投入到AI创业的大潮中。雷军说过:“站在风口,猪也能被吹上天”。但是风很大,浪也会很急,挑战也会很多。希望各位创业者能够一帆风顺。
专栏作家
PM熊叔,微信公众号:PM熊叔,人人都是产品经理专栏作家。教育类产品产品经理出身,学过设计,做过开发,做过运营的产品经理。
题图来自 Unsplash,基于 CC0 协议
责任编辑:
关键词:
- 硬核科普:从贝叶斯定理到大语言模型,智能写作创业者的探索之路|环球观速讯
- 【新视野】高争民爆(002827):6月12日技术指标出现看涨信号-“红三兵”
- 每日速看!合肥各地开展弘扬传统文化绽放非遗魅力活动
- 延边农商行开展吉信e开户专题培训
- 焦点关注:小鹏P7i/G9支持Apple Watch车控 可一键开关车锁及车内控温
- OpenAI首席执行官会见SK Networks总裁,据悉讨论人工智能公司的投资合作|焦点要闻
- 安徽省太和县发布雷电黄色预警|当前通讯
- 环球头条:安徽省人事网 安徽省事业单位招聘网
- 二氧化锆烤瓷牙价格表2021(二氧化锆烤瓷牙价格表)
- 月哭·彼岸香_对于月哭·彼岸香简单介绍_每日速看
- 家电行业进入多元化 我国智能家电市场规模进一步增
- 佛山向欧盟出口供暖设备同比增长154.4% “暖家电”
- 格兰仕家用电器持续增持 占公司总股本1.24%
- 面板厂商持续加码产能 OLED能否迎来爆发式增长?
- 洗鞋机是一匹“黑马”吗? 能否创造下一个风口
- 8月空调行业最忙碌 它们将哪些新动作又将如何惊艳
- 硬核科普:从贝叶斯定理到大语言模型,智能写作创业
- 鸿海年内首次针对离职返岗者扩大招工-焦点速看
- 环球观焦点:TV面板价量齐升:群创、友达 5月营收
- 蔚来入股无线充电芯片解决方案提供商易冲科技
- 【全球新要闻】稻虾共养田里的“致富经”
- 雪梨人工智能新电商产业基地启动 近10万方超薇娅
- 【天天热闻】印度正式通知:指控小米涉非法对外转移
- 视点!作价2.785亿元!维信诺向参股公司许可738件专
- 越南“电荒”加剧!三星、富士康、立讯等遭冲击 要
- 【图解财报】途牛2023年Q1营收6320万元 净亏损750万元
- 浅析:产业互联网的商业逻辑与创新精要
- 【新视野】高争民爆(002827):6月12日技术指标出
- 世界最新:批复啦!副中心将新添两条重要道路!全长
- 谦寻新增简易注销公告
- 焦点热讯:产业链:华为上调2023年手机出货量目标至4
- 每日精选:亚马逊中国副总裁宋晓俊:未来5年全球零
- 把电力从“沙戈荒”送抵湖南 这个超级工程开工了!
- 全球播报:【图解财报】途牛2023年Q1营收6320万元
- 每日速看!合肥各地开展弘扬传统文化绽放非遗魅力活
- 江苏高邮警方通报轿车撞人事件:致2死7伤,涉事驾驶
- 每日热文:三门峡现代服务业开发区:开展学习交流
- 【天天快播报】辛巴辛有志:辛选持续助力地标品牌推
- 当前信息:印度电商Flipkart旗下平台Shopsy下载量突
- 焦点报道:德国电商巨头Otto集团退出俄罗斯市场
- 全球热文:抖音终止外卖业务今年达成1000亿元GMV目标
- 华泰柏瑞中证沪港深互联网ETF净值上涨1.70% 请保持
- 延边农商行开展吉信e开户专题培训
- 王欣瑜/谢淑薇斩获法网女双冠军 两分钟谈妥确定搭
- 深圳华南城商管公司与杭州市滨江区直播产业联合会达
- OpenAI首席执行官会见SK Networks总裁,据悉讨论人
- Xbox发布会汇总:星空、2077资料片、神鬼寓言|全球
- 泰国小岛游!位于普吉岛南部,有纯净无污染的海水和
- 焦点关注:小鹏P7i/G9支持Apple Watch车控 可一键
- 【你好武汉】明起,恢复对外开放!
- 文登区:“四季采摘”火了小日子
- 安徽省太和县发布雷电黄色预警|当前通讯
- 龙胆泻肝丸要吃多久才能停药_龙胆泻肝丸要吃多久
- 最新资讯:699元都买不了袜子?张雨绮道歉:语言表
- 环球头条:安徽省人事网 安徽省事业单位招聘网
- 说普通话不标准怎么办(说普通话)
- 全球热门:慈善机构需要更多的钱英语(慈善机构)
- 二氧化锆烤瓷牙价格表2021(二氧化锆烤瓷牙价格表)
- 早起的鸟儿有虫吃下一句 早起的人儿(早起的鸟儿有
- 安徽省人民政府安全生产职责暂行规定
- 月哭·彼岸香_对于月哭·彼岸香简单介绍_每日速看
- 上古卷轴5结婚代码教程_上古卷轴5结婚代码-精选
- 《山村》(山村贵妇大结局)
- 青春时尚的连衣裙,更加凸显身高,时髦又个性 天天
- 祝凤喈 每日信息
- 薨怎么读啊_薨怎么读
- 动态焦点:下周资本市场大事提醒:5月各项经济、金融
- 【全球热闻】清远古龙峡自驾游攻略_清远古龙峡攻略
- 小米11pro是什么样子|当前焦点
- 全球观焦点:女甲第8轮综述:海南琼中女足8战全胜高
- 职业发展 or 生活质量?“张雪峰工作模式”引发思考
- 谁是下一个网文大神?高校新锐作家选拔赛启动 热讯
- 今日要闻!苏氏墓地里的一句“苏迷”留言 让中国苏
- 全网最强大学期末备考资料!超200科精华期末备考资
- 当前资讯!富佳股份06月02日被沪股通减持4.38万股
- 邮报:利物浦对沃德-普劳斯持观望态度,南安普顿要
- 新资讯:战舰世界涂装MOD 做了路易斯安那的碧蓝航
- “幸福鼓楼”2023社区文化艺术节开幕|每日短讯
- 信德新材控股成都昱泰的三大疑点
- 从“国家宝藏”到“何以中国”,总台文博类综艺这样
- 屈氏体有什么特征_屈氏体-环球关注
- 世界今头条!图灵奖得主杨立昆:AI的逻辑推理和规划
- 观察:游戏陪玩行业乱象调查:不少未成年接单,线下
- 天天最资讯丨亚油酸的功效与作用的作用(亚油酸的功
- 润际新材首发过会,公司产能扩张不能满足境内客户需
- 高考收官:这一刻 让我抱抱你! 环球最新
- 聚焦世遗 | 多图集锦来啦!“文化和自然遗产日”
- 世界聚焦:“高端烘焙”难割年轻人
- 百度:第三代昆仑芯明年初规模上市 大模型算力不成
- macintosh hd有什么用(macintosh) 世界热点
- 天天热消息:香港岭南大学分数线河北(香港岭南大学
- 【环球聚看点】王力宏方发声否认李靓蕾在美国胜诉
- 微动态丨行动研究法的实施步骤中的就是形成旨在改进
- 最新:金信英吧_金信英
- 当前观察:力挺!小波特低迷场均7分 马龙:他不会掉
- 全球播报:云集美股涨14.51%
- 定了!皇马第二签锁定中场万金油,德国国脚登陆伯纳
- 打屁股的方法越疼越好怎么回事(打屁股的方法越疼越
- 深圳统租城中村陷舆论漩涡,官方称统租工作已暂缓,
- 【揭秘】北方人如何选择具有升值潜力的熙海蓝天二手
- 中国经济新闻奖评委会主任冯并:评选将进一步促进我
- 9成产品“赚到钱”!部分债基开始限购_焦点关注
- a4四折页标准尺寸_四折页尺寸多少|全球速看料
- 什么二胡琴弦最好 天天热头条
- 世界视讯!取四朵用石蕊溶液染成紫色的纸花(取四朵
- 义乌京东代运营服务_提供一站式电商代运营解决方案_
- mjstyle是什么牌子 mjstyle 兼职(mjstyle是什么牌子)
- 电导率单位us/cm和s/m关系(电导率单位)
- 每日讯息!美国夫妇为钱太多发愁!他们在地下室发现1
- 红烧牛腩的家常做法简单又好吃_红烧牛腩的家常做法|
- 每日速递:络腮胡怎么留有气质_络腮胡怎么留
- 当前简讯:文学类书籍排行榜_文学类书籍
- 世界即时看!华硕BIOS修复蓝屏解决方法需要哪些步骤
- 国内物价运行总体平稳——解读5月份CPI和PPI数据_世
- 当前资讯!中方驳斥:无中生有、信口雌黄、恶意诋毁
- 环球快看点丨昔日荒山变为幸福“金山” 桃园变成农