文|光锥智能 姚悦
编辑|王一粟
大模型“跑”进手机,AI的战火已经从“云端”烧至“移动终端”。
(资料图)
“进入AI时代,华为盘古大模型将会来助力鸿蒙生态。”8月4日,华为常务董事、终端BG CEO、智能汽车解决方案BU CEO 余承东介绍,通过盘古大模型的底层技术,Harmony OS带来了下一代智能终端操作系统。
在手机上使用大模型早已不是新鲜事,此前ChatGPT、文心一言、妙鸭等APP、小程序都是通过调用云端算力,满足手机终端AI应用的需求。
下一步,则是让大模型直接运行在手机上。
从今年四、五月开始,美国科技三巨头——高通、微软、英伟达,最受瞩目的AI新星OpenAI,以及国内AI“头部战队”的腾讯、百度等,都已经纷纷加速推进在移动终端的轻量化部署AI大模型。高通甚至宣布,正在逐渐转型成一家智能边缘计算(在移动终端等数据源头提供计算服务)的公司。
巨头的群力强推下,大模型从云到端迈进的产业趋势已经十分明确。
大模型为什么,要“跑”在手机上?
大模型的最大特点就是“大”,动辄百亿千亿甚至万亿参数,且为了更好运行大模型,算力集群都已经升级到“万卡”级别。如今,为什么又非要把大模型“塞”进巴掌大的小手机?
大模型确实会给手机用户带来一些体验上的提升。例如,华为终端智能助手小艺不仅可以根据语音提示推荐餐厅,还可以进行摘要总结、信息检索、多语种翻译等信息处理,数千字的英文长文,具备大模型能力的手机智能助手就可以生成摘要,还可以翻译成中文。尤其后一点,在信息爆炸时代,对于提高学习工作效率还是很有价值的。
华为终端BG AI与智能全场景业务部总裁贾永利解释,一方面,大语言模型具备泛化能力,能够帮助手机智能助手提升理解能力。另一方面,大模型Plug-in的插件能力,可以在手机内部打通各应用之间的壁垒,借助工具拓展能力。
此外,ChatGPT等AIGC应用一直以来都伴随着强烈的隐私安全争议,但如果完全在端侧运行,就能够完全避免这一问题。因为大模型在端侧运行,数据也不会离开端侧。而且,这样响应的速度还会更快。
另一边,大模型对于到手机等移动终端的需求也已经非常迫切。
大模型的汹涌之势让云端越来越无法独自承载算力的需求。高通高级副总裁Alex Katouzian近期就直言,“随着连接设备和数据流量加速增长,叠加数据中心成本攀升,(我们)不可能将所有内容都发送到云端。”
不算数据传输要消耗网络带宽、存储,以及硬件等大量资源,光是云端算力现在已经让相关厂商有些吃不消。ChatGPT仅在推理阶段,保守估计每个月算力成本在1000万美元左右。
最大的问题还不是“贵”,而是“缺”。
此前,就连OpenAI创始人Sam Altaman都自曝GPU很缺,甚至直言不希望太多人用ChatGPT。近期,也有业内人士推测,小型和大型云提供商的大规模H100集群容量即将耗尽,H100的需求趋势至少会持续到2024年底。当前英伟达H100的产能还严重受制于供应链。
所以,云端和终端形成配合,手机等终端闲置算力资源被利用起来,解决“集中式”算力与“分布式”需求的错配,已经成为大模型发展“降本增效”的确定趋势。更重要的是,相比数量有限的中心节点,众多的移动终端堪称触及万千场景的“毛细血管”,也就决定了这一入口会是大模型加速应用渗透的关键。
如何把大模型“装进口袋”?
“相比传统的PC或者服务器,移动终端最大的挑战就是如何平衡好体验和能耗,这是鸿蒙内核设计最重要的核心点之一。”华为终端业务软件部总裁龚体强调。
大模型需要大量的计算资源和存储资源,尤其是基于现有的手机硬件配置,这就需要软件系统做好协调,提升效率降低能耗。
现在手机为了提高性能,至少是8个芯片内核,就需要手机系统做协同,这个过程就会消耗大量算力。如果采用异构资源调度,就可以高效协调CPU、GPU、NPU。龚体表示,这样调度效率可以提升60%以上。
手机系统能够进行运算,调度的最小单位叫做线程,传统的操作系统中往往上万线程同时运行,其中就会存在大量无效线程。针对这点,就可以通过更轻量的并发模型来处理并发操作,降低无效线程切换对算力的消耗。据龚体说,并发模型可以让任务切换开销节省50%。
另外,在操作系统的任务调度方面,这也是影响流畅体验的最基本要素,相比公平调度,动态优先级调度会很大程度降低能耗。动态优先级调度就类似于一个智能交通系统,可以根据道路状况和交通流量,动态调整交通信号灯亮起状态,如当某个方向的车流增加时,该方向的信号灯就提前变绿,就会减少拥堵和延迟。
不过,要想让大模型部署到手机上,还能运转起来,光是手机操作系统升级改进还远远不够。
随着大模型预测越来越准确,网络越来越深,神经网络消耗的内存容量已成为核心问题。同时,还涉及内存带宽的问题,网路运行时,内存、CPU和电池都会飞速消耗,这绝对是现在的手机难以承受之重。
因此,在部署到手机之前,就必须对大模型进行压缩,以降低对推理算力的需求。但是,一定要确保原有性能和精度基本不变。
量化就是一种常见且重要的压缩操作,可以减少模型占用的内存空间,提高推理性能。本质上就是将浮点运算模型转化为整数运算模型,因为整数运算比浮点运算精度更高,运算速度也更快。
当前,量化技术也已经在加速突破。服务器上训练的模型一般采用32位浮点运算(FP32),在手机端,高通已经将FP32模型量化压缩到INT4模型,实现64内存和计算能效提升。高通的实现数据表明,在借助高通的量化感知训练后,不少AIGC模型可以量化至INT4模型,与INT8相比,性能提升约90%,能效提升大约60%。
大模型压缩技术,无疑是AI巨头制胜移动终端战场的关键因素。这也在一定程度上,解释了英伟达在今年2月为什么“悄悄”收购了掌握压缩大模型技术的人工智能初创公司OmniML。
大模型倒逼终端硬件升级
“本年度我们将能够支持参数达100亿的生成式AI模型在手机上运行。”高通产品管理高级副总裁兼AI负责人Ziad Asghar近期则对外表示,100亿-150亿参数的模型可以覆盖绝大多数AIGC用例。如果终端已经可以支持这一参数级别,运算可全部在终端上进行,手机会成为真正的个人助理。
但是,当前新一代旗舰版手机芯片也就可以承载运行10亿参数级大模型,高通在今年6月计算机视觉学术顶会 CVPR 上,成功演示的跑在安卓系统上的大模型,也不过15亿参数。
参数跃升几乎十倍,奔赴移动终端的大模型已踩下“油门”,那手机也就不得不加速升级才能应对。
手机硬件亟需在AI加速器和内存进行革新。
首先,更大参数的大模型,需要更大的内存和存储空间来存储模型参数和中间结果。这就要求移动终端内存芯片容量,以及内存接口带宽都进行升级。
其次,更大的参数势必需要更强大的计算和推理能力,处理输入数据和输出结果。
虽然,目前手机芯片上的AI加速器(例如各种NPU IP)几乎已经是标配,但设计基本上是针对上一代卷积神经网络设计,并不完全针对大模型。
为了适配大模型,AI加速器必须能有更大的内存访问带宽,并减少内存访问延迟。这就需要AI加速器的接口上做出一些改变(例如分配更多的pin给内存接口),同时也需要片上数据互联做出相应的改变,来满足AI加速器访存的需求。
高通能喊出“年内100亿参数跑手机”的重要原因之一,就是其手握搭载了高通史上最快速、最先进的AI引擎的第二代骁龙8处理器,相比第一代骁龙8处理器,AI性能提升了4.35倍,能效提升60%。
当然,超大规模参数大模型的训练和推理,即便在云端也亟待突破五堵墙:内存墙+算力墙+通信墙+调优墙+部署墙,手机更得一层一层去突破。
不过,从“智能”到“人工智能”,对于手机来说,机遇大于挑战。
“创新周期对电子消费品的影响更为重要,甚至可以带领一个产业走出经济周期的影响。”荣耀终端CEO赵明判断,当前智能手机行业就处在一个AI、5G+开启的新一轮创新周期中。
责任编辑:
关键词:
- 家电行业进入多元化 我国智能家电市场规模进一步增
- 佛山向欧盟出口供暖设备同比增长154.4% “暖家电”
- 格兰仕家用电器持续增持 占公司总股本1.24%
- 面板厂商持续加码产能 OLED能否迎来爆发式增长?
- 洗鞋机是一匹“黑马”吗? 能否创造下一个风口
- 8月空调行业最忙碌 它们将哪些新动作又将如何惊艳
- 8月8日,一个值得记住的日子
- 把大模型装进手机,分几步?
- 直播电商数字化再升级 谦寻发布AI数字人业务和一站
- 拜仁CEO:诺伊尔受伤时索默扭转了困难的局面,我们
- 明朝大将蓝玉竟被剥皮后送给王妃
- 梅清看山
- 虹软科技股东瑞联新产业减持812万股 套现3.17亿 2
- 瀚川智能:拟回购不低于3000万元且不超过6000万元公
- 建发新胜(00731.HK):施晨烨辞任执行董事兼副行政总裁
- 课程分享 光影7号c4d和 AE商业实战
- 铜川高新实验学校招聘启事
- 中泰证券给予春秋航空买入评级 时刻与航网优化 引
- 夏亦丰:代建行业的集中度非常高 | 博鳌快讯
- 新华全媒+|天津:午夜循光访洪区
- @司机,运输一次性不可降解塑料制品进岛将处罚,列
- 困难职工帮扶管理办法(困难职工帮扶系统)
- 东鹏饮料业绩大增,券商看好其潜力和发展战略|挖掘
- 华润双鹤:子公司药品注射用兰索拉唑通过仿制药质量
- 三星:两款折叠新机在韩国本土预售量达102万部 创
- 伟时电子5.9亿元可转债申请获上交所受理
- 硝酸铵化学式是什么意思 硝酸铵化学式
- 苹果Vision Pro新专利公布:嵌入iPhone可充当屏幕
- 《乐夏3》公布阵容:共27支乐队,那英等以超级乐迷
- “大运会是新的起点!”
- 哈尔滨尚志市新闻头条 黑龙江尚志市:致全体市民的
- 宝安区标尚学校2023年小一自主招生公告
- 青海都兰:草原风光美如画 千年牧道转场忙
- 不到200米的小路开了三家书店,到这里感受“书香杨
- 机构:上半年国内乘用车中控及仪表盘显示器搭载量同
- 上海市奉贤区人大常委会原主任袁晓林一审被判刑十年
- 安踏李宁瞄准“女性生意”
- 恒宇天泽一私募产品或涉“资金池”,托管人招商证券
- 悬疑剧成为优爱腾的「降温神器」
- 两笔美元债利息未付 碧桂园称出现流动性压力 正优
- 五种专科不建议专升本 都是什么
- 合力泰控制权转让进展
- 山东40条政策措施进一步提振扩大消费 涉及汽车、住
- 京东方入股,天禄科技加速TAC膜国产化
- 国家标准委等六部门联合印发 《氢能产业标准体系建
- 宏微科技精彩亮相2023慕尼黑上海电子展
- 车评头条:风神新A60首试:老酒换新瓶酒香还在不
- 2023年8月8日压滤机破胶絮凝剂价格最新行情预测
- 八亿时空“年产100吨显示用液晶材料二期工程”项目
- 瑞联新材:未来的增长主要是面板平均尺寸的增长
- China Orient Asset Management (International
- 美巢腻子粉怎样辨别真伪
- 受害人敲诈勒索立案的标准
- 想买5系的等等!宝马525Li、530Li或将停产 全新5系
- 8月上旬面板价格出炉:电视面板续涨
- 2倍牛股突然闪崩,发生了什么?业绩创新高股出炉,
- 无人机升起涿州通信“生命线”
- 快递不慎掉落路上,公交人接力完璧归赵
- 乳腺囊肿是怎么回事啊怎样形成的(乳腺囊肿是怎么回
- 小黄车押金退不回来找哪个单位有用_小黄车押金退不
- 万达集团高级副总裁刘海波被带走 分管集团投资业务
- 上海青浦中环境秋悦庭被投诉“地下车库漏水墙面发霉
- 安格尔:家居新宠都是更好的提升了用户体验
- 彭文生:公共债务与代际平衡
- 第十一届茅奖提名名单出炉 5部作品曾入选封面新闻
- 正保会计网校:财会高端人才紧缺 职业教育促进人才
- 为什么人们选择硅打造半导体元器件
- 新疆着力培养相关专业技术人才 促进传统工业与数字
- 浦发银行合肥分行积极做好公众服务,依托活动拓展公
- 多支救援队在河北涿州开展重点区域清淤排涝工作
- 银河磁体:公司目前没有进行用于车辆悬浮和牵引系统
- 有消息称,抖音生活服务上半年 GMV 超 1000 亿元
- 高中家长会欢迎词500字(高中家长会欢迎词)
- 北京市场监管:房山区受水浸、水泡电梯已达近千部,
- 立秋丨耕耘有时 收获将至
- 金山娱乐2023官方版-2.09 Inurl:fayunsi(金山娱乐)
- 广西认定24家科技成果转化中试基地 产学研用拧成一
- 美国男篮热身赛首发出炉:莺歌、华子、布伦森、大乔
- 朱艳花(对于朱艳花简单介绍)
- 江苏镇江供电公司在扬中市开展新型电力系统试点
- 国际奥委会媒体运行前总监:中国办赛的能力令人叹服
- 国家文物局回应社会关切 将继续解决博物馆预约难问
- 重庆从查办一案到治理一域 “室组地”联动督促除险
- 小米Civi 3手机如何打开游戏助手
- 李玟老公求李玟二姐公布李玟去世真相,他为爱妻付80
- 【柳工海外行】布局西非 | 柳工落子科特迪瓦
- 通源石油上半年净利润创近5年最好水平,各项经营指
- 协昌科技今日申购 顶格申购需配市值5万
- 福原爱遭法院强制执行 江宏杰律师曝1难处
- 男子买房,开发商送1000克金条,直接卖了变现45万!
- 首旅酒店:8月7日融资净买入1359.34万元,连续3日累
- 原油市场风险偏好回升 关注OPEC+减产情况
- 国安VS津门虎首发浮现:池忠国搭档归化国脚 新锋霸
- 立秋·风动蝉鸣听秋声 暑气犹未消|万物有时·物候志
- 地平线4无人机怎么升高(地平线4无人机怎么升高不了
- 电影《学爸》成都路演 被问是否是“学霸”黄渤笑了
- 司改联盟呼吁蔡政府兑现司改承诺 亡羊补牢
- 保定周边旅游景点(河北保定十大旅游景点)
- 转移资产、售卖房屋,男子因拒不执行判决罪获刑6个
- 蓝溪(关于蓝溪简述)
- 蓝武(关于蓝武简述)
- 机械式自动什么意思(机械自动挡什么意思?)
- 成都大运会|希望今天的成绩能让更多人喜欢水球
- 手游天下3任务攻略(天下3必做任务)
- 养蝴蝶兰怎么养(养蝴蝶兰只要做好这4点)
- 马努特 波尔 马努特波尔体重