从 M1 Max 开始,M 家族的 Neural Engine 就一直都是 16 核,Max 系列算力也从 11 TOPS 涨到目前的 18 TOPS ( https://www.anandtech.com/show/21116/apple-announces-m3-soc-family-m3-m3-pro-and-m3-max-make-their-marks ),不过讲真在现在这个时间节点,这点能力还是不够看啊。
毕竟隔壁高通的骁龙 X Elite 中集成的 Hexagon NPU 算力都怼到 45 TOPS 了,主打就是一个 LLM 的能力作为宣传的噱头。
这么看的话,用新的 M3 Max 来跑本地大模型似乎不怎么靠谱啊,也难怪发布会上都不咋提 ML 或 AI 能力的。所以,到底要不要换机啊,感觉下一代芯片的 AI 算力应该会得到强化,要不要再等一等...
1
lqcc 355 天前 1
A16 NPU 17 TOPS, A17 pro NPU 35 TOPS.
|
3
chonger 355 天前
跑大模型不是和显卡和显存有关吗? 4090 有 npu 吗?这点不太清楚,有人知道的话请指教
|
4
nicoljiang 355 天前
@oppurst 主要是 A17pro 支持 int8 ,35 应该是 8 的性能,M3 的 18 应该是指 16 的性能
|
5
lqcc 355 天前
@nicoljiang 根据这篇文章所说,如果统一以 INT16 标准,那 M1/M2/M3 对应的 NPU 分别是 11 、15.8 、18 TOPS 。A16 与 A17 Pro NPU 速度差不多,都为 17 TOPS 左右。不同的是 A17 Pro 支持 INT8 。
|
6
sharpy 355 天前
用 metal 跑在 GPU 上啊
|
8
xixun 355 天前 via iPhone
今年 m3m 最大显存倒是升级了
|
9
Rorysky 355 天前
苹果的 AI 战略确实落后,不知道是不是再憋大招
|
10
Mark24 355 天前
隔壁 骁龙 X Elite 是 PPT ,预计明年年中才上市。
M 家族是现货 你让骁龙现在就拿出来卖啊 :D |
13
wanguorui123 355 天前
A17 Pro 的制程红利基本上全部用到 NPU 上了达到 35T
|
14
lqcc 355 天前
@wanguorui123 根据我看到的文章,这个 35 TOPS 可能是 INT8 跑出来的,苹果其它 A 系 M 系芯片跑分是 INT16/FP16 。所以这个 35T 要打对折。
|
15
xixun 355 天前 via iPhone 1
高通那个不是 int4 吗
|
17
xixun 355 天前 via iPhone
@lqcc https://machinelearning.apple.com/research/neural-engine-transformers https://www.apple.com/by/iphone-13-pro/ https://www.apple.com/go/2022/iphone-14-pro/
都以 fp16 计算 13pro 官网说是 15.8 万亿次是 15.8TFlops 14p 是 17 万亿次 15p 提升一倍理应也是 35TFlops |
18
lqcc 355 天前
@xixun A15/A16/A17 pro 神经网络引擎都是 16 核心,A15 是 15.8 TOPS ,A16 是 17 ,A17 pro 再打鸡血,也不能在不增加核心数目的前提下跑分达到上一代的 2 倍吧。
|
21
orangie 355 天前
终端机器,移动设备,跑大模型,短期内我是不信的,蹭热点罢了。短期内就算浮点性能和内存够用,移动设备的电池不适合。之前吹 npu 的时候,也没见有什么终端上的智能应用能改善体验,唯一明显的就是各家都开始用模型来给相机 P 图了。
|
22
lqcc 355 天前
@xixun 这个两倍不知道苹果按什么计算的。
感兴趣可以看看这个文章: https://www.photoroom.com/inside-photoroom/core-ml-performance-benchmark-2023-edition 神经引擎跑分,A17 pro 大概比 A16 提升 16%。看看以后有没有新的消息出来。 |
23
neopenx 355 天前
ANE 需要走 CoreML 跑。18T 应该就是 FP16 的设计峰值。
要是通过 GPU 走 Metal 的话,满血 M2 Max 的 FP32 才 14T 。 苹果短期内应该不打算融合 ANE 和 GPU ,也就是维持 ANE 以低功耗优势,继续挤牙膏。 鬼知道几年后可以追平 3060 的 50T FP16 TensorFlops 设计峰值。 |
24
xinyu198736 355 天前
苹果跑大模型最大的问题是他的内存管理机制不是很可控,当大模型内存快占满的时候,内存容易被分走,导致模型迅速变慢。。
|
25
nicoljiang 354 天前
@xixun 不太相信同厂商自己的 同制程 同代际 芯片中 移动芯片某项数值能吊打桌面芯片。
|
26
LuvLetter 300 天前
@lqcc 有的应用是 memory bound, 瓶颈不在算力; ANE 这种 ASIC 不能单看核数, 还得看架构;
@nicoljiang ANE 一直都支持 int8, 没有 A17Pro 才支持 int8 的说法, 4bit 也很早就有了 https://developer.apple.com/wwdc23/10047 |