LFM2.5-230M: Built to Run Anywhere¶
Ch04.383 LFM2.5-230M: Built to Run Anywhere¶
📊 Level ⭐⭐ | 6.6KB |
entities/liquid-ai-lfm2-5-230m.md
LFM2.5-230M: Built to Run Anywhere¶
Background:Liquid AI 发布其最小模型 LFM2.5-230M,专为边缘设备和 Agent 工作流设计。基于 LFM2 架构,在 Galaxy S25 Ultra 上达到 213 tok/s 解码速度,是当前同参数量级中推理速度最快的模型之一。
摘要¶
LFM2.5-230M 是 Liquid AI 发布的 230M 参数基础模型,定位于边缘设备部署和 Agentic 工作流。该模型在 19T tokens 上预训练,包含 32K 上下文扩展阶段,采用三阶段后训练配方(SFT 蒸馏 → DPO → 多领域 RL)。尽管参数量极小,它在工具调用、数据提取等任务上表现出色,且可在 Raspberry Pi 5 等低成本 CPU 上实时运行。
核心指标¶
- 参数量:230M
- 推理速度:Galaxy S25 Ultra 213 tok/s(解码), Raspberry Pi 5 42 tok/s
- 架构:基于 LFM2(SSM 混合架构)
- 预训练数据量:19T tokens
- 上下文窗口:32K
- 定位:Agent 工作流 + 数据提取
- 开源许可:Open-weight,无限制下载、微调和部署
- 可用形态:Base(LFM2.5-230M-Base)+ Post-trained(LFM2.5-230M)
训练与微调¶
模型采用精心设计的三阶段后训练配方,在保持下游适应性的同时平衡开箱即用能力:
- 监督微调 + 知识蒸馏:从 LFM2.5-350M 蒸馏,转移更大模型的能力
- 直接偏好优化(DPO):对齐人类偏好
- 多领域强化学习:在多个领域上进行 RL 训练以提升泛化能力
最终 checkpoint 在适应下游专项任务的同时,保持与更大模型的竞争力。
机器人端部署验证¶
Liquid AI 在 Unitree G1 人形机器人上验证了 LFM2.5-230M 的端侧能力:模型运行在机载 NVIDIA Jetson Orin 上,作为技能选择层——接收自然语言指令并将其分解为一系列工具调用,调用 NVIDIA SONIC 框架提供的底层预训练技能。经过快速微调,模型能将复杂指令(如"静止 2 秒,然后以 1m/s 向前走 3 米,单膝跪地 5 秒")转化为结构化的多步计划。
Benchmark 表现¶
尽管仅有 230M 参数,LFM2.5-230M 在 10 个 benchmark 上与超过其两倍大小的模型竞争甚至超越:
| 模型 | GPQA Diamond | MMLU-Pro | IFEval | IFBench | Multi-IF |
|---|---|---|---|---|---|
| LFM2.5-230M | 25.41 | 20.25 | 71.71 | 38.40 | 37.70 |
| LFM2.5-350M | 30.64 | 20.01 | 76.96 | 40.69 | 44.92 |
| Granite 4.0-H-350M | 22.32 | 13.14 | 61.27 | 17.22 | 28.70 |
| Qwen3.5-0.8B Instruct | 27.41 | 37.42 | 59.94 | 22.87 | 41.68 |
| Gemma 3 1B IT | 23.89 | 14.04 | 63.49 | 20.33 | 44.25 |
在工具调用和数据提取任务上同样表现出色:
| 模型 | CaseReportBench | BFCLv3 | BFCLv4 | τ²-Bench Telecom | τ²-Bench Retail |
|---|---|---|---|---|---|
| LFM2.5-230M | 22.51 | 43.26 | 21.03 | 5.26 | 13.68 |
| LFM2.5-350M | 32.45 | 44.11 | 21.86 | 18.86 | 17.84 |
| Granite 4.0-H-350M | 12.44 | 43.07 | 13.28 | 13.74 | 6.14 |
| Qwen3.5-0.8B Instruct | 13.83 | 35.08 | 18.70 | 12.57 | 6.14 |
注意:由于其紧凑尺寸,Liquid AI 不推荐将 LFM2.5-230M 用于推理密集型任务(高级数学、代码生成、创意写作)。
推理性能¶
CPU 推理¶
得益于 LFM2 架构的高效性,LFM2.5-230M 在 Raspberry Pi 5 和 Qualcomm Snapdragon Gen4(Galaxy S25 Ultra)上均实现了同类最佳的 prefill 和 decode 吞吐量,同时保持最小内存占用。针对不同设备的 flash-attention 标志也做了专门调优:Raspberry Pi 5 启用(-fa 1),Snapdragon Gen4 禁用(-fa 0)。
GPU 推理¶
Liquid AI 开发了内部 GPU 推理栈,实现极低延迟服务。在 SGLang 上对比其他小模型,LFM2.5 系列在所有并发级别上均实现了更低的端到端延迟。
生态系统支持¶
模型发布首日即获得全面推理框架支持:
- llama.cpp — GGUF 格式,高效边缘推理
- MLX — Apple Silicon 优化推理
- vLLM — GPU 加速生产级服务
- SGLang — GPU 加速生产级服务
- ONNX — 跨平台推理
- NexaSDK — 跨 Apple、AMD、Qualcomm、Nvidia 硬件
深度分析¶
对边缘 Agent 生态的意义¶
LFM2.5-230M 代表了小模型 + 高速推理这一 Agent 基础设施的关键拼图:
- 本地 Agent 闭环:无需云端 API,本地完成工具调用和决策推理,消除了网络延迟和 API 成本
- 实时交互:213 tok/s 的解码速度满足人机实时对话需求
- 隐私保障:数据不出设备,适用于医疗、金融等敏感场景
- 规模化部署:230M 参数的极小体积使得大规模端侧部署在经济上可行
技术路线意义¶
LFM2.5-230M 的成功验证了几个重要趋势:
- 架构效率比参数量更重要:LFM2 的 SSM 混合架构在极小参数量下仍保持强竞争力
- 蒸馏 + RL 的后训练配方:从 350M 模型蒸馏到 230M 模型的有效性表明,小模型可以通过精心设计的训练流程获得远超其体量的能力
- 端到端 Agent 链路:从自然语言理解到工具调用的完整链路可以在 230M 参数上实现
实践启示¶
- 数据提取场景优先考虑:LFM2.5-230M 在 CaseReportBench 上的表现表明它非常适合结构化数据提取管线
- 边缘部署首选方案:对于需要在消费级设备上运行的 Agent 工作流,这是当前最优选择之一
- 快速微调适配:机器人端部署案例表明,230M 参数模型可以快速微调适配特定领域
- 搭配更大模型使用:作为路由/技能选择层,搭配更大的推理模型形成分层 Agent 架构
相关实体¶
→ 原文存档