LFM2.5-230M: Built to Run Anywhere¶

Ch04.383 LFM2.5-230M: Built to Run Anywhere¶

📊 Level ⭐⭐ | 6.6KB | entities/liquid-ai-lfm2-5-230m.md

LFM2.5-230M: Built to Run Anywhere¶

Background：Liquid AI 发布其最小模型 LFM2.5-230M，专为边缘设备和 Agent 工作流设计。基于 LFM2 架构，在 Galaxy S25 Ultra 上达到 213 tok/s 解码速度，是当前同参数量级中推理速度最快的模型之一。

摘要¶

LFM2.5-230M 是 Liquid AI 发布的 230M 参数基础模型，定位于边缘设备部署和 Agentic 工作流。该模型在 19T tokens 上预训练，包含 32K 上下文扩展阶段，采用三阶段后训练配方（SFT 蒸馏 → DPO → 多领域 RL）。尽管参数量极小，它在工具调用、数据提取等任务上表现出色，且可在 Raspberry Pi 5 等低成本 CPU 上实时运行。

核心指标¶

参数量：230M
推理速度：Galaxy S25 Ultra 213 tok/s（解码）, Raspberry Pi 5 42 tok/s
架构：基于 LFM2（SSM 混合架构）
预训练数据量：19T tokens
上下文窗口：32K
定位：Agent 工作流 + 数据提取
开源许可：Open-weight，无限制下载、微调和部署
可用形态：Base（LFM2.5-230M-Base）+ Post-trained（LFM2.5-230M）

训练与微调¶

模型采用精心设计的三阶段后训练配方，在保持下游适应性的同时平衡开箱即用能力：

监督微调 + 知识蒸馏：从 LFM2.5-350M 蒸馏，转移更大模型的能力
直接偏好优化（DPO）：对齐人类偏好
多领域强化学习：在多个领域上进行 RL 训练以提升泛化能力

最终 checkpoint 在适应下游专项任务的同时，保持与更大模型的竞争力。

机器人端部署验证¶

Liquid AI 在 Unitree G1 人形机器人上验证了 LFM2.5-230M 的端侧能力：模型运行在机载 NVIDIA Jetson Orin 上，作为技能选择层——接收自然语言指令并将其分解为一系列工具调用，调用 NVIDIA SONIC 框架提供的底层预训练技能。经过快速微调，模型能将复杂指令（如"静止 2 秒，然后以 1m/s 向前走 3 米，单膝跪地 5 秒"）转化为结构化的多步计划。

Benchmark 表现¶

尽管仅有 230M 参数，LFM2.5-230M 在 10 个 benchmark 上与超过其两倍大小的模型竞争甚至超越：

模型	GPQA Diamond	MMLU-Pro	IFEval	IFBench	Multi-IF
LFM2.5-230M	25.41	20.25	71.71	38.40	37.70
LFM2.5-350M	30.64	20.01	76.96	40.69	44.92
Granite 4.0-H-350M	22.32	13.14	61.27	17.22	28.70
Qwen3.5-0.8B Instruct	27.41	37.42	59.94	22.87	41.68
Gemma 3 1B IT	23.89	14.04	63.49	20.33	44.25

在工具调用和数据提取任务上同样表现出色：

模型	CaseReportBench	BFCLv3	BFCLv4	τ²-Bench Telecom	τ²-Bench Retail
LFM2.5-230M	22.51	43.26	21.03	5.26	13.68
LFM2.5-350M	32.45	44.11	21.86	18.86	17.84
Granite 4.0-H-350M	12.44	43.07	13.28	13.74	6.14
Qwen3.5-0.8B Instruct	13.83	35.08	18.70	12.57	6.14

注意：由于其紧凑尺寸，Liquid AI 不推荐将 LFM2.5-230M 用于推理密集型任务（高级数学、代码生成、创意写作）。

推理性能¶

CPU 推理¶

得益于 LFM2 架构的高效性，LFM2.5-230M 在 Raspberry Pi 5 和 Qualcomm Snapdragon Gen4（Galaxy S25 Ultra）上均实现了同类最佳的 prefill 和 decode 吞吐量，同时保持最小内存占用。针对不同设备的 flash-attention 标志也做了专门调优：Raspberry Pi 5 启用（-fa 1），Snapdragon Gen4 禁用（-fa 0）。

GPU 推理¶

Liquid AI 开发了内部 GPU 推理栈，实现极低延迟服务。在 SGLang 上对比其他小模型，LFM2.5 系列在所有并发级别上均实现了更低的端到端延迟。

生态系统支持¶

模型发布首日即获得全面推理框架支持：

llama.cpp — GGUF 格式，高效边缘推理
MLX — Apple Silicon 优化推理
vLLM — GPU 加速生产级服务
SGLang — GPU 加速生产级服务
ONNX — 跨平台推理
NexaSDK — 跨 Apple、AMD、Qualcomm、Nvidia 硬件

深度分析¶

对边缘 Agent 生态的意义¶

LFM2.5-230M 代表了小模型 + 高速推理这一 Agent 基础设施的关键拼图：

本地 Agent 闭环：无需云端 API，本地完成工具调用和决策推理，消除了网络延迟和 API 成本
实时交互：213 tok/s 的解码速度满足人机实时对话需求
隐私保障：数据不出设备，适用于医疗、金融等敏感场景
规模化部署：230M 参数的极小体积使得大规模端侧部署在经济上可行

技术路线意义¶

LFM2.5-230M 的成功验证了几个重要趋势：

架构效率比参数量更重要：LFM2 的 SSM 混合架构在极小参数量下仍保持强竞争力
蒸馏 + RL 的后训练配方：从 350M 模型蒸馏到 230M 模型的有效性表明，小模型可以通过精心设计的训练流程获得远超其体量的能力
端到端 Agent 链路：从自然语言理解到工具调用的完整链路可以在 230M 参数上实现

实践启示¶

数据提取场景优先考虑：LFM2.5-230M 在 CaseReportBench 上的表现表明它非常适合结构化数据提取管线
边缘部署首选方案：对于需要在消费级设备上运行的 Agent 工作流，这是当前最优选择之一
快速微调适配：机器人端部署案例表明，230M 参数模型可以快速微调适配特定领域
搭配更大模型使用：作为路由/技能选择层，搭配更大的推理模型形成分层 Agent 架构

LFM2.5-230M: Built to Run Anywhere¶

Ch04.383 LFM2.5-230M: Built to Run Anywhere¶

LFM2.5-230M: Built to Run Anywhere¶

摘要¶

核心指标¶

训练与微调¶

机器人端部署验证¶

Benchmark 表现¶

推理性能¶

CPU 推理¶

GPU 推理¶

生态系统支持¶

深度分析¶

对边缘 Agent 生态的意义¶

技术路线意义¶

实践启示¶

相关实体¶