群发资讯网

智谱也出OCR模型了:GLM-OCR,参数0.9B huggingface.co

智谱也出OCR模型了:GLM-OCR,参数0.9B huggingface.co/zai-org/GLM-OCRGLM-OCR 是一个基于 GLM-V 编码器-解码器架构的多模态 OCR 模型,专为复杂文档理解设计。其核心创新包括多令牌预测(MTP)损失和全任务强化学习,显著提升了训练效率、识别准确率和泛化能力。模型集成 CogViT 视觉编码器、轻量级跨模态连接器和 GLM-0.5B 语言解码器,并结合 PP-DocLayout-V3 的两阶段布局分析与并行识别流程,在多种文档布局中表现出色。HOW I AI