12月23日,百川智能发布全链路领域增强大模型Baichuan4-Finance,实现了金融能力和通用能力的协同提升,增强了金融场景的整体可用性。其在金融专业能力与场景应用能力方面大幅超越 GPT-4o,于中国人民大学财政金融学院12月17日发布的FLAME评测体系以及国内主流开源金融评测基准FinanceIQ中均荣登榜首。
当前,大模型在落地具体场景时面临的关键挑战在于,如何在提升专业能力之际避免通用能力的折损。百川智能打造了一套全链路领域增强方案,该方案覆盖了高质量数据集构建、模型预训练、微调直至强化学习等从模型研发到场景应用的全过程。
在模型训练阶段,通过行业首创的领域自约束训练技术,百川智能实现了模型专项能力和通用能力同步提升的效果,极大提升了模型多元场景的可用性。而Baichuan4-Finance正是这一方案的最新成果,全链路金融领域增强让其既掌握了扎实的金融理论基础,又具备了丰富的多场景实践应用能力。
具体而言,Baichuan4-Finance的高质量金融数据集全面且严谨,既包含金融专业教材与学术著作、顶级金融期刊论文、监管机构政策文件、金融法律法规等核心专业金融知识数据,也覆盖了金融专业问答集、企业财报与年度报告、金融类研究分析报告等实践应用类数据,为提升模型金融能力提供了良好的底层支撑。
在此基础上,Baichuan4-Finance还在领域自约束训练过程中引入了更高精的通用数据,与高质量金融数据一起进行混合训练,最终实现了模型通用能力不下降,金融能力稳定增长的效果。
此外,百川智能在后训练环节也做了大量增强工作,如:通过合成数据、指令数据对模型进行有监督的微调;在强化学习策略中,针对数学计算等金融领域特别关注的场景进行样本增强等,进一步提升了模型性能。
攻克了专项能力和泛化能力平衡问题这一模型落地应用的最大阻碍后,Baichuan4-Finance能够在效率提升、风控合规、客服、决策支持等诸多层面为金融行业带来全方位的价值提升。例如,它能够帮助金融从业者处理文档审核、客户咨询、产品营销等大量日常工作,还能依托深厚的金融专业知识和法律法规理解能力,为机构提供精准的风险识别和合规保障。此外,还可以凭借强大的数据分析能力为管理层提供专业的市场洞察和决策建议。
FLAME作为金融领域全新的评测体系,兼具专业性与实用性,由两个方向的评测基准构成。
其中,FLAME-Cer 主要聚焦模型的专业金融能力评测,涵盖了CPA、CFA、FRM 等14类权威金融资格认证;FLAME-Sce 则着重于模型的场景应用能力评估,包含10个一级核心金融业务场景、21个二级细分金融业务场景以及近百个三级金融应用任务。
FLAME-Cer评测结果显示,Baichuan4-Finance在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%,整体准确率93.62%,超出GPT-4o近20%。
在FLAME-Sce评测中,Baichuan4-Finance一级核心金融业务场景的整体可用率达84.15%,其金融数据计算、金融知识理论等场景的可用率更是超过90%,实际应用场景中的表现优秀。
不仅如此,在国内主流开源金融评测基准FinanceIQ上Baichuan4-Finance同样超越了GPT-4o,整体准确率达到79.23%,领先GPT-4o近13%。
声明:免责声明:此文内容为本网站转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。