时间:2025-07-29 03:32 作者:衣食无忧
蚂蚁数科发布金融推理大模型 登顶多个权威金融评测榜
7月28日,在世界人工智能大会论坛上,蚂蚁数科正式发布金融推理大模型Agentar-Fin-R1,为金融AI应用打造“可靠、可控、可优化”的智能中枢。Agentar-Fin-R1基于Qwen3研发,在FinEval1.0、FinanceIQ等权威金融大模型评测基准上超越Deepseek-R1等同尺寸开源通用大模型以及金融大模型,显示其更强的金融专业性、推理能力以及安全合规能力。
据悉,蚂蚁数科通过构建全面的金融任务数据体系以及模型训练算法创新,实现模型更强的金融推理能力及可信性。评测结果显示:相较于通用开源模型及其他金融模型,Agentar-Fin-R1在FinEval1.0、FinanceIQ两大主流金融基准测试中均取得最高评分。并且模型在金融能力显著增强的同时,通用能力也表现出较高水准。
在数据层面,蚂蚁数科构建了业内最全面与专业的金融任务分类体系,包括6大类、66小类场景,覆盖银行、证券、保险、基金、信托等金融全场景。基于千亿级金融专业数据语料,通过可信数据合成技术以及结合专家标注的金融长思维链(CoT)构造机制,显著提升模型处理复杂任务的能力,让大模型“天生懂金融,出厂即专家”。
据悉,Agentar-Fin-R1包括32B和8B参数两个版本。蚂蚁数科还推出基于百灵大模型的MOE架构模型,获得更优推理速度。此外,还有非推理版本的14B和72B参数大模型,以满足金融机构在多样化场景下的部署需求。
为了考察大模型在实际金融场景中部署的能力,蚂蚁数科还联合中国工商银行、宁波银行、北京前沿金融监管科技研究院、上海人工智能行业协会等机构联合推出Finova大模型金融应用评测基准,深度考察智能体能力、复杂推理以及安全合规能力。在Finova评测中,Agentar-Fin-R1也取得最高评分,甚至超越更大参数规模的通用模型。目前Finova已经全面开源,推动行业共同提升大模型在金融领域的应用水平。
1、少林寺释永信被抓!《天龙八部》鸠摩智:大家好,我是预言家,少林寺释永信2020最新动态
2、印度发展挺快,但这个快差距很大,要得到同样的服务和质量,可能比北上广还要昂贵