海南日报全媒体记者黄媛艳
全球首个专为水稻生物育种打造的大语言模型“丰登·水稻”(SeedLLM·Rice)近日正式向全球开放网站,该模型深度融合水稻生物学知识图谱,率先构建了全球最大规模的水稻科研语料库和全球首个水稻多组学知识图谱,在信息检索与知识理解等方面展现出显著优势,为构建智能决策育种技术体系奠定了智能基础。
崖州湾国家实验室和上海人工智能实验室联合中国农业大学在2024年发布了中国首个种业大模型“丰登”(SeedLLM),率先尝试将大模型应用于农业育种研究,着力构建一个真正理解作物生物学、具备专业推理能力的智能模型,以实质性提升生物育种研究的效率与质量。作为“丰登”的后续学术成果,2025年5月科研团队发表相关论文,以水稻为例,详细解释了“丰登”的技术和实现原理,系统展示了最新的研究成果,并正式向全球开放了网站。
“丰登”科研团队率先构建了全球最大规模的水稻科研语料库,系统整合了全球超过140万篇中英文文献,覆盖该领域超过98%的公开发表成果。在此基础上,科研团队以阿里发布的通义千问模型为基础,通过续训练与精调流程,成功开发了丰登水稻种业大语言模型。为全面评估模型能力,科研团队构建了一个大模型自动生成的水稻知识问答数据集SeedBench,共包含1,975对问答样本,涵盖问答生成、摘要提取、语言理解与多项选择等10类任务。自动化评估结果显示,丰登模型在准确率等指标上均显著优于通义千问等主流通用模型。
此外,研究团队还联合水稻领域专家,设计了一个高质量人工评测数据集HumanDesignRiceQA,包含253道专业问题,聚焦基因功能、传统杂交育种、分子设计育种等核心主题。评测由来自326名评审参与完成,其中83人为水稻研究领域的资深专家。结果表明,丰登模型在答题质量上展现出其在农业垂直领域中的领先能力。
为进一步提升模型的科研实用性,“丰登”科研团队构建了全球首个水稻多组学知识图谱,整合了1879篇关于水稻转录组和蛋白质组的文献数据,系统汇聚基因表达水平、蛋白丰度与基因组功能注释信息。图谱包含超过40万个节点与157万条边,覆盖水稻研究中的关键知识单元与生物关系。
“丰登”科研团队有关负责人透露,水稻是全球近一半人口赖以为生的主粮作物,其生物学研究在推动粮食安全和农业可持续发展中具有战略意义,大语言模型凭借强大的语言理解与知识推理能力,有望成为支撑水稻研究与智能育种的关键工具。“丰登”服务实现了图谱协同推理,能够跨越纯文本的表达局限,调用结构化图谱执行精准查询、整合多维证据。评估结果显示,图谱增强使丰登模型在专家级任务中的平均得分从67分跃升至85分,探索了图谱与大模型融合以解析复杂水稻生物学知识的新路径。
责任编辑:王丹南
内容审核:蔡宝莹
值班总监:袁锋
值班主任:罗清锐
全部评论 ()