司农大语言模型
中文 | English
面向通用农业领域的垂直大模型
数据收集与模型训练
依托南京农业大学学科特色,面向动物科学、动物医学、农业经济管理、农业资源与环境、园艺学、智慧农业、植物保护、作物育种等细分学科收集了大规模领域数据,总量超40亿token。
| 数据类型 | 数据量 |
|---|---|
| 书籍 | 8,863册 |
| 论文 | 243,897篇 |
| 政策、标准、专利等 | 196,748份 |
结合视觉模型与大语言模型,这些多源异构的数据被整理、筛选、整合,形成了大规模、高质量的农业基础数据集。
为提升模型的农业语言能力与领域知识,我们在基础数据集上开展了合成数据构建、指令微调与强化学习,除传统指令数据外,思维链、上下文参考形式的指令数据也被应用于模型训练中,旨在提升模型对农业领域知识的理解、学习和使用能力。
| 数据类型 | 数据样例 |
|---|---|
| QA | "instruction": "在人多地少、耕地后备资源不足的背景下,如何借鉴中国古代‘精耕细作’传统提升单位面积粮食产量,且避免过度投入导致的生态退化?","output": "应采取‘三才’统筹的精耕细作模式:一是因地制宜优化耕作制度,..." |
| COT-QA | "instruction": "宋代南方水田农业中出现了哪些新型农具?这些农具如何促进了水稻种植效率的提升?",“output”: \n好的,我现在需要回答用户的问题:“宋代南方水田农业中出现了哪些新型农具?这些农具如何促进了水稻种植效率的提升?”……\n宋代南方水田农业中出现的新型农具包括:……" |
| Incontext-QA | "instruction": ""小麦纹枯病的发生与温湿度、栽培措施及品种抗性如何交互影响,导致其在不同生育阶段呈现动态发展规律?\n\n小麦和大麦种子萌发后……",“output”:小麦纹枯病的发生与温湿度、栽培措施及品种抗性三者交互影响,共同决定其在不同生育阶段的动态发展规律,具体表现为:\n\n1. 温湿度主导病害发展节律: \n 病菌侵染和扩展受温度显著调控。冬前(10℃以下)病害发展缓慢,仅零星发生;翌春气温回升至15℃以上时,病害加速扩展,20~25℃为最适发展温度,此时病株率与严重度急剧上升,尤其在拔节至孕穗期达高峰;30℃以上病害基本停滞。同时,春季低温多雨…… |
| Incontext-COT-QA | “instruction”: “中国百强农业对外投资企业在投资规模、区域分布与行业结构上呈现出哪些显著特征,反映了我国农业“走出去”战略的何种优先导向?\n\n2015年,中国对外农业投资100强企业(以下简称百强企业”)对外投资30.61亿美元,占投资流量总额的84% ;截至2015年底,累计投资达111.96亿美元,占比86.6% ;在58个国家和地区共设立农业企业194家,占境外农业企业总数的25.4% ;营业收入达418.38亿美元,占所有企业营业收入的 94.6%。可见,尽管百强企业数量占比不高,但在投资规模、经营效益等方面……",“output”:"\n好的,我现在需要回答用户的问题,关于中国百强农业对外投资企业在投资规模、区域分布与行业结构上的显著特征,以及这些特征反映的农业“走出去”战略的优先导向。首先,我需要仔细阅读用户提供的参考材料,从中提取关键数据,并进行归纳总结。\n\n首先看投资规模部分。2015年百强企业对外……\n中国百强农业对外投资企业在投资规模、区域分布与行业结构上的显著特征及其反映的农业“走出去”战略优先导向如下:\n\n---\n\n### 一、显著特征\n1. **投资规模集中化……" |
多智能体检索增强
当前,检索增强(RAG)已经成为大语言模型的领域应用不可或缺的一环,然而,当前针对领域专业文献(数据论文)的检索增强仍存在局限性。我们推出了一套多智能体检索增强框架,针对知识库构建、数据来源、检索效率等方面进行了优化。
模型及数据使用
模型获取和使用
司农大语言模型1.0版本已经在魔搭社区开源,目前我们开源了8B和32B两种参数规模的模型,任何人均可直接下载和部署该模型。
| 模型名称 | 开源地址 |
|---|---|
| Sinong1.0-8B | ModelScope |
| Sinong1.0-32B | ModelScope |
数据获取和使用
如果您需要使用本研究的基础或过程数据,可以通过邮箱(llm4cca@njau.edu.cn)与我们取得联系,我们期待与您一起探索大语言模型下的智慧农业路径。
研发团队
司农大模型由南京农业大学、南京理工大学两所高校的跨学校团队共同研发
- 南京农业大学团队:王东波、赵志枭、刘瑞麟、杨帆、齐月、庞蔚淇、杨俊羿、李萱、周倩、魏齐治、武瑞峰、林森、张宏敏、潘梦菲、陆琪
- 南京理工大学团队:沈思、朱丹浩
特别声明
司农大语言模型基于大规模农业领域数据进行训练,我们已通过多种技术手段对数据进行了清洗与筛选。然而,受大语言模型自身架构特点所限,生成内容中仍可能出现不准确或失实的“幻觉”现象。因此,在使用本模型过程中,请您务必对生成内容进行审慎甄别,避免因盲目采纳AI生成信息而导致任何形式的损失。
使用司农大语言模型时,您应严格遵守中华人民共和国相关法律法规。在任何情况下,我们均不对因使用本模型或其输出内容所引发的任何损害(无论其成因或形式)承担责任,包括但不限于直接、间接、特殊或附带损害。
- Downloads last month
- 11

