AI研究方向逐渐演变为从通用模型向专用模型发展,然而,随着大模型的涌现,大模型成为发展通用人工智能的重要途径。
书生·浦语 InternLM是一种在过万亿 token 数据上训练的多语千亿参数基座模型,在多种任务上展现出卓越的性能。自六月发布以来,该模型和开源工具链不断更新升级。书生·浦语模型的规模覆盖轻量级、中量级和重量级,在不同场景下都具备优秀的表现。
目前 InternLM-7B、InternLM-20B 均全面开源,免费商用。
书生·浦语大模型系列
从模型到应用
大模型应用场景包括智能客服、个人助手、行业应用等,有着广泛的应用潜力,但实现从模型开发到应用的部署时,需要考虑更多的因素和能力。
模型到应用的流程 Tips: 环境交互-调用外部api、与已有数据库进行交互等;模型评测-业务场景中进行试用并测评
书生·浦语全链条开源开放体系 Tips: 书生·万卷-多模态语料库;Lagent-轻量级智能体搭建框架,AgentLego-提供大模型调用的工具箱和标准化的工具接口
1、数据:书生·万卷1.0数据库、OpenDataLab开放数据平台
2、预训练
3、微调:增量续训、有监督微调
Tips: 有监督微调:通常训练的数据量相比于增量续训和预训会少
书生·浦语体系中的开源XTuner微调框架:
4、评测
评测体系现状
书生·浦语评测体系:OpenCompass