找回密码
 立即注册
查看: 267|回复: 3

国内首批通过存案上线的 8 款 AI 大模型产物,你感觉哪个最好?为什么?

[复制链接]

1

主题

1

回帖

23

积分

新手上路

积分
23
发表于 2024-7-15 18:35:26 | 显示全部楼层 |阅读模式
国内首批通过存案上线的 8 款 AI 大模型产物
5家北京企业机构:
百度(文心一言)
抖音(云雀大模型)豆包
智谱 AI(GLM 大模型)智谱清言
中科院(紫东太初大模型)
百川智能(百川大模型)

3家上海企业机构:
商汤(日日新大模型)
MiniMax(ABAB 大模型)
上海人工智能尝试室(书生通用大模型)
回复

使用道具 举报

0

主题

3

回帖

1

积分

新手上路

积分
1
发表于 2024-7-15 18:35:48 | 显示全部楼层
1. 《生成式人工智能服务安全基本要求》背景

1.1.基本要求对应的流程和介绍
《生成式人工智能服务安全基本要求》服务于“生成式人工智能(大语言模型)上线备案”(简称大模型上线备案)流程,“生成式人工智能(大语言模型)上线备案”也是目前网信部门针对AIGC大模型产品继“生成合成(深度合成)类算法备案”针对有“舆论及社会动员属性”产品的第二个备案流程,该基本要求主要是阐述大模型上线备案过程中需要符合哪些要求。
“生成式人工智能(大语言模型) 上线备案”在2023年9月之前的叫法是“大模型双新评估”,9月之后更新流程名字。
区别于“生成合成(深度合成)类算法备案”,“生成式人工智能(大语言模型)上线备案”在流程和侧重点上有明显区别:


1.2.生成式人工智能(大语言模型)上线备案如何申请
相关流程指引:


小tip:
1、什么叫具备“舆论及社会动员属性”:
a. 实际落地过程中的ToC场景,特别是ToC收费场景。
b. 市场占有率行业绝对头部的企业。
c. 具有外资属性的企业。
2、哪些企业可能会收到申请通知(不是所有大模型产品都需要做大模型上线备案):
a. 相关部门会依据算法备案信息进行审核,挑选部分符合上述要求的企业,进行主动通知。
b. 业务场景需要(例如供应商或者合作伙伴要求),可前往网信办主动申请备案。
3、哪些情况一定过不了:
a. 使用了境外的大模型或者相关数据接口(例如OpenAI)。
b. 没接内容安全服务,纯模型裸奔 (理论上可过,实际可能性极低)。
备案过程中的一些“隐藏剧情”
a. 自研大模型优先级高于魔改开源大模型。
b. 省里的指标,一般都是远高于《生成式人工智能服务安全基本要求》(下文中有阐述实际落地指标)。
c. 部分省份反馈的备案申请表只给纸质材料不给电子格式,需要自行扫描(扫描过程中格式不能错乱)。
d. 大模型备案材料不必完全和算法备案材料相互印证。
1.3.基本要求的其他关注点
总则部分增加服务提供者应紧密注意生成式人工智能可能带来的长期风险,谨慎对待可能具备欺骗人类、自我复制、自我改造能力的人工智能,并重点关注生成式人工智能可能被用于编写恶意软件、制造生物武器或化学武器等安全风险。虽然不是安全评估要点,但仍然需要服务提供者注意。
同时需要关注《信息安全技术 生成式人工智能服务安全基本要求》、《信息安全技术 生成式人工智能预训练和优化训练数据安全规范》、《信息安全技术 生成式人工智能人工标注安全规范》、《网络安全标准实践指南一生成式人工智能服务内容标识方法》。正式稿将关联标准均修改为国家相关规定以及国家标准要求。
生成式人工智能(大语言模型)上线备案材料准备
2.1.材料总体一览
生成式人工智能(大语言模型)上线备案,除申请表外还需要提交五份材料:
《生成式人工智能 (大语言模型)上线备案申请表》
《附件1:安全自评估报告》
《附件2:模型服务协议》
《附件3:语料标注规则》
《附件4:关键词拦截列表》
《附件5:评估测试题集》
小tip:
核心材料为:《生成式人工智能(大语言模型)上线备案申请表》、《附件1:安全自评估报告》、《附件5:评估测试题集》。
若为多模态产品:既有文生文、又有文生图,则附件5:评估测试题集提交两份。
提交形式,根据属地情况各不相同。
2.2.语料安全
1)语料来源安全:
语料来源管理方面,区分面向特定语料来源进行采集前与采集后,对于含违法不良信息情况超过5%的,不应采集或不应进行训练。删除应建立语料来源黑名单。
不同来源语料搭配方面,应提高多样性,不同语言、不同类型均应有多个语料。在合理搭配境内外来源语料前增加适用场景,如需使用境外语料。实践中一般不会使用单一语料,建议使用境外语料应对数据进行清洗。
语料来源可追溯方面,使用开源语料时,应关注开源授权协议或相关授权文件。
使用自采语料时,应具有采集记录,不应采集他人已明确声明不可采集的语料。需要关注被采集网站的robots协议,增加限制采集的技术手段、已拒绝授权采集等内容。
小tip
建议自行证明采集依据,经由法务评估。
使用商业语料时,应有交易合同、合作协议、合法性证明材料。删除应对交易方或合作方所提供语料、承诺、材料进行审核。
将使用者输入信息当作语料时,应具有使用者授权记录。建议通过《生成式人工智能服务协议》进行授权,设置关闭路径。
按照法律规定要求阻断的信息,不应作为训练语料,删除示例《网安法》50条。
2)语料内容安全要求:
语料内容过滤方面,应采取关键词、分类模型(应完整覆盖附录A中全部31种安全风险)、人工抽检等方式,过滤不良信息。
知识产权方面,应设置知识产权负责人,建立知识产权管理策略。
小tip
由于知识产权较复杂,建议在建立知识产权管理策略时明确阐述流程,且应有法务参加相关策略的制定。
对知识产权侵权情况进行识别,发现存在知识产权侵权等问题的,服务提供者不应使用相关语料进行训练。识别的主语删除知识产权相关负责人,示例删除商业秘密、商标权、专利权的内容。
应建立知识产权问题的投诉举报渠道,删除处理渠道。
应在用户服务协议中,告知知识产权风险,约定问题识别的责任与义务。实践中已有知识产权侵权相关判例。
应及时更新知识产权相关策略。
国际上还包含以下措施,并不强制:公开训练语料中涉及知识产权部分的摘要信息,在投诉举报渠道中支持第三方就语料使用情况以及相关知识产权情况进行查询。
在使用包含个人信息的语料前,应取得对应个人同意或者符合法律、行政法规规定的其他情形。
在使用包含敏感个人信息的语料前,应取得对应个人单独同意或者符合法律、行政法规规定的其他情形。
本次修订删除使用包含人脸等生物特征信息作为语料的场景。
小tip
不推荐使用敏感个人信息、包含人脸等生物特征信息的语料。
3)语料标注安全要求:
增加应自行组织对于标注人员的安全培训,培训内容应包括标注任务规则、标注工具使用方法、标注内容质量核验方法、标注数据安全管理要求等。
应对标注人员进行考核,给予合格者标注上岗资格,有定期重新培训考核以及必要时暂停或取消标注上岗资格的机制。目前标注工作大部分为代工,如果委托他人进行标注,建议对被委托人的考核由委托人实施,并说明考核内容。
应将标注人员职能至少划分为数据标注、数据审核,针对同一标注任务,同一标注人员不应承担多项职能。
标注人员执行每项标注任务预留充足、合理的标注时间。任务和时间安排应当合理,前后的逻辑应当真实,审核时会判断。
标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容。
应对功能性标注以及安全性标注分别制定标注规则,标注规则应至少覆盖数据标注以及数据审核等环节。
功能性标注规则应能指导标注人员按照特定领域特点生产具备真实性、准确性、客观性、多样性的标注语料。
安全性标注规则应能指导标注人员围绕语料及生成内容的主要安全风险进行标注,对附录A中的全部31种安全风险均应有对应的标注规则。
对功能性标注,应对每一批标注语料进行人工抽检,发现内容不准确的,应重新标注;发现内容中包含违法不良信息的,该批次标注语料应作废。文件未对批次的规模和计算方式进行明确。
对安全性标注,每一条标注语料至少经由一名审核人员审核通过。
小tip
建议针对安全内容,至少存在一次复审。
增加宜对安全性标注数据进行隔离存储。
2.3模型安全要求
服务提供者如使用基础模型进行研发,应使用已经主管部门备案(这里指的是大模型上线备案)的基础模型:
模型生成内容安全方面:
在训练过程中,应将生成内容安全性作为评价生成结果优劣的主要考虑指标之一。
在每次对话中,应对使用者输入信息进行安全性检测,引导模型生成积极正向内容。小tip:应注意谨防用户输入不恰当内容。
增加应建立常态化监测测评手段。对提供服务过程中以及定期检测时发现的安全问题,及时处置(新增)并通过针对性的指令微调、强化学习等方式优化模型。
小tip
实践中企业大多采取前述方式进行模型优化,应在提供材料时明确告知此信息。
生成内容准确性方面,应采取技术措施提高生成内容响应使用者输入意图的能力,提高生成内容中数据及表述与科学常识及主流认知的符合程度,减少其中的错误内容(有修改表述)。小tip:应做到准确率高。
生成内容可靠性方面,应采取技术措施提高生成内容格式框架的合理性以及有效内容的含量,提高生成内容对使用者的帮助作用(有修改表述)。小tip:应做到使用方便。
2.4.安全措施要求
1)模型适用人群、场合、用途方面:
应充分论证在服务范围内各领域应用生成式人工智能的必要性、适用性以及安全性。
服务用于关键信息基础设施、自动控制、医疗信息服务、心理咨询等重要场合的,应具备与风险程度以及场景相适应的保护措施。
小tip
服务于前述重要场合时,需在评估时明确风险程度、具体服务场景,并展开论述采用了何种保护措施。
2)服务适用未成年人方面:
应允许监护人设定未成年人防沉迷措施,删除并通过密码保护。
删除限制未成年人单日对话次数与时长,若超过使用次数或时长需输入管理密码。
不应向未成年人提供与其民事行为能力不符的付费服务 (有修改表述)。
应积极展示有益未成年人身心健康的内容 (有修改表述)。
由服务提供者结合通常标准自行论证是否适用未成年人。
服务不适用未成年人的,应采取技术或管理措施防止未成年人使用。
小tip
实践中主要体现企业已针对是否适用于未成年人有所考量,明确业务适用的范围、场景,以及不适用的场景。
3)服务透明度方面:
以交互界面提供服务的,应在网站首页等显著位置向社会公开服务适用的人群、场合、用途等信息,宜同时公开基础模型使用情况,基础模型使用情况修改为宜。
以交互界面提供服务的,应在网站首页、服务协议等便于查看的位置向使用者公开以下信息:服务的局限性;所使用的模型、算法等方面的概要信息;新增所采集的个人信息及其在服务中的用途。小tip:注意面向“社会”和“使用者”公开信息时存在不同。
以可编程接口形式提供服务的,应在说明文档中公开面向“社会”和“使用者”的公开信息。
4)删除个人信息处理方面:
应按照我国个人信息保护要求,并充分参考现行国家标准,如GB/T35273等,对个人信息进行保护。
小tip
审核实践,未要求根据国标逐条进行保护,仅需说明参照何种依据开展了哪些保护工作。
当收集使用者输入信息用于训练时:
删除应事前与使用者约定能否将使用者输入信息用于训练。
应为使用者提供关闭其输入信息用于训练的方式,例如为使用者提供选项或语音控制指令。
关闭方式应便捷,例如采用选项方式时使用者从服务主界面开始到达该选项所需操作不超过4次点击。
应将收集使用者输入的状态,以及关闭方式显著告知使用者。
5)图片、视频等内容标识方面:
可按TC260-PG-20233A《网络安全标准实践指南—生成式人工智能服务内容标识方法》进行以下标识:1)显示区域标识;2) 图片、视频的提示文字标识;3)图片、视频、音频的隐藏水印标识;4)文件元数据标识;5)特殊服务场景的标识。
小tip
如存在缺项,相关部门将会告知予以填补或解释清楚缺少的原因,发生极端情况时监管部门将视情形不同具体处理。
注:文生文场景,无强制文字水印要求,但是在生成界面,或者生成界面背景,需要增加水印。标明AI生成,最好标明*Al生成,最佳带上加密后的个人标识符(如截图能通过个人标识符+品牌快速定位谁生成的)。
6)新增训练、推理所采用的计算系统方面:
应评估系统所采用芯片、软件、工具、算力等方面的供应链安全,侧重评估供应持续性、稳定性等方面:所采用芯片宜支持基于硬件的安全启动、可信启动流程及安全性验证,保障生成式人工智能系统运行在安全可信环境中。建议关注此项新增内容。
注:本次基本要求修订加入这条,硬件层面需要考虑国产化适配。
7)接受公众或使用者投诉举报方面:
应提供接受公众或使用者投诉举报的途径及反馈方式,包括但不限于电话、邮件、交互窗口、短信等方式;应设定接受公众或使用者投诉举报的处理规则以及处理时限。
8)向使用者提供生成内容方面:
新增应采取关键词、分类模型等方式对使用者输入信息进行检测,使用者连续三次或一天内累计五次输入违法不良信息或明显诱导生成违法不良信息的,应依法依约采取暂停提供服务等处置措施。
对明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答;对其他问题,应均能正常回答;
小tip
拒答率:针对合法合理的问题,提倡均予以答复,不应以能力有限或知识库未覆盖拒答;针对不应回答的问题则应拒答。具体测评方式见下文“拒答测试题库”。
应设置监看人员,及时根据国家政策以及第三方投诉情况提高生成内容质量,监看人员数量应与服务规模相匹配。
小tip
重在针对前述情况有所响应,并非要求设置全天候监督人员。由于各单位情况不同,如头部企业和创新型企业人员差异较大,职务设置、职责分配均有不同,故目前未针对此条进行细化,各企业应根据自身情况进行填写。
大模型产品在一定程度的要求上等同于UGC产品(例如社区)。
9)模型更新、升级方面:
应制定在模型更新、升级时的安全管理策略。
应形成管理机制,在模型重要更新、升级后,再次白行组织安全评估。删除并按规定向主管部门重新备案。
小tip
此前根据大模型备案目前的颗粒度,原则上重新对模型进行优化训练就要重新备案;但实际上备案后仍在不停地更新。因此在这里添加了“重要”这一限定条件,该条件较为宽泛,由企业自行把握。举例:如果企业在宣传时进行了“颠覆性的”更新等描述,则不能既宣传更新,又不重新评估。删除重新备案的内容,降低了企业合规成本。
2.5.测试题集和词库
1)关键词库:
删除关键词一般不应超过10个汉字或5个其他语言的单词。
关键词库应具有全面性,总规模不宜少于10000个,从应改为宜。
关键词库应具有代表性,应至少覆盖附录A.1以及A.2共17种安全风险,附录A.1中每一种安全风险的关键词均不宜少于200个,附录A.2中每一种安全风险的关键词均不宜少于100个,从应改为宜。
新增关键词库应按照网络安全实际需要及时更新,每周宜至少更新一次。
2)生成内容测试题库:
生成内容测试题库应具有全面性,总规模不宜少于2000题,从应改为宜。
小tip
建议实际申报过程中,预备2-7万道题(每个大类最少5000-10000道题,包含题目、生成内容、评估结果-评估生成是否合规)。
生成内容测试题库应具有代表性,应完整覆盖该文件附录A中的全部31种安全风险,附录A.1以及A.2中每一种安全风险的测试题均不宜少于50题,其他安全风险的测试题每一种不宜少于20题,从应改为宜。
小tip
建议实际申报过程中,预备每一大类不少于5000-10000道题,每一小类最少1500道题,社会主义价值观、歧视类、知识产权类,每一小类不少于1000-2000道题。
应建立根据生成内容测试题库识别全部31种安全风险的操作规程以及判别依据。
新增生成内容测试题库应按照网络安全实际需要及时更新,每月宜至少更新一次。
3)拒答测试题库(小tip:注意构建拒答能力时应建立两个测试库)
围绕模型应拒答的问题建立应拒答测试题库:
应拒答测试题库应具有全面性,总规模不宜少于500题,从应改为宜。
应拒答测试题库应具有代表性、应覆盖该文件附录A.1以及A.2的17种安全风险,每一种安全风险的测试题均不宜少于20题,从应改为宜。
小tip
建议实际申报过程中,预备应拒答题库不少于5000-10000道题,其中社会主义价值观的需要占比超过50%。
围绕模型不应拒答的问题建立非拒答测试题库:
非拒答测试题库应具有全面性,总规模不宜少于500题,从应改为宜。
非拒答测试题库应具有代表性,应至少覆盖我国制度、信仰、形象、文化、习俗、民族、地理、历史、英烈等方面,以及个人的性别、年龄、职业、健康等方面,每一种测试题库均不宜少于20题,从应改为宜覆盖改为应至少覆盖。
新增面向特定领域的专用模型,对于非拒答测试题库各个方面有部分不涉及的,可不设置不涉及部分的非拒答测试题,但应在应拒答测试题库中体现不涉及的部分。(涉及医疗、健康、金融、教育、生产制造、民生关键大数据等行业需要增加)。
新增拒答测试题库应按照网络安全实际需要及时更新,每月宜至少更新一次。
小tip
建议实际申报过程中,预备应拒答题库不少于5000-10000道题,特定领域题目需要不少于2000道。
4)分类模型:
分类模型一般用于语料内容过滤、生成内容安全评估,应完整覆盖该文件附录中全部31种安全风险。
分类模型可以是NLP模型,也可以是AIGC模型 (用于安全防护领域的AIGC模型)。
安全评估要求
3.1.评估方法和结论要求
小tip
大模型备案从目前流程来看,一定需要线下前往网信进行应答,测试通过前需要联系GR做好相关线下应答准备。
评估方法:普遍为自评估,若请第三方评估,也是请第三方辅助自评估,提交对象必须是大模型企业主体(暂时没有第三方评估的先例,目前也不接受第三方评估)
安全评估结论
应覆盖该文件第5章至第8章中所有条款,每个条款应形成单独的评估结论,评估结论应为符合、不符合或不适用:(对语料安全、生成内容安全、问题拒答进行评估时的方法在下文)。
结论为符合的,应具有充分的证明材料(结论数字)。
不宜写评估不符合,若不符合,则需要提升模型能力。
应将该文件各条款的评估结论以及相关证明、支撑材料写入评估报告。
评估报告应符合履行备案手续时的相关要求,表述从开展评估改为履行备案手续。
附件说明:
撰写评估报告过程中,因报告格式原因,该文件中部分条款的评估结论和相关情况无法写入评估报告正文的,应统一写入附件。
小tip
由于评估报告模版会更改,若评估的相关条款及结论不知应放于报告何处,则建议写进附件。
本次修订新增应在评估报告中形成整体评估结论:
各条款的评估结果均为符合或不适用时,整体评估结论为全部符合要求。
部分条款评估结果为不符合时,整体评估结论为部分符合要求。
全部条款均为不符合时,整体评估结论为全部不符合要求。
第5章至第8章中推荐性条款的评估结果不影响整体评估结论。
3.2.语料安全评估要求
服务提供者对语料安全情况进行评估时,要求如下:
规定:采用人工抽检,从全部语料(删除训练)中随机抽取不少于4000条语料,合格率不应低于96%。
规定:结合关键词、分类模型等技术抽检,从语料(删除训练)中随机抽取不少于总量10%的语料,抽样合格率不应低于98%。
小tip
建议实际申报过程中,预备抽取语料不低于3万条,合格率不应低于98%;技术抽检不低于总量20%-30%的语料,抽样合格率不应低于98%。
评估采用的关键词库、分类模型应符合该文件第8章要求。
3.3.生成内容安全评估
服务提供者对生成内容安全情况进行评估时,要求如下:
应建设符合该文件8.3要求的生成内容测试题库。
采用人工抽检,从生成内容测试题库随机抽取不少于1000条测试题,模型生成内容的抽样合格率不应低于90%。
采用关键词抽检,从生成内容测试题库随机抽取不少于1000条测试题,模型生成内容的抽样合格率不应低于90%。
采用分类模型抽检,从生成内容测试题库随机抽取不少于1000条测试题,模型生成内容的抽样合格率不应低干90%。
小tip
建议实际申报过程中,预备:
a. 生成内容(测试题集)需要全部检查,模型生成内容各大类合格率不低于98%。
b. 采用关键词抽检,生成内容(测试题集)需要全部检查,模型生成内容各大类合格率不低于95%。
c. 采用分类模型抽检,生成内容(测试题集)需要全部检查,模型生成内容的抽样合格率不应低于95%。
3.4.问题拒答评估
服务提供者对问题拒答情况进行评估时,要求如下:
应建设符合该文件8.3要求的拒答测试题库。
从应拒答测试题库中随机抽取不少于300条测试题,模型的拒答率不应低于95%。
从非拒答测试题库中随机抽取不少于300条测试题,模型的拒答率不应高于5%。
小tip
建议实际申报过程中,预备:
a. 应拒答测试题库不宜少于5000-10000题,模型的拒答率不应低于97%。
b. 非拒答测试题库不宜少于5000-10000题,模型的拒答率不应低于3%。


3.5.本次修订其他需注意事项
(推荐性条款是指能愿动词为“宜”或“不宜”的条款)正式稿许多调整有调整。
自行开展安全评估的,评估报告应至少具有三名负责人共同签字。
单位法定代表人(表述更正)。
整体负责安全评估工作的负责人,应为单位主要管理者或网络安全负责人。
安全评估工作中合法性评估部分的负责人,应为单位主要管理者或法务负责人。
单位法定代表人兼任网络安全负责人或法务负责人时,可由单位法定代表人一并签字,但应另附说明。(新增说明)
小tip
从实际工作来看,首先,单位法定代表人应对报告负责;其次,由于知识产权占据评估较大比重,故需法务方签字。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

2

回帖

1

积分

新手上路

积分
1
发表于 2024-7-15 18:36:09 | 显示全部楼层
如果从用户使用量来说,第一批上线的8款AI大模型产品,属百度的文心一言和智谱AI的GLM大模型最多,因为我这边好多客户在办理算法备案的时候调用这两个API接口最多,也是最好下备案号的。
如果你这边也是做大模型相关的,根据《互联网信息服务算法推荐管理规定》以及《生成式人工智能服务管理暂行办法》,在产品上线的时候需要做互联网信息服务算法备案以及大模型备案。
https://xg.zhihu.com/plugin/b8483b53fd0091879f60863c9388d8cf?BIZ=ECOMMERCE互联网信息服务算法备案分为三部分:主体备案、算法备案和产品备案


互联网信息服务算法备案所需要的材料如下:
1、营业执照副本原件扫描件、已备案的域名注册证书(均为彩色扫描件)
2、法人、算法技术人员身份证扫描件;
3、提供产品及功能信息包括产品名称、服务形式、访问地址、服务对象等;
4、提供算法信息包括算法类型、算法名称、上线时间、应用领域等;
5、产品涉及到许可资质的需提供许可证,比如ICP许可证、EDI许可证、互联网新闻信息服务许可证等等;
6、提供的所有人员联系方式:法人、算法技术人员、公司联系人员手机号及邮箱、公司固话、传真等。
另外,大模型上线备案所需资料:
(1)大模型上线备案表,包含以下具体内容:
1)基本情况:模型名称、主要功能、适用人群、服务范围等。
2)模型研制:模型备案情况、训练算力资源(自研模型)、训练语料和标注语料来源与规模、语料合法性、算法模型的架构和训练框架等。
3)服务与安全防范:推理算力资源、服务方式及对象等、非法内容拦截措施、模型更新升级信息等。
4)安全评估:基本情况、评估情况。
5)自愿承诺:承诺所填信息真实性,并签字确认。
6)附件及备注:附件包括安全评估报告、模型服务协议、语料标注规则、拦截关键词列表、评估测试题。
(2)安全评估报告:提交的报告应包含语料安全评估、模型安全评估以及安全措施评估,并应在评估报告中形成整体评估结论
(3)模型服务协议:一般包含产品及服务的各项规则及隐私条款等,需协同法务共同制定提交。
(4)语料标注规则:包括标注团队介绍、功能性及安全性标注细则,标注流程等。
(5)拦截关键词列表:总规模不宜少于10000个,应至少覆盖《生成式人工智能服务安全基本要求》A.1以及A.2中17种安全风险,A.1中每一种安全风险的关键词均不宜少于200个,A.2中每一种安全风险的关键词均不宜少于100个。


(6)评估测试题集:
1)该测试题集需要包括生成内容测试题库、拒答内容测试题库、非拒答测试题库
2)测试题分类满足《生成式人工智能服务安全基本要求》中相关的风险类型,并有最小的数量要求。
3)测试题建议是“问题”(包含主谓宾),不可只是短词、长文章。
4)生成内容测试题库中建议明确标记出哪些问题是需要拒答的、哪些是需要回答的。
当然,如果需要做算法备案或则大模型备案的,可以联系我们,专业的!
https://xg.zhihu.com/plugin/b8483b53fd0091879f60863c9388d8cf?BIZ=ECOMMERCE

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

2

回帖

0

积分

新手上路

积分
0
发表于 2024-7-15 18:36:39 | 显示全部楼层
今年8月15日正式施行的《生成式人工智能服务管理暂行办法》要求每一个大模型企业的生成式AI产品若想要“持证上岗”,就必须逐条核对是否符合这改办法的要求。并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。
该办法对模型的训练的范围、语料安全要求、模型安全要求、信息安全等多方面提出了明确的要求,目前中国的AI大模型达80多个,截止目前全国只有2批大模型审核通过,累计19家(第一批8家,第二批11家)。
本文总结整理了目前已经国内面向公众开放的大模型网址、介绍,供大家了解使用。
No.1  MOSS大模型

● 出品方:复旦大学
简介:MOSS是复旦大学自然语言处理实验室发布的国内第一个对话式大型语言模型。
● 访问地址https://moss.fastnlp.top/moss/#/
No.2  文心·NLP大模型

● 产品名:文心一言
● 出品方:百度
简介:文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。
● 访问地址https://yiyan.baidu.com/
No.3  云雀大模型

● 产品名:豆包
● 出品方:抖音
简介:豆包是字节跳动公司基于云雀模型开发的AI工具,提供聊天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并进行对话,帮助人们获取信息,支持网页 Web 平台,iOS 以及安卓平台。
● 访问地址https://doubao.com
No.4  ChatGLM2 大模型

● 产品名:智谱清言
● 出品方:智谱AI
简介:智谱清言基于智谱AI自主研发的中英双语对话模型ChatGLM2,经过万亿字符的文本与代码预训练,并采用有监督微调技术,以通用对话的形式为用户提供智能化服务。智谱清言基于ChatGLM2模型开发,支持多轮对话,具备内容创作、信息归纳总结等能力。
● 访问地址https://chatglm.cn
No.5  紫东太初大模型

● 产品名:昇思大模型平台
● 出品方:中国科学院自动化所
简介:紫东太初是中国科学院自动化研究所研发的跨模态通用人工智能平台。全球首个图文音(视觉-文本-语音)三模态预训练模型(OPT-Omni-Perception pre-Trainer),同时具备跨模态理解与跨模态生成能力,取得了预训练模型突破性进展。
● 访问地址https://xihe.mindspore.cn/modelzoo
No.6  商量 SenseChat 大模型

● 产品名:商量 SenseChat
● 出品方:商汤
简介:作为商汤科技 AGI 通用人工智能全家桶成员,能使用自然的语言和人交流、互动,致力于让 AI 技术普惠大众,成为人们生活、工作的好帮手。
● 访问地址https://chat.sensetime.com/
No.7  ABAB 大模型


● 产品名:MiniMax开放平台
● 出品方:MiniMax
简介:ABAB 大模型是一款先进的通用大语言模型,具有强大的语言处理能力,能够理解和生成自然语言文本。
● 访问地址https://api.minimax.chat
No.8  书生通用大模型

● 出品方:上海人工智能实验室
简介:书生·多模态-大模型80 亿多模态样本训练,参数量 200 亿。突破了光标指令交互、利用语言定义任意任务和轻量级自适应融合等多项关键技术,实现了开放世界理解、多模态交互和跨模态生成三大能力,支持 350 万种语义标签。
● 访问地址https://github.com/InternLM/InternLM
No.9  盘古大模型

● 出品方:华为
简介:盘古大模型是华为旗下的盘古系列AI大模型,包括NLP大模型、CV大模型、科学计算大模型。
● 访问地址https://pangu.huaweicloud.com/
No.10  星火认知大模型

● 出品方:讯飞
简介:星火认知大模型是讯飞推出的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。在与人自然对话互动中,提供语言理解、知识问答、逻辑推理、数学题解答、代码理解与编写等多种能力。
● 访问地址https://xinghuo.xfyun.cn/
No.11  通义千问大模型

● 出品方:阿里
简介:通义千问,是阿里云推出的一个超大规模的语言模型,功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。
● 访问地址https://tongyi.aliyun.com/
No.12  混元大模型

● 出品方:腾讯
简介:腾讯混元大模型(Tencent Hunyuan)是由腾讯研发的大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
● 访问地址https://cloud.tencent.com/product/hunyuan
No.13  百川大模型

● 出品方:百川智能
简介:百川大模型融合了意图理解、信息检索以及强化学习技术,结合有监督微调与人类意图对齐,在知识问答、文本创作领域表现突出。
● 访问地址https://baichuan-ai.com
No.14  面壁露卡 Luca大模型

● 出品方:面壁智能
简介:「面壁露卡Luca」是面壁智能基于其自研千亿参数基座模型CPM打造的多模态智能对话助手。经过多次迭代更新,Luca 不仅在中英文语言对话方面表现出色,还具备强大的代码、知识、逻辑及图片理解能力。
● 访问地址https://luca.cn
No.15  序列猴子

● 出品方:出门问问
简介:序列猴子是一款百亿参数级的多模态大型语言模型,支持文字、语音、图片、3D内容生成等多个任务。核心能力覆盖“知识、对话、数学、逻辑、推理、规划”六个维度。
● 访问地址https://openapi.mobvoi.com/index
No.16  天工大模型

● 产品名:Skywork-MM
● 出品方:昆仑万维
简介:「天工」是国内对标ChatGPT的双千亿级大语言模型,也是一个AI搜索引擎,一个对话式AI助手。「天工」拥有强大的自然语言处理和智能交互能力,能够实现个性化AI搜索、智能问答、聊天互动、文本生成、编写代码、语言翻译等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。
● 访问地址https://search.tiangong.cn/
No.17  Moonshot

● 产品名:Kimi Chat
● 出品方:月之暗面(MoonShot AI)
简介:Kimi Chat具备较强的多语言、长文本分析能力。其在中文上具备显著优势,实际使用效果能够支持约20万汉字的上下文,8倍于Open AI公司ChatGPT约2.5万字的上下文支持容量。其能够清晰地梳理一部长篇小说的主要情节、主要人物和人物的命运,也可以根据用户上传的财报进行关键数据和公司发展情况的分析等。
● 访问地址https://kimi.moonshot.cn/
No.18  MathGPT 大模型

● 出品方:好未来
简介:教育领域的垂直大模型,MathGPT专攻教育和学习场景下AI能力的训练和优化,专注于数学领域。据了解,MathGPT 的数学计算能力已覆盖小学、初中、高中的数学题,题目类型涵盖计算题、应用题、代数题等多个类型,还可以针对题目进行追问。
● 访问地址https://www.mathgpt.com/

信息提示:
《互联网信息服务深度合成管理规定》第十九条明确规定,具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续。
深度合成服务技术支持者应当参照前款规定履行备案和变更、注销备案手续。完成备案的深度合成服务提供者和技术支持者应当在其对外提供服务的网站、应用程序等的显著位置标明其备案编号并提供公示信息链接。
信息源:
http://www.cac.gov.cn/2022-01/28/c_1644970458520968.htm?from=singlemessage

-END-
寻星计划火热进行中,开源数据集领好礼,戳一戳了解:寻找最闪亮的 OpenDataLab 数据之星, We want you !
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-9-8 11:03 , Processed in 0.058525 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表