天磊卫士是一家提供大模型安全评测与漏洞修复服务的机构公司。提供安全评测的服务主要包括语料安全评估与内容安全评测两部分,并在此基础上提供漏洞诊断。

一、 语料安全评估该部分涉及对模型训练数据的评估。
语料来源安全:对语料的开源协议、授权合同等来源文件进行核查。
语料内容安全:采用关键词过滤与人工抽检方式,对语料内容进行检测。
语料标注安全:对标注人员的安全培训记录、职责分工及标注内容进行检查。

二、 内容安全评测该部分涉及对模型生成内容的测试。
安全评测数据建设:构建用于测试的关键词库与测试题库。
内容生成安全评测:通过关键词抽检与人工抽检,对模型生成内容进行测试。
问题拒答评测:测试模型对不当请求的拒答情况,涉及高拒答率与低拒答率两类场景。

后续技术环节
在完成上述评估与测试后,天磊卫士会根据发现的技术问题提供相应的分析说明。分析内容通常包括问题现象描述、可能的原因推断,以及可供参考的技术调整方向。