设计完善的AI评估有助于判断技术是否符合企业和社会预期
对于企业领导者、政策制定者及公众而言,人工智能(AI)代表着提升生产力与创新力的重大机遇。
然而,AI看起来很像一个密不透光的黑箱——其有效性、治理与可信度非常缺乏透明度和保证。尽管用以消除这些担忧的AI评估框架正不断涌现,但评估方法的数量和种类过多又带来了新的挑战。
这篇政策文件探讨了新兴的AI评估领域,进而确定有效AI评估的核心特征,并指明了企业领导者和政策制定者的关键考量因素。
我们的研究发现,一套评估生态系统正快速形成,目的是助力企业构建并部署更具有效性、安全性和可信度的AI系统。
AI评估(无论自愿性还是强制性)均可提升人们对AI系统的信任度。若设计得当,这些评估能帮助企业领导者判断系统是否按预期运行,为实施有效的治理与风险缓解措施提供依据,并助力企业遵守相关法律法规及标准要求。
如同AI令人振奋那样,这种技术也在引发广泛的担忧。
因此,企业领导者需要回答一系列问题:如何评估AI系统的安全性与有效性;如何识别并管控风险;以及如何依据治理和绩效标准来衡量AI系统。
了解AI评估的发展现状
经济合作与发展组织(OECD)资料显示,截至2025年1月,已有近70个国家和地区的政策制定方推出了超过千项AI公共政策举措,涵盖立法、监管、自愿行为和协议等方面,其中许多都包含有各种类型的AI评估。
AI评估通常分为三类,可以单独进行或组合实施:
1.治理评估:判断企业是否具备适当的内部治理政策、流程及人员,以此管理AI系统,包括系统的风险、适用性和可靠性。
2.合规评估:确定组织的AI系统是否符合相关法律、法规、标准或其他政策要求。
3.绩效评估:衡量AI系统核心功能的质量表现,如准确性、非歧视性和可靠性,一般通过量化指标对系统的具体维度加以评判。
各种质量评估方法存在着显著差异,为了弥补不足,我们建议在执行评估时:
明确评估对象与目标。有效的AI评估框架应当清晰界定企业或政策方面的目标、范围及主题。
采用清晰的方法体系。方法体系和适用标准决定了对于某一主题的评估方式,同类的AI评估应使用明确定义且始终一致的方法。例如,一些评估工作可能包含明确的意见或结论,另一些则仅提供所执行程序的概要。一致化的执行再结合清晰的术语表达,用户可以比较评估结果并理解其形成过程。
评估提供者需要具备适当资质。评估提供者的选择至关重要,这将直接影响评估过程的可信度、可靠性与完整性。关键考量因素包括能力资质、客观性和专业问责。
我们建议政策制定者采取如下行动:
思考自愿的(或强制的)AI评估在建立企业应用AI信心方面的作用;
明确定义评估框架的目标与构成要素;
对比公众的AI评估预期和评估工作的局限性,弥合两者之间的认知差距;
明确措施来构建该市场所需的能力;
在实际可行的范围内,评估标准应与其他司法管辖区的标准保持一致性和兼容性。
我们建议企业领导者考虑以下事项:
AI评估在强化企业治理与风险管理方面的作用;
在缺乏监管要求的情况下,自愿评估能否提升员工和客户对于AI系统的信心;
采用自愿评估时,选择最适宜的评估类型、以及内部或第三方实施主体。

ACCA财会技术