大咖论“数” | 增强AI时代数据安全

发布时间：2024-09-20 09:12:19

原标题：大咖论“数” | 增强AI时代数据安全

数据安全贯穿数据全生命周期。狭义的数据安全是免受篡改和破坏。广义的数据安全包括数据的可靠性、数据安全性、服务和内容的安全性，在人工智能时代还会扩展数据安全的内涵，当然也会放大数据安全的风险。

数据安全包括从数据采集、数据融合、服务生成到内容应用等环节的安全。首先是网络基础设施方面涉及数据的可靠性，包括传输链路可靠性、算力节点、数据中心、数据库包括存储设备可靠性。二是数据安全技术，包括身份识别、数据属性、数据流动管理、数据加密水印等。三是数据服务与内容安全技术，包括数据所有权管理技术、数据交易技术管理、开放共享管理、人工智能深度防伪、AI幻觉的控制、AI服务的数据内容合规等。

数据中心的灾备需要重点考虑。我们国家对数据灾备建设有投资，但是灾备往往能力不足，现在就需要加强对数据的异地容灾备份。大家都希望容灾的时候数据不丢失或者说丢失量很低，过去灾备的间隔是一天主备复制一次，在丢失的时候可能会丢一天的数据，但现在可能要缩短到一小时复制一次，而且复制的链路可靠性要求很高、时延要求更低。灾备需要对数据定期复制。但是，数据复制间隔越密，它的效率就越低。从数据丢失开始到真正切换还有故障识别、故障判断的过程，这段时间可能会影响数据，在恢复正常之后还要再切回去。利用分布的公有云做容灾备份是发展趋势。

实际上，在数据中心内部也仍存在安全问题。数据中心内部本身要做到无损，但往往有些时候单个算力节点能力不足，就导致需要动员多节点来协同，算力节点间需要大容量光传输链路，因此对光传输链路的时延、丢包会有严格的要求。

不同类型的数据对安全要求不同，我们需要识别数据是国家机密数据、企业秘密数据还是涉及大量用户敏感信息数据。过去的互联网没有识别，不知道所承载的数据是什么，现在有了IPv6，可以对源地址和目的地地址验证，还可利用APN6（应用感知）和iFIT（随流检测）可以知道这个数据源端使用者的身份和对信道服务质量的要求，还可实时获得信道的时延、抖动、丢包率等性能参数。这样可以实现路径溯源，从而支持数据跨境流动管理。

网络安全是数据安全的基础，一般来说，通过加密可以保护数据。但是加密数据也可能被勒索病毒再次加密，需实时对软件版本进行核对与接入审计。尽管我们很重视网络安全，但是也不能因为安全而不促进数据的流通、不促进数据的应用。企业双方都想利用对方的数据，但是都不愿意把自身的原始数据交给对方，如果交给第三方，也不一定相信第三方的公正和安全。

现在可以利用隐私计算和多方同态加密的技术，选择一个特定的密钥，让数据加密以后计算结果等效于没有加密的计算，就能实现数据可用不可见。通过这种办法可以实现数据的融合。现在还有一种技术，把企业的数据打散了之后分布式进行存储，然后加入密钥的控制，可以按需根据对方企业的需要把数据调入沙箱，然后再进行解密计算，这相对来讲比同态加密要简单。

人工智能的出现让数据可信性面临挑战。因为生成式大模型是基于统计和模式识别的，别看它有上下文的关联，但是并不等于全局性和对物理世界的透彻了解，而且有些场合的数据很少。训练数据少，训练的场景缺失，可能会出现低级错误甚至常识性错误。另外，数据可能是受到干扰的。在大模型训练的时候也会受到无意的或者恶意的诱导，会使AI误判。AI应用会增加很多的挑战。

为应对这些挑战，要加强数据质量控制，使用高质量多样化的数据训练。要对算法优化和模型评估改进，定期审查和测试。需要开展伦理审查，特别是对可能产生重大社会影响的应用进行事先审批，帮助用户理解AI的运作方式和潜在风险。还可利用区域截图、放大缩小等预处理发现数据被篡改或AI被滥用，进一步保障数据安全。

（作者邬贺铨系中国工程院院士、中国互联网协会专家咨询委员会主任）

责任编辑: 小云

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com

大咖论“数” | 增强AI时代数据安全

相关阅读

新闻推荐

最新资讯