首页 / 科技

AI感知视听技术,让AI进化出“大脑”

发布时间:2024-06-23 23:45:12

2024年6月22日,在华为开发者大会2024(HDC 2024)上,天图万境与华为云携手推出了“视频声效大模型”解决方案,乍一看,不就又是一个音视频大模型嘛,可听完天图万境创始人图拉古的讲述,我们看到跨行业的人做AI进入了“变态”的地步,准确的讲,这种方法正在启迪AI超越人类。

按照通常的理解,大家修改架构,不管是大热的transformer,还是sora的dit,大家都在用大力出奇迹的方法,体现自家优势。

图拉古的研发似乎为行业找到了新的思路,人类的大脑可以处理非常复杂的事情,但是功耗峰值也就45瓦,如何让AI按照这样的方式进化,是全球科学家正在研究的方向。

大会上,图拉古谈到一种“联级神经元”的方法。他表示,人们通常讲到多模态,就好像是让一个人学会这个世界上所有的技能,顶级的手术医学技能,顶级的音乐演奏技能,顶级的微积分计算,顶级的赛车手等等,这显然是一件超级难的事情。但在事情期初,人们往往会过于乐观或者过度自信,比如当你的孩子刚出生,你也许就会幻想他聪明优秀,万人追捧,学会琴棋书画,舞得剑戟刀枪,可随着孩子慢慢长大,你也许会看到孩子另一面的特长,而不是面面俱到。

天图万境创始人 图拉古

图拉古和其团队推出一种全新设计过的moe框架,被他们称为“联级神经元”框架,而传统的MoE的概念起源于 1991 年的论文 Adaptive Mixture of Local Experts(https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf)。这个概念与集成学习方法相似,旨在为由多个单独网络组成的系统并建立一个监管机制。在这种系统中,每个网络处理训练样本的不同子集,专注于输入空间的特定区域。

图拉古认为,类全新的moe应该是一种类脑框架,需要把每一个专业的垂直 AI 模型作为一个神经元看待,这就像大脑一样,有负责语言的区域,有负责音乐的区域,有负责行动的区域,有负责平衡的区域,他们虽然都在一个头颅内,可是各自却是独立的,靠生物电通讯。

2019年时,世界上迎来了一台十分特殊的手术,整个手术室充满了浪漫古典的旋律,这是以色列的医生给一位著名音乐家做手术时,为了保证他的小提琴技能不受影响,从而在手术过程中让他保持头脑清醒地拉了几个小时的小提琴。

还有一些事情,比如我们喝酒喝醉后,小脑会受到影响,所以人们走起路来左右摇摆,但是语言区还可以让你思维活跃的表达,这样的例子数不胜数。

仿照这样的大脑构架,我们可以把每个专用AI模型当做一个“神经元”来看待,让其中一个充当调度的AI,负责实现生物电的调度中心,让它通知其他对应的“AI神经元”,执行对应任务。多个“AI”神经元之间通过调度AI来通讯,形成了类人脑的“联级神经元”,每次行动能量消耗极低、算力极少,但是却可以完美准确的完成任务。

剩下的问题就是,如何教会AI进行学习和判断了。人类大脑获得的大部分信息,都是通过听觉和视觉来感知认识世界的,那我们也必须按照这样的方式去训练 AI,因为生命体已经用了5亿4000年来证明这种方式是最优解。

人类看到的世界是立体的,通常人们会用激光雷达来测量立体世界,这显然不是人类的进化方式。后来,人们用多目组成类人左右眼的形式,计算视差,获得立体世界。可是我们知道,人类闭上一只眼睛的时候,也可以准确的拿到面前的水杯,也可以知道自己距离物体的距离,甚至一些电影里还描绘了独眼侠客的特异功能。人脑具有自己的经验记忆推理能力,可以在单眼下获得准确稳定的深度,而我们的机器正是需要这样的能力。天图万境先后推出空间计算框架的多次升级的版本,实现了通过单目摄像头实时获取稳定的空间感知图,实现了世界首个空间计算AI。

天图万境紧接着推出了认识物体,认识世界的AI分割模型,这个模型最早用在电影抠像里,天图万境并没有过早地披露这一信息,直到今年,天图万境才告知大家,他们的抠像技术实际上是在训练AI认识世界,而并非在抠绿。他们在已有的图像上做分割,让机器知道画面里的物体都是什么,并理解在设定情景下什么物体应该保留或者去掉,甚至还可以执行其他特定的决策。

确实,如果说训练认识世界的数据,没什么比电影数据更具有想象力了,上天遁地,无所不能。而天图万境已经拥有了全亚洲最大的物理数据集和分割数据集,并正在提供给华为盘古大模型做专业训练。

除了通过眼睛认识世界,理解世界,听觉也是人类感知世界的重要方式。人类闭上眼睛,就可以知道是鸟叫还是虫鸣,可以听呼啸而过的车声,判断车辆的远近距离,甚至通过听到熟人的音色,还可以在众多朋友中判断这个人是谁。图拉古希望机器也有这样的能力。

现在,天图万境利用自己的AI感知视听技术,正在实现这一远大愿景。他们与华为云携手推出了“视频声效大模型”解决方案,正在向我们证明这一全新设计的moe类脑框架的前沿技术的可行。

该技术支持用户仅需上传一个视频,不需要输入任何提示词,就可以获得连续的音频,这个音频包含了音色、声场、动态数量等等。比如一辆火车从远及近开来,你就可以获得一个从小到大的声音;一个石头落入水中,你就可以听到石头落水的声音,甚至还包含那种不同物质传输的不同声音效果。更离谱的是,你可以听到泛起涟漪后的微弱声音,还有火箭发射巨大引擎的轰鸣声。

乍一看,这似乎没有什么了不起。可这正是图拉古之前所描述的愿景,让我们重新审视这个空间智能AI。

首先,这种复杂的处理运算,竟然是运行在一个本地消费级显卡上,更离谱的是,几乎是实时运行。

为什么说更离谱呢?首先,AI要识别数字的“物理世界”,比如“看懂”这是火箭还是雷电,鸟群是乌鸦还是海鸥,这辆车是火车还是汽车,如果是火车,那是蒸汽火车还是电动火车等等。其次,AI还要知道火车的声音是什么样,火箭的声音是什么样,打雷闪电又是什么样,大的雷电和小的雷电声音有何不同,海鸥怎么叫等等。紧接着,AI要知道这里边的空间关系是什么,比如会不会有吸音,有没有混响,伪音。最难点在于,AI还要知道这个声源的运动关系,依托于运动关系做出即刻的声场效果,产生动态声音。对于成片画面而言,就是每一个声音都要跟画面完全匹配,出现闪电就要响,还要计算声音和光速的传播关系,看到闪电多久后才能有声音传播起来。当汽车急刹车的时候,还要出现刹车的声音等等;还要知道每一组不同的材质组合会发出什么样的声音。

在“视频声效大模型”解决方案发布之前,人们认识图拉古和天图万境,仅仅认为这是一家电影技术公司。是的,他们在电影技术领域有着远超同行的技术和绝对领先研究,但是人们不知道,他们的抠绿不是抠绿,而是在分割画面;他们的还原不是还原,而是在计算空间,他们的音频也不只是音频,而是让AI理解世界。

所以,图拉古和他团队此次发布的大模型也不是大模型,是AI时代的一股清流,是一种真正经过了人脑深度思考的结果,不是盲从产业的习惯性跟风或是恐惧性前进。

最后,引用图拉古的话作为结束语:

“一个伟大的时代,会在一种良性循环中,徐徐展开;人类、AI、机器和谐相处,互帮互助的美好愿景,正在向我们阔步走来。”

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com