人工智能这一概念,源自20世纪50年代中叶,由美国计算机技术专家约翰·麦卡锡首次提出。他与马文·明斯基一样,预言计算机将在20世纪70年代能拥有人类的智力水平,阿兰·图灵则认为将在公元2000年实现。然而直至2023年ChatGPT横空出世,才标志着人工智能真正“出圈”,这项技术开始以前所未有的姿态走进大众视野,渗透到我们工作与生活的每一个角落。
一知智能自诞生起就贴着「人工智能」标签,追其根源,脱胎于浙江大学人工智能研究所,深耕多模态人机对话及生成式AI创新。现已为零售、金融、本地生活等20 行业提供了领先的AI外呼以及数字人解决方案。
那么,一知智能究竟是如何在众多迅速崛起的AI公司中脱颖而出,并成功为品牌客户与用户搭建起高效交互桥梁的呢?
一、浙大·一知联合研究中心,为研发创新保驾护航
一知智能「人工智能」标签的背后,始终离不开浙大·一知联合研究中心的技术支持和前瞻性视野。一知脱胎于此、成就于此、亦反哺于此。
浙大·一知人工智能联合研究中心自2019年2月成立以来,便成为一知智能技术创新与突破的强大后盾。该中心深耕多模态人机交互的产学研融合,拥有一支由超过40名硕士及博士研究生组成的精英团队。在人工智能国际顶级会议上屡获佳绩,于语音、语义、AIGC等前沿领域发表近40余篇国际顶级论文,申请多项专利与软件著作权,并斩获国际自然语言推理竞赛SNLI全球第一名和机器阅读理解比赛SQuAD单模型组全球第二名的殊荣。
值得一提的是,研究中心与微软亚洲研究院紧密合作,共同研发出基于Transformer的新型前馈网络FastSpeech。实现了高质量梅尔谱的并行、稳定、可控生成,较传统Transformer TTS技术,梅尔谱生成速度提升近270倍,端到端语音合成速度提高近38倍,单GPU上的语音合成速度是实时语音速度的30倍。该技术几乎完全消除了合成语音中重复吐词和漏词问题,同时支持语音速度与停顿的精细调整,优化整体语句的韵律,为用户带来前所未有的自然语音交互体验。
坐落在浙大玉泉校区旁的研究中心
通过企业与学校强强联手,充分发挥一知智能在人机交互领域引领性的研发优势,汇聚优秀研发人才,力争打造“技术创新、产品创新、人才创新”三位一体的创新型人工智能研究中心,保证了一知在人机交互领域的技术领先地位。同时,一知智能积累的海量数据亦能反哺研究中心,让数据产生价值,与浙大·一知联合研究中心形成滚雪球般的良性循环,共促技术革新与应用落地。
二、从0到1,再到无限可能
先有技术,再有产品。
在技术创新生态中,技术从“概念萌芽”到“规模化应用”需融合学术深耕与产业实践。科研机构先行,实现从0-1的技术突破。随后,企业接过接力棒,结合市场需求,将成果转化为市场解决方案。
一知智能自研语音合成技术的突破,也孕育出了一知的第一款产品——AI智能语音外呼。在语音交互层面实现了应用落地,以电话为载体,助力1000 品牌客户触达上亿次消费者,提升品牌用户的生命周期价值。同时,在CTO姜兴华和研究中心负责人薛弘扬博士的技术带领下,团队通过与浙江大学的产学研合作,研发了名为“太一”的新一代多模态交互大模型。
“太一”多模态交互大模型
“太一”大模型的诞生,使AI外呼产品在实际应用中,更加精准地洞悉说话人意图,提升关键信息的捕捉能力。而这背后,是一知在不同细分行业所沉淀的海量场景数据。将这些数据注入大模型优化应用后,一知的NLP技术的准确率已达到96%以上,实现了对话场景全面算法驱动。语音交互技术的提升,使一知的产品实现从最初的10秒、30秒通话时长延长至如今的3分钟以上深度交流,大幅提升了用户的通话体验。
在几万小时数据量、transformer、diffusion基础模型加持下,一知不断优化语音算法技术,解决了传统TTS技术用于语音客服时存在的录音量大、训练时间长、声音缺乏情感波动、转人工客服时音色差异大等问题。能够在零样本的前提下,在各个指标(发音清晰度、音色相似度)上,全面超过拥有10~300秒样本的算法。
2023年,一知延长了产品线,在语音人机交互的基础上加入了视频交互,推出了第二款产品——AI数字人。一知数字人是业内少有的同时支持声音克隆和形象克隆的数字人产品。在算法技术上,基于多模态人工智能模型,可实现120FPS无延时输出,仅需少量数据训练就能输出不同语种、语调视频,经过众包测试,其口型和语音匹配准确率高达99.9%;实时互动“阿凡达”模式,流式变声器功能,让柯南里的变声情节成为现实。近期,薛博士带领的研发团队更是突破单图即可生成数字人技术,为一知的业务拓展带来了无限可能。
三、不做「大」模型,做垂类行业的「小」模型
在当今的AI领域,那些拥有雄厚技术实力的大厂正全力以赴地深耕底层模型,他们对此倾注了极大的关注与资源。这一趋势的背后,是业界逐渐形成的共识:底层技术的突破能够带来更为显著的边际效益。
然而,在应用层,许多公司并未选择开发垂直模型或行业模型,而是充分利用GPT等底层技术的强大能力,来构建各种创新的应用层产品。这一策略使得他们能够迅速响应市场变化,灵活调整产品方向,从而在激烈的市场竞争中占据有利地位。
面对这样的行业背景,一知智能在选择在AI技术发展方向上深耕场景化应用。尽管通用模型已解决了诸多以前需依赖场景化解决方案的问题,但一知智能CTO姜兴华在接受采访时指出:“很多时候,我们发现通用技术在特定场景上的表现并不尽如人意,这正是我们着手进行场景化开发的初衷。通过深入理解和优化特定场景,我们能够有效地降低解决问题的难度,从而在当前的技术水平下,在一个小的、限定的范围内实现更好的效果。”
具体来说,现有的通用人机对话技术,比如在AI外呼领域,往往难以很好地理解业务数据,也无法自由地对话以达成业务指标。因此,一知选择聚焦于AI营销场景,将更多的营销数据注入到模型中,打造垂直领域的「小」模型。这样,一知能够在特定行业场景下提供更加有效的定制化解决方案,也满足了市场对精准营销的迫切需求。
也正是因为一知的AI技术场景化策略,在成功跑通消费品赛道的同时,也不断向各行各业拓展,真正意义上实现了技术与应用的完美融合。随着一知的不断发展,一知易呼、视频外呼等创新产品的相继推出,丰富了人机交互的形式,更在多个行业场景中实现了深度应用。
结尾
从浙大·一知联合研究中心的研究成果出发,以技术为底座,到AI智能语音外呼与AI数字人的相继问世,再到实现场景化解决方案,一知智能始终站在技术创新的前沿,不断探索人机交互的无限可能。
从20世纪50年代时期人工智能概念的萌芽,到一知智能在技术创新与应用的征途上不断前行,我们见证了智能科技如何逐步渗透并深刻改变着我们的生活与工作方式。一知智能作为这一变革的积极推动者,一直在不断探寻人工智能的边界,致力于将最前沿的技术成果转化为实际应用,为用户带来更加智能、便捷、高效的体验,让交互产生更多价值。
从研究成果出发,以技术为底座,到AI外呼与AI数字人的相继问世,再到实现场景化解决方案,一知智能始终站在技术创新的前沿,不断探索人机交互的无限可能。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com