阿里云一项新技术,在外网已彻底炸锅,没想到国内却有人质疑。 今天通义APP低调

邱震海 2024-04-25 18:05:41

阿里云一项新技术,在外网已彻底炸锅,没想到国内却有人质疑。 今天通义APP低调上线了一个新功能,用户传音频和人物照片,就能让人物唱歌、说话。比如赫本几十年前的老照片,可以唱中文歌,蒙娜丽莎也能开口说话。 这项技术,正是2个月前阿里云发布的EMO模型,只是今天才在通义APP正式上线。此前有不少老外体验EMO模型,给予了不错的评价:“英伟达的Audio2Face虽然只有2年历史,但和EMO比起来,像是一个老古董”。 不过,国内却有网友质疑,认为国外的AI技术更先进,甚至有人说“国外一上新、国内马上就有了”。 殊不知,EMO和传统的talking head不同,它首次提出弱控制的设计,剔除掉针对人脸的显示表征建模,转而采用一些相对较弱的控制条件来引导diffusion去噪过程。也就是说,EMO的技术原理有区别和创新,而且比国外同类大模型更逼真。 这件事给我一种感受,似乎不管哪个国家的人,对于新生事物尝鲜,都固执认为国外的月亮更圆。像老外觉得阿里云的EMO很不错,国内却有人觉得Sora、Pika等模型更好。 如果客观对比,整体上大模型赛道,暂时老美的实力确实比我们强。去年美国AI行业投资额达到672亿美元,国内才78亿美元。但是我们也要承认,国产大模型的进步很迅速,除了这次的EMO,通义APP上很多功能,其实不比微软谷歌的大模型差。

0 阅读:218
邱震海

邱震海

德国图宾根大学博士,有30年媒体工作经验。