手机拍视频,实时换背景,继马卡龙玩图后,Versa又出了一款更厉害的App

news2024/2/27 5:01:42
郭一璞 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

640?wx_fmt=gif

在前不久荣耀9X的发布会上,一个名叫绿幕侠的App亮相了。

现场的展示中,这个App能让手机拍摄的视频,产生电影绿幕一般的效果,实时从视频中去掉背景,只保留主角人物,并把背景换成用户设定好的特效。

想要实时的进行视频处理,还能实现精细的“抠图”效果,无论对于算法还是算力来说,恐怕都不是一件容易的事。

绿幕侠背后的公司,正是此前风靡一时的手机P图应用马卡龙玩图所属的AI公司Versa

640?wx_fmt=png

一帧一帧做语义分割

Versa CTO赵维杰介绍说,绿幕侠背后用到的视频人景分离技术,就相当于把视频拆成一帧一帧,实现每一帧的语义分割。

语义分割并不难,难点在于连续应用在每一帧上。

首先,必须保证对每一帧的语义分割处理时间低于30毫秒,时间一到,就要开始处理下一帧了,否则视频就会变卡;

其次,因为是将语义分割应用在视频中,因此必须保证分割出来的精确度,一方面不能把边缘处理的太粗糙,一方面要保证每一帧内容的连续性,不能上一帧人物手里还有个包包,下一帧包包就被抠掉了,制造出一种“薛定谔的包包”状态;

最后,模型需要在手机本地运行,因此不能太大,只能有1~2M的空间。

通过自研“概念网络”的优化,提升了当前帧的分割精确度,又将时间空间信息嵌入到更紧凑的维度上,降低backbone的复杂度,赵维杰他们花了半年多完成了绿幕侠算法的研究,将每一帧的处理时间降到30毫秒以下,模型也被压缩到了1M左右。

寻找适配芯片

但是,模型虽然做好了,新的问题却出现了。

Versa技术团队找了许多主流手机芯片运行这个模型,发现这些芯片跑出来效果都不够好。要么算力不够,导致卡顿,必须把模型压缩才能运行,但这样效果就会变差;要么功耗太高,发热太严重,用一会儿手机就卡了。

640?wx_fmt=png

直到他们尝试在荣耀9X的SoC麒麟810上运行模型,发现不仅算力和功耗达到了要求,而且还有了另外一个好处:I/O的设计更好,数据搬移效率高。

“其实手机小模型运行所耗的时间很多不是在运算上的,而是耗在了数据搬运上”,赵维杰这样对量子位解释。

当他们在麒麟810上测试手机小模型时,输入了1080P的高分辨率视频,跑出结果后惊奇的发现:

麒麟810和GTX1070的运行结果在一个量级,手机上跑60ms的模型,在PC上(加上I/O)大概是20ms。

640?wx_fmt=png

为什么一个手机芯片能跑的跟GTX1070这种电脑GPU的运行结果相提并论?

赵维杰的解释是,对视频小模型来说,桌面GPU虽然算力强,但是小模型根本用不上这么大的算力,反而视频数据显存搬移的I/O是瓶颈,时间都花在数据搬运上了。麒麟810的I/O设计比较出色,省了不少时间。另外,桌面GPU是32bit浮点,810是16bit浮点。GPU是通用芯片,NPU是专门用于神经网络计算,对算子可以特别优化。最终的总时间上跟手机上可比。

因此,Versa也决定,这个新的App将在荣耀9X手机上首发,月底上线应用商店。

算力和算法的博弈

到这里,你可能看出来了一个问题:

如果AI模型必须要在足够新、足够强的芯片上运行,那便宜的手机怎么办呢?

一种思路是模型压缩。不过赵维杰觉得,模型从设计起就应当是一个小的东西,而不是从一个巨大的模型逐渐压缩到小,毕竟,模型总要拿出来用的,并不能只用在最顶尖的硬件上。

“AI公司和硬件公司都在追求一个中间地带,AI公司希望能在现在的硬件上就跑更好的算法,硬件公司在追求越来越厉害的硬件平台,让越来越大的算法在体积小的移动的硬件上跑得起来。”赵维杰这样说。

针对不同的平台,Versa也提供了不同的算法。比如此前已有的产品马卡龙玩图,赵维杰提到,需要在在最优秀的硬件上跑出最优秀的效果,在普通硬件商做出最大覆盖,最低端手机可以上云端跑,“提供差异化的算法,是任何一个AI公司追求的本质。”

加入社群 | 与优秀的人交流

640?wx_fmt=png

小程序 | 全类别AI学习教程

640?wx_fmt=jpeg


640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://nwjs.net/news/300068.html

如若内容造成侵权/违法违规/事实不符,请联系七分地网进行投诉反馈,一经查实,立即删除!

相关文章

html中多边形图形怎么制作,CSS制作图形速查表

前面在《纯CSS制作的图形效果》一文中介绍了十六种CSS画各种不同图形的方法。今天花了点时间将这方面的制作成一份清单,方便大家急用时有地方可查。别的不多说了,直接看代码。为了节省时间,下面图形都采用的一个标签,可以是块元素…

unity学习

2019独角兽企业重金招聘Python工程师标准>>> 1.发布ios应用的时候会生成一个xcode工程。已经发布过ios,再次发布的时候可以选择replace 或者是append原xcode工程。如果ios工程是不同unity版本创建的,那么不能append。但是如果我们修改过ios的…

腾讯AI击败王者荣耀职业队,全靠自学、策略清奇,一天训练量为人类440年

问耕 发自 麦蒿寺量子位 出品 | 公众号 QbitAI王者峡谷,风云突变。一场激烈的对战正在进行,左侧是五位人类职业电竞高手组成的赛区联队,另一方是……嗯?他们的对手没有出场?五个座椅空空荡荡?不。他们的对手…

mfc 内嵌 本地html,MFC程序中内嵌网页,附示例工程

最近在课程设计,因为小悠太懒了,是在不想用C完成一些简单的文件上传下载操作,于是就想着将网页内嵌到程序中,上传下载神马的就直接使用网页Web来完成就好了,本示例中将演示在MFC程序中内嵌一个html网页介绍一下原理首先…

最高5000倍加速模拟物理世界,育碧在修复bug上又进一步

晓查 发自 凹非寺量子位 出品 | 公众号 QbitAI“买bug送游戏”对育碧游戏的玩家来说简直是常态。即使是育碧的当家游戏《刺客信条》、《孤岛惊魂》系列也是bug也是多到令人发指。比如《刺客信条:大革命》中,主角的脸部建模突然失控,变成一张“…

AI帮你靠“想象”打字:手机电脑软键盘也能盲打了,准确率能达到95%

铜灵 发自 凹非寺量子位 出品 | 公众号 QbitAI有了机器学习,没有软键盘还能照样打字。凭啥?凭想象。来自韩国科学技术高级研究院在一项最新研究中,提出了一种完全靠想象的键盘:I-Keyboard,这个界面上看不到软键盘上的字…

php curl 内容采集

2019独角兽企业重金招聘Python工程师标准>>> function contentCollection($url){$data array(list>null,status>0);if(!$url){$data[info] 请传入采集地址;return $data;}if(!preg_match("/^http/", $url)){$url http://.$url;}preg_match("…

文科生如何入门机器学习:先看看这篇零基础教程,再多算几遍吧

晓查 发自 凹非寺量子位 出品 | 公众号 QbitAIAI技术变得越来越热门,很多人开始转行进入这一领域,其中当然也不乏文科生。他们在普遍缺乏大学数学知识的情况下,就不能入门机器学习了吗?最近有位Reddit网友David Code,他…

B站最火数学视频3Blue1Brown是如何制作的

授权转发自 知乎网友 李狗嗨原文地址:https://www.zhihu.com/question/57357012/answer/723888621相信很多人都知道3Blue1Brown,这是一个由斯坦福大学的数学系学生Grant Sanderson 创建的YouTube 频道。该频道从独特的视觉角度解说高等数学,内…

计算机硬件与游戏发展史,电脑硬件的发展历程中 什么是电竞SSD?

原标题:电脑硬件的发展历程中 什么是电竞SSD?身处21世纪的人们,早已经习惯了各类电子设备的充斥,并全方位的体验着智能设备所带来的便利。那么,我们平常所熟知的计算机设备,到底由那些重要部件组成&#xf…

滴滴正式分拆无人车业务,复刻Uber上市路径,传孙正义再加持

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI滴滴无人车,终于也官宣分拆了。今天(8月5日)滴滴出行宣布旗下自动驾驶部门,升级为独立公司,专注于自动驾驶研发、产品应用及相关业务拓展。滴滴出行CTO张博兼任自动驾驶新…

unity3d 动画中断并重新播放的解决办法

为什么80%的码农都做不了架构师?>>> 如果想中断某个正在播放的动画,然后重新播放? 比如玩家被敌人击中了,正在播放被击中的动画,不巧紧接着玩家又被敌人击中一次,此时就得中断动画并重新播放。…

BAT华为美团头条面试考什么?这份GitHub万星资源,告诉你面试题+答案+出题人分析...

铜灵 发自 凹非寺量子位 出品 | 公众号 QbitAI2020校招脚步临近,怎样备战即将到来的面试,在众多面试者中脱颖而出惊艳到面试官,化身大厂Offer收割机?GitHub上就有这样一个万星资源,整理了BAT华为、滴滴、头条等大厂可能…

FILO微型计算机,IBM-PC微机组成原理(ppt48)-咨询报告【PPT课件】

IBM-PC微机组成原理(ppt48)-咨询报告【PPT课件】2020-09-24 08:52:06【导读】微型计算机中的中央处理器也叫微处理器。运算器和控制器。件完成指定功能的各项操作。主存储器是用于存放程序和数据的部件。对每个存储单元内容的存和取是按照地址进。储一个二进制数0或1。每8位组成…

免费机器学习课程爆红:从概率与统计到全栈深度学习,英伟达工程师小姐姐整理...

乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI有一份适合按顺序依次学习的免费机器学习资源,在Twitter上火了。一天之间便获得5.9K点赞和1.5K转发。评论区中,”Thanks for sharing“此起彼伏,还有不少人呼朋唤友来观看。那么,这到…

[怪谈]唯有数学不会因时代的变迁而没落

前几天有个网友告诉我:数学在编程过程中完全没有用。我没反驳他,今天放出一篇“扯淡“文,来给大家洗洗脑。好多年前,我在某个公司做兼职顾问时,曾经给当时的老板扯淡过一个理论,当然那时还小小的杜撰了一篇…

GitHub趋势榜第一:用小姐姐自拍,生成二次元萌妹子,神情高度还原,反过来也可以...

栗子 发自 凹非寺量子位 报道 | 公众号 QbitAI如何能让一个小姐姐属于你?把她变成二次元的人类,就可以解锁一个老婆了。韩国游戏公司NCSOFT,最近开源了一只技艺精湛的AI。只要任意输入小姐姐的自拍,就能得到她在二次元的样子了&am…

围剿Sci-Hub力度升级!全球最大学术出版商:网址你也不要提,不然就发律师函...

鱼羊 晓查 发自 凹非寺量子位 出品 | 公众号 QbitAI全球最大学术出版商Elsevier再惹争议,他们又把枪口对准了提供论文免费下载的Sci-Hub。而且, 颇有“赶尽杀绝”的意味。提供文献整理工具的Citationsy发表博客文章表示,因为自己在博客中提供…

给Python加Markdown式排版,在线运行可做Jupyter替身丨谷歌大脑出品

郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAIPython代码,现在可以直接排版了。前提是你装了这个名叫Python Handout的工具,只要敲代码,就能在任何文本编辑器里方便的转换成标题、代码、文本等各种样式,还能直接运行处Python代…