智能/物联网
IBM想帮互联网企业的每一帧视频价值最大化?
2018-06-15  浏览:2136
IBM想帮互联网企业的每一帧视频价值最大化?

杜兰特拿到总决赛MVP。几乎同一时间,一支名为《杜兰特11年精彩回顾》的视频在腾讯视频上线。不同于以往媒体提前精心剪辑备稿,这支视频当场实时完成,且全程几乎没有人工参与。仔细观看这条视频,不仅完整度高,而且过渡自然流畅,中间还穿插了多处文字评论及图片过渡,其剪辑效果并不亚于普通的视频剪辑师。你可能很难相信,这样一条视频是“Produced by AI ”。但事实是,“IBM AI Vision视觉大脑”确实将其变成了现实,人工智能做腾讯NBA视频分分钟上线,将成为新常态。

智慧物流引领湾区科技创新发展,解构京东智慧物流在湾区布局

智慧物流引领湾区科技创新发展,解构京东智慧物流在湾区布局创新驱动发展一直被列为粤港澳大湾区经济发展的重大战略,在粤港澳大湾区发展规划纲要即将出台之际,6月11日,智慧物流研究院发布了改革开放40年粤港澳大湾区物流发展洞察报告(以下简称报告)。报告显示,华南珠三角是全国重要的家电产业基地,对家电物流包括...

此次,IBM携手腾讯体育跨界合作,最直接的产品是“篮球赛AI剪辑师”。这款产品可以帮助腾讯体育在比赛直播过程中,实时完成视频的识别和剪切工作,比赛结束20秒之内就能按照人的灵感和要求组合成片。事实上,这也是中国首次将人工智能技术运用到体育视频内容编辑工作中。

其实,《杜兰特11年精彩回顾》也并不是“篮球赛AI剪辑师”第一次出手。NBA2018赛季总决赛比赛前,腾讯体育在社区发起“有AI说出来, 票选你最欣赏的巨星特质”球迷互动投票。IBM AI视觉大脑以投票结果的关键词特质剪辑出7位巨星的比赛视频,从决赛日第一场开始播放,已经为亿万观众呈现相关内容。

杜兰特11年精彩回顾


腾讯体育在2015年成为NBA中国数字媒体独家官方合作伙伴,除了提供赛事直播服务,也一直探索内容和技术的升级,为1.43亿篮球迷提供最符合他们期待的在线观赛新体验。

对于球迷来说,除了观赏当下实时进行的比赛,讨论历史也是球迷的乐趣之一。相比于人类,机器对于这类历史肯定是“如数家珍”。数据显示,2025年全球数据量将达到163ZB,恰恰提供了无数可供机器的素材。近年来,随着NLP技术的成熟,基于文字的学习已经相对成熟,并且逐渐被一些体育大数据公司运用。

过去几年,全球及中国在线内容井喷式增长,视频网站和网络电视平台不仅积累了海量历史视频数据,且数据量在分秒间不断攀升。一般来说,被用户高频调取的数据仅占总量的20%。通过对视频数据进行管理和挖掘,很可能产生更大的商业价值。据说,包括腾讯体育在内的多家视频平台都在都在苦心寻求解决方案。

此次IBM AI Vision视觉大脑为腾讯NBA编辑团队定制AI视频剪辑方案,一定程度上使得海量历史赛事视频资料变得可搜索可随需提取,变相得提升了每一帧每一秒视频的价值。

IBM想帮互联网企业的每一帧视频价值最大化?

利用机器自动生成视频,不少公司都有想过。此前包括Google、微软、阿里巴巴等公司、MIT等研究机构也都推出过类似的Demo或者研究成果。此次,IBM 推出的《杜兰特11年精彩回顾》则更像是一款可以实际落地的产品,且其应用在计算机视觉引用难度最高的篮球领域。

要完成从Demo到产品,背后对技术的可靠性要求更高。“篮球赛AI剪辑师”这一产品主要基于IBM中国研究院创新开发的视频深度学习平台——“IBM AI Vision视觉大脑”,目前这一平台已经拥有智能视觉识别、理解和剪辑技术。

虽然有一些公司也利用计算机视觉剪辑、生产视频,IBM的AI视觉大脑此前也在2017年湖南卫视《我是未来》的首次亮相,并在北美市场完成《Morgan》电影预告片的剪辑,但对于计算机视觉来说,篮球运动分析是所有体育赛事中是最难最复杂的。篮球是一项高速运动,人多拥挤,互相遮挡、多摄像头且镜头频繁移动等干扰因素,对于机器学习的难度系数非常高。

现阶段,IBM AI Vision视觉大脑通过机器学习能看懂篮球、了解规则、识别动作、判断得分失误。2018 NBA总决赛期间,它根据腾讯篮球迷中呼声最高的七大球星特质(全面、精准、霸气、杀气、强硬、坚定、稳定),向腾讯编辑学习这些特质背后的篮球比赛画面和视频镜头语言。

IBM AI基于腾讯NBA 数据库69年积累的超过21亿秒的篮球比赛视频素材,能实时识别出这7位球星(库里、詹姆斯、杜兰特、哈登、保罗、乐福、汤普森),精确标注并剪切出他们的特色动作(后撤步投篮、灌篮、三分球等)和表情(咆哮、兴奋、开心等),并最终为每位球星剪辑出45秒的视频集锦。从总决赛第一场比赛直播开始播放,为数亿观众呈现出了不少精彩瞬间。

之所以能实现这一点,“IBM AI Vision视觉大脑”从建模(Modeling)、剪切(Cutting)、编辑成片(Composing)三个环节拆解项目难题,做了大量的技术优化,并进行了大量的机器学习。

1、建模(Modeling)

在一个月时间,通过少量视频数据完成建模,让机器学习看懂篮球。通过“多模态视觉理解技术”对视频画面进行“像素级跟踪、识别”,包括球员的人脸识别、人的动作识别(扣篮、投篮、空中接力、上篮、飞身救球、庆祝)、人的表情识别(怒吼/咆哮、悲伤、开心、搞怪)、物体识别(球场、篮球、篮筐、球衣号码);并分析判断背后的相关性,人的动作和物体之间运动关系的逻辑,比如在有遮挡动作中判断谁是主攻手,他的投篮动作是否成功。通过第一步,我们相当于训练了一个篮球视频的“AI剪辑师”。

2、剪切(Cutting)

第二步就是让这位“AI剪辑师”上岗工作,会对过去69年20个球员的数百万分钟篮球比赛中的每一帧视频数据进行多通道分析并打上标签,包括人物、运动轨迹、声音等,将非结构化视频数据提取为结构化数据,并用数据库进行实时管理,让每一帧画面都变得可检索。同时,还会针对动作的精彩程度和不同的主题(“灵动”、“霸气”、“全面”、“坚定”、“强硬”、“精准”等)匹配程度生成综合评价(scoring)。

3、编辑成片(Composing)

第三步是人与机器协作完成筛选、拼接、成片。体育编辑设置好所需要的主题和球员等应用场景要求,“AI剪辑师”按照综合评分选出最贴切主题的精彩视频片段,几乎实时自动生成一分钟剪辑视频,并加上特效处理。2-3小时的实时比赛,经过IBM AI视觉大脑仅仅20秒钟处理,即可输出1分钟成片。

以此流程反复,机器会根据观众对视频的需求做总结,不断优化更新建模,输出的成品视频将更贴合用户的需求。

腾讯体育采用 “IBM AI Vision 视觉大脑”,对于球迷来说,提供了获得更多优质内容的可能;对于腾讯体育来说,这很可能是一种降低成本、提升用户体验的好方法;对于业界来说,很可能会提供一种人机协作工作模式的有效借鉴;而在未来,IBM AI Vision视觉大脑所代表的计算机视觉相关的技术,还很可能发挥更大的作用。

IBM AI Vision视觉大脑技术解析

对于观众来说,以往常规体育媒体通过编辑视角向观众单向输出内容,用户对于内容生产往往并没有话语权,即使当前的媒体环境下,会通过点击量影响内容生产,但往往也有滞后性。此次,腾讯体育与IBM的合作,其实是以观众想法为出发点的,通过观众票选出来的定制角度,调用亿万级视频素材库资源,生成观众喜闻乐见的内容。

假设未来,腾讯体育开放相关视频资源库给观众,观众根据自己的创意,调用“篮球赛AI剪辑师”的技术服务,自动生成各种视频并进行发布,很可能带来UGC创意内容的新繁荣。此前,诸如A站、B站、抖音、快手等平台均已证明用户创意视频内容带来的价值。

对于腾讯来说,当前观众对内容质量要求不断提升,借助技术的力量,提供更多优质内容,不仅有助于降低时间、人力成本,更是提升用户体验、增加用户粘性的有利手段。

市场数据预测 , 2017 年视频内容将会占据全球网络74% 的流量,全球在线视频广告市场规模将会达到 190 亿美元。对于腾讯来说,这也是一个不得不看重的大市场。视频内容的生产成本相对较高,想要在视频内容时代赚到红利并不容易,即使对于腾讯来说,亦是如此。虽然腾讯在内容生成方面的经济成本压力可能并不大,但在视频领域时间就是金钱,更快的生成优质内容,并借助腾讯的渠道传播出去,很可能是一个更好的选择。

另外,对于腾讯体育来说,此次与IBM的这种合作,不仅实现了亿万级视频素材库视频数据价值最大化,也有可能会让腾讯体育将赛事直播做得更加有趣。首先,AI将海量的历史视频(或音频、图像)数据重新提取识别利用,使得视频素材可搜索可随需提取,让每一分每一秒的价值都被最大化利用起来,这对于有海量数据的腾讯体育来说,无疑意义重大。

其次,这种合作,其实也探索了人机协作的新工作流。利用机器极速处理海量数据,实时完成识别剪辑,可以大大减少人力成本,缩短工作时间;同时,因为机器比人更为精准、理性,在内容生成方面很可能避免主观倾向性,更容易产生传播价值;而机器在学习的过程中,很可能也会想人类学习到新灵感,从而在内容方面产生新的创意。

结合AI技术,未来内容方面其实也很可能会有更多有趣的尝试。今年,IBM也已经将AI技术应用于高尔夫球领域。今年的大师赛,Master就与IBM Watson达成合作,利用企业级的人工智能技术来捕获比赛的精彩画面,在比赛的过程中,自动抓取面部特写和挥杆画面,呈现给观众,收到了良好的效果。

事实上,IBM AI视觉大脑的技术领先性与可靠性,也使得其有可能胜任更多具有想象力的任务。

根据IBM官方提供的信息,IBM AI视觉大脑已经是一个比较成型完善的人工智能视频深度学习平台,可以帮助企业自动地完成个性化的机器学习,开箱即用,赋能企业自主对影像进行深度学习,IBM无需做大量的跟进服务。

而对比行业内其他视觉识别技术,IBM的多模态影像分析相对更加复杂,分析维度更加全面, 可自动优化的程度更加领先, 可自动获得的机器理解准确率更加高。而且,此技术凭借适配强的特点,企业数据可以选择性放在云端或者自有服务器上,安全性有保障,企业不必担心存在泄露数据的风险。

人获得的信息中,80%的内容来自于视觉,借助大脑的分析能力,实现对这个世界的理解与感知。五年内,全球摄像头的数量将超过44万亿部,若IBM AI视觉大脑赋予这些设备思考的能力,很可能将带来难以预估的影响。

而具体到短期内可以落地的场景,IBM AI视觉大脑仍有很多可以想象的空间。比如,媒体与娱乐行业,IBM AI Vision视觉技术可以帮到拥有大量视频的体育赛事,电竞比赛,新闻和电影预告片等视频识别和剪辑工作;通过摄像头对产品质检、生产线安全排查,避免工作人员恶意作业行为、超市漏付款等;在医疗行业,对残障人士或独居老人的监护,并在出现问题时及时预警。

金属3D打印,重庆塞领金属3D打印效率领先国际,智能化为城市装上“智慧大脑”

金属3D打印,重庆塞领金属3D打印效率领先国际,智能化为城市装上智慧大脑近日,两段3分钟的视频在3D打印圈子里引起轰动一台金属3D打印机分别用2小时37分、5小时52分,打印出了整版123颗义齿和15副义齿支架。而打印同样数量的产品,进口设备分别花费6小时30分、15小时以上。实现这一国际领先金属3D打印效率的,是一家名为...
【温馨提示】本文内容和图片为作者所有,本站只提供信息存储空间服务,如有涉嫌抄袭/侵权/违规内容请联系我们删除!