在方仔照相馆,只需上传一张照片,就可以生成定制积木玩偶“AI科幻小说作家”,1秒钟内可写出一个曲折动人的两千字故事,被科幻作家点赞自动驾驶黑科技,在重重限制下做出了让人惊讶的突破,更快速、更安全使用视频切割工具把“长课”拆短,用刷短视频的方式上网课,实现随时复习
在DeeCamp总冠*答辩现场,这些学生们历时一个多月打造的AIdemo获得了精彩展现。
它们兼顾黑科技与商业化、趣味性和严谨性。经过激励比拼,最终两支项目并列夺得总冠*,奖金翻倍,另有五支获得赛道冠*。
AI+积木、AI+交通、AI+科幻、AI+医疗、AI+教育、AI+金融……无形而强大的AI力量,正在与各行各业深度结合,创造出让人惊喜的新产品和新模式。
今天,就让我们一探DeeCamp七支AIDemo的神秘之处吧!
DeeCamp结营典礼,观众在展示区参观
方仔照相馆——一张照片生产定制积木玩偶
“AI+积木”会有什么奇妙的组合?
DeeCamp总冠*之一,来自北京航空航天大学、清华大学、香港中文大学、奥地利科学技术研究所的同学们组成的“方仔照相馆”团队,用AI玩转积木,为创意插上了翅膀。
“方仔照相馆”是一个涵盖博士、硕士、本科,同时拥有技术、艺术和设计背景的综合性团队。他们因为对积木的喜爱而走在一起,也希望用这个项目,将这份热情传递给更多的人。
02:39AI积木创作平台——“方仔照相馆”
不知道你有没有玩过塑造角色的游戏?从脸型、五官、肤色到发型服饰,每一个细节都可以进行选择,最终捏出一个属于自己的造型。
“方仔照相馆”打造了一个AI积木创作平台,只需简单上传一张全身照片,就可以生成个性化定制的方头仔玩偶头像,还能直接生成拼装图纸和零件部件图。
可以说是实体版定制emoji,积木版奇迹暖暖!
怎么实现的呢?
他们分别使用了两个神经网络,进行上半身与全身的分析。根据输入的图像,抽取特征向量,比如发型、刘海、胡子、眼睛、下巴、肤色、上衣款式、衣服图案、鞋子颜色、手的摆放、裤子纹理等,最终得到了一个16个维度的向量,来编码一个人从头到脚的各方面特征。之后根据这一向量来生成方头仔模型。
为了使模型更细致,运行速度更快,团队采取分部位生成的方法。
首先,从互联网收集大量设计师设计的模型,将各个部位的拼法编译进数据库中。对其中常用的部位拼装模型进行可视化,例如手,发型,衣服纹理等。
然后,根据各部位的拼法,在特征空间进行匹配,从而得到各部位的对应零件。对每一块积木进行对应的染色,贴图,去除碰撞之后,便得到了最终的模型。
最后一步,是生成拼装说明书,辅助用户进行拼装。
除了技术优秀外,方仔照相馆团队也已经设计好了商业化路径,采取人物定制、线下「方仔照相馆」设施的方式,直接实现商业化。
这个团队的执行力也让人惊叹!在DeeCamp答辩最后不到一周的时间内,他们与数十家供应商进行商谈与实地走访。
从算法生成模型、到说明书排版制作、到积木采购,再到贴图印刷、包装设计制作、积木分拣,团队高效分工与合作,保证了产品原型如期与大家见面。
李开复博士和他的定制版“方头仔”
评委之一、创新工场董事长兼CEO李开复评价称,“方仔照相馆”让我们惊讶于积木居然可以与AI结合。他们的“方头仔”产品让人充满购买意愿,几乎是一项可以直接拿到融资的项目。
比盲盒还要可爱,比手办更加独特的玩具,也许在不远将来就可以定制了!
FasterBetter/西天取经——自动驾驶的黑科技
自动驾驶是人工智能中最具挑战、最具有应用前景的方向之一。然而受限于算符和算力,目前还无法大规模落地量产。
如果把一个车载芯片处理器比作自动驾驶的“大脑”,算力就是大脑的运算速度,算符是大脑能够使用的基本单元,算法是大脑思考所采用的方法。
更低的算力意味着更低的成本,更通用的算符意味着更好的适配,而更高效的算法则意味着更少的功耗。
所以在自动驾驶赛道中,组委会结合现实产业需求,对参赛团队做出了严格的限制:
1、算力限制
摩尔定律终结,如何满足实时要求?如何在有限算力下实现车载智能计算基础平台的系统冗余、平滑扩展?
2、能耗与散热
自动驾驶系统的能源损耗中,计算机占了41%。过高的能耗会导致严重散热,因此需要专门的水冷装置。
3、成本限制:
一块Ti显卡需要$1,。
这就要求同学们兼顾算力算符的约束,满足低成本低功耗,同时在更少的算力下保证实时性,提高检测速率。
本次竞赛,共有10支队伍向自动驾驶赛道发起挑战。最终,FasterBetter团队以让人震撼的技术实力摘得竞赛总冠*,“西天取经”团队则荣膺赛道冠*。
FasterBetter测试复杂场景下精确检测车辆
FasterBetter带来的成果堪称一流的黑科技,获得了李开复博士的高度认可,他说,“这个团队的技术让人惊讶,是一个可能改变行业的机会,非常值得投资”。此次自动驾驶赛道的出题方Momenta也非常赞赏该团队的成果。
具体来说,FasterBetter团队根据目标数据集的特点,展开调研与实验,最终选定TTFNet作为主要模型,基于车辆检测这个特定问题对模型进行升级改进。
最终呈现的技术方案,具备了推理速度快、训练时间短、可扩展性强三个亮点,有利于无人驾驶场景下快速推理,和工业界对产品的快速迭代、上线,训练和维护功耗更低,能够部署在低成本的芯片上,适用于更广泛的场景,为无人驾驶系统的安全性和稳定性保驾护航。
FasterBetter团队采用了TTFNet模型
未来,该车辆检测模型可以部署到行车记录仪等传统硬件上,使其智能化,具有行车预警的功能;也可以应用到安防监控中,使用模型自动过滤删选视频中有车辆的场景加以保存,既可以节省存储空间,也能够节省人员回放视频时的时间。
FasterBetter团队相信,尽管自动驾驶领域面临着诸多不确定性和挑战,但是随着一个个技术难题被攻克,自动驾驶落地并不遥远。
就像队名一样,他们由衷地希望为自动驾驶行业添砖加瓦。
同时挑战自动驾驶赛道的“西天取经”团队,则获得了赛道冠*。
他们采用了非常多业界先进的技术,从Backbone、Neck、Loss三个层面出发,设计了一系列满足算符算符约束的目标检测模型,并作出做出适配改进,进行算法针对性优化。
相比Baseline,“西天取经”团队最快+18.33fps
推理速度是衡量自动驾驶技术的关键指标,目前行业内对推理速度的最低要求是10fps,而该团队的产品推理速度最快达到了74.5fps。
同时,他们提出了基于数据分析提出特定的增强方法,改善了夜间难样本的训练。
经过真实场景下的测试,无论侧视、后视、前视、夜景,都表现出了良好的迁移效果,测速、性能表现较好,达到了简单场景下的车辆检测要求,有满足商业落地的潜力。
“西天取经”的项目可以在手机端部署
该项目另外一大亮点是在手机上集成了检测产品,做到了产品级别的实时呈现。未来,产品将可以搭载到智能行车记录仪车辆预警、车载手机预警APP、交通事故实时监测、实时治安情况监测等多个领域。
正如队名“西天取经”,他们希望在自动驾驶的漫漫长路上,经历磨难,不断成长,不断探索。
AI科幻世界——打造“AI科幻小说作家”
创新赛道的冠*“AI科幻世界”团队,打造了一个可以生成科幻小说的系统。
该团队的五位同学来自中科院、美国乔治梅森大学等高校,他们原本就对科幻小说十分感兴趣,想要自己尝试却总是有始无终。
于是,他们干脆做了一个“AI科幻作家”。
他们基于OpenAI的GPT-2模型,在百亿级中文大规模语料上重新训练,根据作者设定好的故事主线、人物角色等,实现交互式生成科幻小说内容,不仅可以遣词造句,还可以创作构思,让普通人也可以化身“科幻文学大咖”。
在开发的过程中,团队借鉴了作家创作小说的过程,受到认知心理学和文学理论启发,提出情节大纲主导的、人机协同写作的范式:
用户输入第一句,机器输出多个人称一致、语句连贯、逻辑合理的下一句话候选,由用户做筛选和修改,不断重复形成情节闭环。
在人机协同的半自动模式下,这位“AI科幻作家”写作故事大纲的速度每分钟可达50-字。而在无人干预的全自动模式下,可以在1秒钟之内写出一个曲折动人的两千字故事,揭开了创作的神秘面纱。
02:23AI科幻世界导师、著名科幻作家陈楸帆点评
AI科幻世界的导师是著名科幻作家陈楸帆。在他看来,AI科幻世界项目虽然在目前算法还无法处理人物关系,但可以启发作者思路,帮助构思,摆脱思维惯性和固有的禁锢,从更广阔、弹性的空间上给与作家情节脉络发展的创意和启发。
AI让传播更高效,该项目将可以应用在商业传播场景中,提升内容的广度和个性化,兼顾精准分发下的用户需求和内容质量,满足企业对海量信息的搜集、分析、筛选、整理和发布需求。
心灵捕手——软硬结合的“AI智能医生”
医疗与公共卫生赛道的冠*“心灵捕手”小组,在两个月时间内,做出了一款软硬结合的“听医声”AI诊断专家。
硬件是电子听诊器,软件是小程序和后台云端分析系统
根据数据显示,心血管类和呼吸系统类疾病,是中国城乡居民主要的疾病死因。
目前两种疾病的前期诊断,主要靠听诊完成。但由于缺少定量的心音分析技术,以及受医生主观判断的影响,容易做出错误的评价和诊断。
这也是“听医声”这个作品的初衷,他们希望使用第三方专业的评估平台为医生提供诊断参考。
01:32“听医声”产品介绍
“听医声”中西结合,集成了心、肺、脉搏一体化监测,依托电子听诊器,对心音、呼吸音、脉搏三种信号做检测,可以区分4类心音信号,计算用户的心率和血压;区分6类呼吸音信号;可以将脉搏分为5种脉象。
电子听诊器采集到音频信号后,会发送到小程序,由小程序上传到云服务器,经过服务器处理之后将诊断结果发送到小程序中进行显示,提供多维度的病情分析,并给出健康建议。如需就医,还医院。
该电子听诊器是由团队自主设计制作的电路与外壳组成,外壳采用了双圆盘扣合结构,还搭配了大容量的锂电池,待机时长可达40天。
呼吸音预测,使用集成学习与卷积神经网络方法,结合kaggle网站心音数据集进行训练。
首先将采集到的音频信号,经过预处理,分割,特征提取等,输入到Adaboost分类器中,作为第一路分类模型;然后原信号经过频带分解生成MFCC热图,输入到CNN网络里面作为第二路分类模型。最后,两路模型经过决策树得到最终的一个分类结果。
李开复博士体验“听医声”AI诊断专家
心音预测采用心率变异性作为分类的主要特征,它是一个与心脏健康程度密切相关的指标。由于缺少开源数据库,心音预测采用迁移学习的方法。对心音异常部分计算HRV特征,结合辅助数据通过迁移学习进行学习和分类。
此外,“听医声”也加入了中医诊断功能,这引发了答辩现场评委的质疑:用AI做中医“号脉”真的靠谱吗?
“心灵捕手”团队解释说,为了增加数据的可靠性,他们收集了份中医专家诊断的脉象临床数据,提取相应的特征,把专家经验转化为临床诊断量化标准,最终的分类准确率达到了0.92。
“听医声”这款产品便携易用,操作简单,医院帮助医生做初步诊断,还可以为医疗资源不足的乡村医生、乡村留守老人提供帮助。
TechedU——用刷短视频的方式上网课
同样是在家上网看视频,上网课就令人感到疲惫,看短视频就十分轻松愉快了。
那能不能用刷短视频的方式上网课?
教育赛道的冠*,来自CMU和宾大的同学组成的“TechedU”团队就做了这样的一套产品。
短视频+教育的理想模式
他们设计了一套TopicNet算法,可以根据知识点、主题,把很长的网课视频按照知识点拆成简短的视频,便于理解和吸收,如果有你已经掌握、不想再听的知识,也可以直接跳过节省时间。
基于transformer的端到端多模态视频分割算法
而且,把“长课”拆短之后,就有了课程大纲。
你可以从大纲里选择自己想听的部分,比如把老师划的重点选出来,重新组合,专门听重点的课程。
另外,借助OCR等技术,这项产品还实现了视频搜索功能。也就是说,在听完一门网课一段时间之后,如果突然忘记某个知识点,就可以直接搜索关键词,跳到老师讲这个知识点的地方,重新听老师是如何讲解这部分知识的。
这样,不用辛苦地整理笔记,也可以随时复习了。
TechedU团队的同学们说,他们的模型准确率达到了91.6%,高于业界44%的水平。在他们看来,教育视频经过这样的处理,可以大大提升用户体验,提升付费意愿,用户们为了优质的体验也不再倾向于找盗版课程资源,有利于在线教育公司的发展。
实验结果:模型准确率91.6%,远于业界最新模型44.0%
Non-pretrain——AI赋能外汇交易,平均年化收益10%
用AI取代人做外汇交易,平均年化收益10%,听起来是不是很振奋?
商业赛道的冠*、来自南京大学和复旦大学的“Non-pretrain”团队,做的就是这样一套产品。
他们提出了一项基于机器学习的外汇交易辅助系统——“CAPQuant”。
该系统,让计算机在海量的数据中学习汇率的变化规律,以此来制定交易策略。
经验证,在最基础策略下,该模型即可盈利,所有年份年均收益率为9.%,最近5年收益率为11.%。
CAPQuant产品趋势图
“Non-pretrain”团队使用了DeeCamp的合作伙伴路孚特(中国)提供的数据:从年到年的汇率变化数据,还有提取出的市场情绪数据、宏观经济数据、利率基准数据、以及计算出的各项技术指标。
量化交易一般遵循这样的技术流程。首先将原始时间序列数据,经过清洗和特征提取等,组织成一条条的训练样本。
然后使用模型(比如神经网络模型)进行训练,得到回归模型。有了回归模型之后,就可以进行预测,从而评价模型并且调优各种参数。最后基于预测模型建立交易策略。
不过在进行这些流程的时候,这个团队遭遇到了非常多的挑战。
挑战一:可解释性
常规神经网络有个明显的缺点,就是它不知道为什么做出这样的预测。
Attention机制是目前火遍全网的世界上最大的神经网络GPT3的核心原理之一,“Non-pretrain”创造性地将这一机制引入到外汇预测模型中。
在该机制下,得到历史数据时间点及数据种类对预测结果的影响程度,从而解释为什么做出这样的预测。这样人类交易员不仅可以从中总结出经验,还可以根据不合理的解释去拒绝机器的预测结果。
将Attention机制引入到外汇预测模型中
挑战二:置信度
置信度不仅可用于制定交易策略,给投资者信心,还可用于模型改进与迭代。
问题是,如果直接应用神经网络进行回归预测,将难以得到预测置信度。预测结果如果没有置信度,那我们也很难将这个结果应用在实际的外汇交易中。
团队想到了可以通过多模型预测结果一致性来得到置信度,于是他们设计了一个集成机制。首先使用聚类划分数据,对每一个类单独训练一个模型,再将各模型集成。这样提高了准确率的同时也得到了预测置信度。
通过多模型预测结果一致性来得到置信度
挑战三:窗口大小参数调整
以往的机器学习模型,对于超参数大多是凭经验拍脑袋确定,或者需要大量调参。这也是为什么说人工智能调参,类似于古代炼丹。
窗口大小是量化交易中的关键性超参数,决定将多长时间历史数据输入模型,过长造成冗余信息过多,影响训练速度与效果,过短则无法提供足够的信息进行预测。
Non-pretain团队决定采用数据驱动的方式自动定窗,计算数据偏自相关系数来确定最终大小。从图中可以看出,窗口大小为28足够包括大部分的信息。如此便自动化地确定了窗口的大小。
自动化确定窗口大小为28
目前,这套模型已经与路孚特公司合作,探索应用到外汇市场的可能。未来,将可以成为一款toB的辅助交易系统,为客户预测走势,给出买入卖出建议,同时提供可解释性与置信度,还可能提供更多的拓展模块,应用到股票和债券等场景中。
DeeCamp四周年:迭代与坚守
DeeCamp与往年有很多不同。
自年DeeCamp人工智能训练营发起以来,一直都是在线下举办。
在暑期1个月时间里,同学们同吃同住,一起上课,合作打磨demo产品,最后集中展示成果。在产业界、学界导师的指导下,获得真实场景中的实践案例经验。
但是受疫情影响,DeeCamp的大师课和开放性竞赛都需要转移到线上。这是一次重大的迭代,也是个艰巨的挑战。
一群来自全球、互不认识的大学生,在完全不见面的状态下,要用最短的时间组建团队,建立信任,确定课题,分工合作,打磨出兼具技术实力和商业潜力的AIdemo,难度可想而知。
这次参加竞赛的多名学生,来自海内外74所学校,分布在86个国内城市及北美和欧洲的17个海外城市。大家时差不同,也给彼此的合作增加了阻力。
在总冠*答辩典礼上,创新工场董事长兼CEO李开复博士评价说,“特别惊喜地看到同学们今年的作品,跟以往线下合作在水平上基本没有区别,这说明好的科研产品是可以在线上合作完成的,让我们非常振奋!”
创新工场董事长兼CEO李开复博士致辞
但在这背后,其实是同学们加倍的负责与付出。
以今年唯一的智能硬件项目“听医声”为例。该团队的五位同学,有四位来自中科院大学,但是参加DeeCamp之前互相并不认识。
通过DeeCamp组队后,五个人分别负责前端、后端、硬件、以及算法模型的设计和开发,从完全陌生到默契配合,从零到一,打造了一个软硬协同、接近落地的产品。
负责硬件开发的潘易辰同学说,“一个多月的时间,从无到有,‘听医声’就像我的孩子一样,看着它慢慢长大,逐渐成形。虽然只拿到了赛道冠*,但是已经很满足啦!给开复老师诊断也成为‘听医声’的高光时刻。”
“听医声”在医院做心音预测数据采集
这次总冠*之一、FasterBetter团队的队长潘恒同学说,从报名入营到拿到总冠*,这一路收获满满,如同“梦幻之旅”。
“7月30日终期答辩拿到赛道第一后,觉得我们的赛题不适合讲商业创新的故事,而对总冠*不抱幻想。但想着对项目负责,这几天还是和张老板从早晨肝到深夜,各种物料改了一版又一版。上午答辩后,开复老师公布总冠*的时候,才是后知后觉的惊喜。”
FasterBetter项目夜晚场景路面测试
DeeCamp提倡同学们发挥“自我组织、自我管理、自我表现”的精神,进行一段自我驱动的AI学习实践之旅。
在训练营期间,他们不仅自发组织了13场分享会,也在这个过程中结下了深厚的友情。
徐豪同学说:“可能每一个好的团队里,每个人都觉得自己被带飞吧。我信任队友做项目时候的各种设计,希望疫情过去后可以跟队友以及其他帮助过我们的人聚一聚。”
陈琰钰同学说:“小伙伴们都超级优秀,能认识你们真的很开心。感谢队友的信任选我做队长,争取下次是一个能带飞队友的小陈!”
DeeCamp的Demo作品有一个明显的特点,不仅技术有创新突破,产品化、商业化程度也很高。几乎每个项目都对未来的商业落地场景进行了思考与尝试。
例如,教育赛道的冠*项目“TechedU”已经准备产品化,首先与行业领先公司合作共建标杆项目,未来面向中小型在线教育公司提供SaaS服务。
该团队的周瑞宸同学负责商务,他表示团队已经和市场上的多家头部教育公司开始了合作对接,正在尝试为这些公司的视频进行切割拆分。
要知道,DeeCamp两个月前才刚刚开始,这是一个仅仅准备了不到2个月的项目,就已经有了商业化成功的苗头。
在TechedU团队答辩之后,李开复博士评价说,“toB方案很成熟,可以真正实施去创业,先赚到钱再考虑toC”。
这句话给了周瑞宸很大的鼓励,他说,“DeeCamp虽然结束,但是这个项目还没有结束,用创业的心态推动项目前进的历程还没有结束。毕竟,从0到1是一场无限游戏,只有在你想要结束的时候才会停止。”
创新工场人工智能工程院执行院长王咏刚说,今年的课程设置中,有刻意引导学生从产业和商业综合层面考虑问题,这也是今年DeeCamp更加突出的特色。
创新工场人工智能工程院执行院长王咏刚解读DeeCamp
DeeCamp的主题是用AI解决真实世界的问题,也就是说,AI的设计与制作需要从综合层面考虑,这也就包括了技术产品和商业化。
这也契合DeeCamp人工智能训练营发起的初衷:培养AI应用人才,引导学生体验AI技术如何转化为产业应用,积累实践案例经验,真正解决来自真实世界的难题,创造更美好的生活和人类未来。
DeeCamp四年,初心未变,未来也将砥砺前行!