UC伯克利提出新型视觉描述系统,物体描述无需大量样本

机器之心   2017-08-13 11:10

选自BAIR

作者:Subhashini Venugopalan、Lisa Anne Hendricks

机器之心经授权编译

参与:路雪

现在的视觉描述只能描述现有的训练数据集中出现过的图像,且需要大量训练样本。近日,UC 伯克利提出一种新型视觉描述系统,无需成对的新物体图像和语句数据就可描述该物体。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

给出一个图像,人类可以轻松推断出其中最明显的实体,并有效描述该场景,比如,物体所处地点(在森林里还是在厨房?)、物体具备什么属性(棕色还是白色?),以及更重要的一点:一个物体如何与其他物体互动(在地上跑,还是被一个人抓着等等)。视觉描述的任务旨在开发为图像中的物体生成语境描述的视觉系统。视觉描述正面临挑战,因为它不仅需要识别物体(熊),还要识别其他元素,如动作(站立)和属性(棕色),并构建一个流畅的句子来描述物体、动作和属性在图像中的关系(如一头棕熊站在森林里的一块岩石上)。

视觉描述的现状

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

LRCN [Donahue et al. '15]:一头棕熊站在绿色的地面上。

MS CaptionBot [Tran et al. '16]:一头大棕熊穿行在森林中。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

LRCN [Donahue et al. '15]:一头黑熊站在草地中间。

MS CaptionBot [Tran et al. '16]:一头熊在吃草。

以上为目前描述生成器(captioner)对两幅图片生成的描述。第一幅是训练数据中出现的物体(熊)图像,第二幅是模型在训练过程中未见过的物体(食蚁兽)图像。

当前的视觉描述或图像字幕生成模型效果已经很好,但是它们只能描述现有的图像字幕训练数据集中出现过的物体,且需要大量训练样本来生成好的描述。要学习如何在语境中描述类似「豺」或「食蚁兽」的物体,大多数视觉描述模型需要大量带有对应描述的豺或食蚁兽样本。但是,当前的视觉描述数据集,如 MSCOCO,不包含对所有物体的描述。与之相反的是,近期使用卷积神经网络(CNN)的目标识别工作能够识别出数百种类别的物体。尽管目标识别模型能够识别豺和食蚁兽,但是描述模型不能生成这些识别动物在语境中的准确描述语句。我们构建的视觉描述系统克服了这一难题,该系统无需成对的新物体图像和语句数据就可描述该物体。

任务:描述新物体

这里,我们正式地定义一下我们的任务。给定一个包含成对图像和描述(图像-句子对数据,如 MSCOCO)的数据集以及带有物体标签但没有描述的图像(非成对图像数据,如 ImageNet),我们希望能够学习如何描述在图像-句子对数据中未出现的物体。为此我们必须构建一个模型,该模型能够识别不同的视觉要素(如豺、棕色、站立和地面),并用新的方式将其组合成流畅的描述。以下是我们的描述模型的关键模块。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

我们的目标是描述训练图像中的多种物体。

使用数据的外部资源

为了给图像-字幕训练数据之外的多种物体生成描述,我们利用了外部数据源。具体来说,我们使用带物体标签的 ImageNet 图像作为非成对图像的数据源,将没有标注的文本语料库(如 Wikipedia)中的句子作为我们的文本数据源。它们分别用于训练我们的视觉识别 CNN 和语言模型。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

在外部资源上进行高效训练

捕捉语义相似度

我们希望能够描述在图像-句子对训练数据中未见过但与之类似的物体(如 ImageNet 中的物体)。我们使用密集词嵌入(dense word embedding)来达到该目的。词嵌入是词密集的高维表征,意义接近的词在嵌入空间中比较接近。在我们之前的工作「深度合成字幕(Deep Compositional Captioning,DCC)」[1] 中,我们首次在 MSCOCO 成对图像-字幕数据集上训练字幕模型。然后,为了描述新物体,我们对于每一个新物体(如霍加狓鹿)都使用词嵌入方法来确定一个在 MSCOCO 数据集所有物体中与新物体最相似的物体(在此案例中该物体是斑马)。之后,我们将该模型学得的参数从已见过的物体传输(复制)到未见过的物体(即将斑马对应的网络权重复制到霍加狓鹿)。

新物体字幕生成

DCC 模型能够描述多个未见过的物体类别,而将参数从一个物体复制到另一个物体可以创造符合语法的句子,如物体「网球拍」,模型从「网球」复制权重至「网球拍」,生成句子如「一个男人在球场打网球拍」。在我们近期的工作 [2] 中,我们直接将词嵌入纳入我们的语言模型。具体来说,我们在语言模型的输入和输出中使用 GloVe 嵌入。这使得该模型在描述未见过的物体时悄悄地捕捉语义相似度,进而生成句子,如「一个网球运动员挥舞球拍击球」。另外,直接将词嵌入纳入网络使我们的模型可以进行端到端的训练。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

将密集词嵌入纳入语言模型以捕捉语义相似度。

字幕模型和神经网络中的遗忘问题

我们将视觉网络的和语言模型的输出与字幕模型联合起来。该模型与现有的 ImageNet 预训练字幕模型相似。但是,我们观察到尽管该模型在 ImageNet 上接受预训练,当该模型在 COCO 图像-字幕对数据集上进行训练/微调时,它倾向于遗忘之前见过的物体。蒙特利尔和 Google DeepMind 的研究者也观察到了神经网络中的遗忘问题。我们在研究中,使用联合训练策略可以解决遗忘问题。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

在不同的数据/任务上共享参数、联合训练,以克服「遗忘」问题

具体来说,我们的工作包含三个部分:一个视觉识别网络、一个字幕模型和一个语言模型。这三个部分共享参数,共同训练。在训练过程中,每一批输入包含部分带标注的图像、一系列图像-描述对,以及部分句子。这三种输入训练网络的三个部分。由于三个部分共享参数,所以该网络接受联合训练,以识别图像中的物体、生成图像字幕和句子。联合训练帮助该网络克服遗忘问题,使模型能够对很多新的物体类别生成描述。

未来会怎样?

我们的模型中最常见的一个错误是无法识别物体,一种缓解方式是使用更好的视觉特征。另一个常见错误是生成的句子不够流畅(A cat and a cat on a bed)或不符合「常识」(如:「A woman is playing gymnastics」不完全正确,因为一个人无法「play」gymnastics,动词搭配不当)。提出这些问题的解决办法应该会很有趣。尽管我们在该研究中提出把联合训练作为克服遗忘问题的策略,但是在大量不同任务和数据集上训练模型并不总能够实现。另一种解决方法是构建一个基于视觉信息和物体标签生成描述的模型。这样的模型还能够在计算机运行中集成物体,即当我们在选中的物体集合上对模型进行预训练时,我们还应该思考如何渐进地在具备新概念的新数据上训练模型。解决这些问题可以帮助研究者开发出更好、更鲁棒的视觉描述模型。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

内容推荐
更多阅读

· 俄捂了20年的宝贝战机终于来华 不料我军另有新欢

· 这个千吨级别的巨舰中国已卖出20艘,大部分买家都来自这

· 现实中人被它们击中什么后果?中国两款大威力反器材狙击步枪

· 谁还在说国产军刀不漂亮?这把刀够打脸的不?

· 蛟龙号挑战的地球深渊,竟真有文明的存在!细思极恐!

· 国防科技大学成功“瘦身”北斗测试系统

· 直击一群女战士的真实悲壮生活

· 说一说“一带一路”执勤安保一线的那些人那些事

· 英国公司与英利合作 打造全球最经济太阳能灯

· 习近平治国理政关键词|丝路精神

· 1800万人铅中毒 美国自来水引发全美抗议 中国兴起分类用水

· 《当怪物来敲门》比隔壁《异星觉醒》还令人心悸,来,玩儿个心

· 《生化危机:复仇》新片段 生死竞速,里昂Vs丧尸狗

· 游戏迎来“全民黄牛”时代?外观类产品引玩家投资

· 搞趣网:战舰少女RE4怎么容易斩杀 斩杀阵容推荐

· 第二章手游梦幻系列之赚钱技巧

· PSVR枪战游戏《Farpoint》登上英国游戏销量排行榜

· 称霸之旅 51《蓝月传奇》系统速成功法

· 越狱密室逃脱荒岛求生之逃离鸟笼攻略通关大全

· CF手游AWM玩家使用心得 属性伤害一览

· 远征军维京推倒队友的方法讲解

· 毁三观!骚男竟扮演魔法少女,这么活动我怎能怦然心动

· “八纵八横”高铁新时代:四川的这个城市(海棠香国)受益最大

· 我国热带雨林的“毒木之王”,被称“见血封喉”,唯一解药已难寻

· 六盘水旅游景区名单推荐

· 湖州原乡小镇开园在即

· 榆中:兴隆山国际旅游度假区开工建设

· 山西5个县被认定为千年古县,其中1个是华国锋故里

· 七绝 山中闲趣(三首)

· 重庆这个地方和四川这个地方同时被国家看中,您的家乡就要起飞!

· 吕不韦的风雨人生07‖秦始皇生父之谜

· 太平天国几个王被凌迟时为何没有惧怕心理?

· 二十万人口的满清,为什么能灭掉一亿人口的大明?

· 非常唯美的句子,选一个自己喜欢的吧

· “万岁军土豪师”进军朱日和 跨区机动途中出“狠招”

· 全国鸡蛋产量猛增供大于求,上海鸡蛋价格创十多年来最低

· 南京一高层住宅楼起火 失火楼层消火栓竟不出水

· 男童“走失”虚惊一场 因避雨被不知情邻居反锁屋内

· 山西华晋骨科医院专家来渭南市骨科医院巡诊交流

· 26日起昆铁新开玉溪至北京、郑州列车 从滇中到中原只需11小时

· 一次别无选择的手术

· 昨天在火车站捡了一亿元,这么大的面额,不

· 薛其坤院士:中国的空气新鲜、温暖、健康

· 83岁老人暮年独乐,一句话令人泪如雨下

· 卫生局退休职工在荆州走失 头条寻人半小时帮其找到家人

· “直钩钓鱼”原来可以这么被解释通!

· 我不能将所有沙漠变为绿洲 但我绝不将绿洲再变为沙漠

· 富顺一女孩下河洗澡被淹死

· 现在不点赞都不好意思上厕所了

· 被赞为“小张柏芝”宋祖儿童年旧照曝光,女神之路毫无槽点

· 李佳航黑历史笑死人,演张益达号称屌神,而且还是演奥特曼出道

· “八国混血”韩熙雅又出来吓人了,称范冰冰赵丽颖是阿姨大妈!

· 杨洋参加戛纳电影节 外媒无修照片 颜值爆表 让外国人流口水

· 胡可沙溢重游鼓浪屿秀恩爱,手上的带娃神器亮了!

· 陈翔江铠同新剧即将开机,网友:与毛晓彤新戏是同一类型啊!

· 有哪些日剧男明星别人觉得很丑日剧迷觉得很帅?

· 传统空调摇身一变就智能了 你家空调真的需要这个“伴侣”

· 罗振宇——请您停止对知识的侮辱

· 鸿钛50T分段式送料机械手取料液压四柱裁

· 恶意占有破坏共享单车的人,如抓到之后通知

· 良心大发!微软再次紧急发布Windows XP安全补丁

· 「会员单位巡展」太原医联通数字医疗科技有限公司

· 或低于6万元起售 骏派新款D60即将上市

· 发动机爆震啦?可能不只是积碳的错,教你三招预防爆震

· 3年的五菱宏光,被强制报废了!这或许是国产车质量差的罪魁祸首

· 吉利全新7座商务MPV图片 或推混合动力价格13万

· 时尚居家两不误 将上市中国品牌7座SUV

· 落地价106万,现在36万,没开几年掉价70万,有钱人心也疼

· ofo小黄车出肌肉车啦?大妈说:“我的菜篮子呢?”

· 王思聪奢侈的青春期,百万豪车出行,马路上有它的专用道

· 最贵奢华品质 Audium Comp8落地音响

· 这车是宝骏730的头号对手

· 科二科三停车时,先踩离合还是先踩刹车?

· 直击宝马9系真的来了!看到这车我才明白什么叫顶级的汽车制造商

· 中国“亮舰”的背后

· 拥有唯一可能摧毁美国的核武?我国竟被排除在外!

· //@划着航母打兔子:这几块泰山石产自泰

· 连乌克兰的高端装备都不愿意要了,这个国家就是盯准了中国货

· 看到中国无人机的进步 这位老前辈泉下有知的话也该高兴了

· 通用电气收购艾尔姆风电遭调查 或面临重罚

· 曼彻斯特爆炸袭击疑为钉子炸弹所致

· 不再沉默!中国留学生海外维权巧发声

· 实拍非洲油耗子偷油过程,每天收入非常可观

· Xbox天蝎座今年秋季全球上市 国行版年内发售

· 强之愈强《勇者斗恶龙11》最新锻造系统流程公开

· [OWPS] 迟来的赛后采访FTD.Roshan:前排是队伍节奏点

· 剑侠情缘手游项羽同伴全解 项羽同伴怎么获取

· 昌景黄高铁今年开建:沿途八站,串起赣皖最美明珠

· 唐山启新立交桥环岛两车相撞

· 直击世界第一大湖泊,比10个海南岛还大

· 中国最具“穿越感”的3个地铁站,看到最后,忽然有点伤感

· 银川20家景区集体门票免票或打折

· “撤县设区”,辽宁省的这两个地方正在积极准备着!

· 达人故事丨属于80后大孩子的房车旅行

· 淅川县规划建设桃花溪谷、丹江七彩孔雀谷旅游区

· 骑行赴藏400多天 25岁鞍山小伙终于回家

· 巨型剑鱼卡船口 四人与大家伙角力

· 河南省内第二大城市“之争”,三选一,有一个优势明显

· 明末十大名将,袁崇焕只能排第七,第一名许多人没听过

· 或许我们被骗了,项羽不肯过乌江,难道真是没脸见江东父老吗?

· 感悟人生的经典句子

· 10句很经典的励志短句,人生可贵在于真诚相待,不在于利禄

· 忠言逆耳,但是句句话戳人心

· 人生值得铭记的十句哲理的话,句句在理

· 图虫人像摄影:林深 见你

· 重要癌症靶标三维结构获解析

· 三个学术民工︱五问中国企业海外投资(上)

· 山西清徐一煤矿发生透水事故11人被困

· 2012年12月12日,在武汉参加全国家

· 惊爆!崔永元坐拥10多家公司,旗下食品商城花式造假、频曝黑幕,网友群嘲敢不敢实话实说?

· 拆一个25元包邮的Broadlink WiFi定时插座

· 笑话十则,我发现我国新一代女性的主要特点

· gif动态图记录史上最惨烈的车祸发生的瞬间

· 直击养老院里的老人们,为儿女主动住进养老院,死亡后不敢走正门

· 直击:农村单身汉的真实生活,“离婚我不怪她”

· 福利!再过一个月,好几笔收入会落入你口袋!

· 直拍:5月陕州农村地坑院里的百姓生活

· 应采儿说陈小春拍戏只和狗玩,结果杨幂无辜躺枪了

· 邱淑贞15岁小女儿颜值竟和妈妈天壤之别,女神基因去哪儿了?

· 迪丽热巴退团引热议,跑男成员态度两极化,胖迪拍戏才是王道

· “小兵张嘎”谢孟伟结婚了,新娘的奶奶、姑姑、姑父都是大明星!

· 王子文现身机场暴露身高,与“女版王岳伦”热聊不止

· 54岁方中信全家出游照,港姐妻子贤惠顾家,女儿漂亮懂事更像爸

· 胡歌奶奶灰造型强势归国,不料却撞脸东华帝君,凤九你没想到吧!

· 厌食症?布拉德·皮特纽约外出被拍,瘦骨嶙峋几乎没法穿西装!

· 娱乐圈中的金星骂遍众人,却是赞了这6大明星

· 赵薇穿旗袍出席活动,重变小姐姐陆依萍,黄有龙直呼心中小鹿乱撞

· 我们欠乔杉一次大宝剑,大鹏这次总算还上了,还晒图留存

· 超好看家庭剧《爸爸好奇怪》剧中每组CP都有大看点

· 将英国经典话剧搬上国内舞台

· 人工智能、深度学习应用于诊断癌症

· 智联招聘公布2017财年第三季财报:总营收持续增长达30.3%

· 乐视裁员超50%,淘宝天猫系统瘫痪|

· 如何在半年挣五十万呢?

· 谷歌白日梦 Elements 将向你展示移动VR的基本原理

· 被这个喷雾一喷,什么都能当触控板用

· 乐视网2.0时代

· 电子商务毕业生,尽然找不到工作,尴尬至极

· 乐视网官方微博突然全部清空 贾跃亭辞去总经理一职|乐视究竟怎么了

· 东风标致5008于6月8号正式上市,爆价格是亮点

· 从汽车产业变革趋势看动力电池的机遇和挑战

· 史上最暴力的途乐改装案例,双涡轮加身,动力堪比布加迪

· 第二代甲壳虫敞篷版

· 百公里5.4个油耗,全景天窗、全T动力,紧凑型车的豪华存在

· 上市5个月销量夺冠,丰田这次出手很重,本田缤智很受伤

· 领克:最反感别人叫我“吉利领克”

· 宝马改色,电光棕灰!

· YYP正在桂林试驾标致5008,说出你们

· 连一台像样的行政级座驾都没有,新上任的马克龙总统偏偏爱它!

· 汽车多年不用,内部藏异物,警察来到后差点扭头就走

· 2017款奔驰E-Class

· 吉利也有GS,颜值性价比都不错

· 号称是比亚迪最漂亮的前脸造型,终于量产了!

· 原车价26万,现8.7万元出售,车型大气保有量高,性能优越

· 稀有的女玩家作品!大众凌度态度改装

· 摩托车赛车界巨星陨落:美国车手Nicky

· 马鞍山隐藏富豪,豪车价值上亿,牌照更惊人,统一排序站队牌号

· 50万就别买什么Q5X3普拉多了,撩妹保时捷被这款SUV完爆

· 决定油价的OPEC会议来袭!请收下这份“最全参考指南”

· 英媒:朝鲜称已准备好量产新导弹 美专家称其可靠性存疑

· 中国坦克所向披靡的真相终于曝光,亿万国人看完激动得血压飙升!

· 歼31难道就此打住了吗?歼31与歼20搭配干活,未来也可出口

· 震撼曝光:现如今的美军是如何看待中国空军

· 在部队和地方有什么区别?

· 兵哥也有柔情时,穿上海军服装迎新娘怎一个帅字了得

· 中国这项技术全世界独一无二,这是研发高超音速武器的前提

· 二战经典武器八九式掷弹筒

· 一名军校学员写给武警父亲的诗歌

· 盘点部队那些年的各种俯卧撑,分分钟让你相信人生

· 韩京畿道发生塔吊倒塌事故 致3人死亡

· 梅兰妮亚的复仇?特朗普想牵手被老婆一掌甩开

· 印度高铁豪华不输中国 但时速仅130还可能没人坐

· 印度牛粪饼 奇葩印度人竟用牛粪做成饼干称很好吃

· 巴西海边别墅

· 黑人家庭被空服赶下机,真相到底是什么

· 职场乔一帆现象:多少人因为选错赛道,从而误了终身!

· 皇室战争2v2卡组推荐:暴力消耗的桶矿三枪流

· 干将莫邪上线了 赶紧背着媳妇来撒狗粮

· 《DNF》看到这些欧皇脸帝的人品图,我默默拾起地上的零散金币

· 暗藏在“王者荣耀”皮肤中的三个小秘密,刘禅幕后背景通天?

· 《思美人》页游今日全面上线 张馨予倾情代言

· 每日话题:聊聊你心目中最烧钱的手游?

· “世界演艺第一秀”六月试营业 西安人又多了一个游玩好去处

· 贵州两座人口超600万的城市,一个三省红都,一个转折之城

· 地球上最奇特的10个村庄,其中一个在中国

· 广东最有可能合并的三个城市,分分钟超越上海!

· 好消息!宿州大道公园即将绽放

· 麻城林家下塆村美景惹人醉

· 八纵八横高铁时代:湖南将要建一座高铁新城

· 皇太极的宗室斗争:换旗南面独尊打压诸王

· 朋友圈实在句子,说中多少人心声

· 每天心语:心若在,花开花谢皆是情

· 老家的空气确实不错,该干点什么呢!

· 唐山路南离退休老干部跟年轻人“叫板”

· 为了工作没了生活,值得吗?

· 联通:你用的号码是新号还是回收号码,一查就知道

· 货车司机遇洪水弃车仓皇逃跑,老板二话不说直接奖钱

· 树上核桃总被偷,80岁老人自制防鼠神器

· 冻龄湖北妹子傅晶,跨越十年从空姐李小晚到心理学博士关晓智

· 《速度与激情8》即将突破27亿,网友:好看希望拍到第10部!

精彩图片