UC伯克利提出新型视觉描述系统,物体描述无需大量样本

机器之心   2017-08-13 11:10

选自BAIR

作者:Subhashini Venugopalan、Lisa Anne Hendricks

机器之心经授权编译

参与:路雪

现在的视觉描述只能描述现有的训练数据集中出现过的图像,且需要大量训练样本。近日,UC 伯克利提出一种新型视觉描述系统,无需成对的新物体图像和语句数据就可描述该物体。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

给出一个图像,人类可以轻松推断出其中最明显的实体,并有效描述该场景,比如,物体所处地点(在森林里还是在厨房?)、物体具备什么属性(棕色还是白色?),以及更重要的一点:一个物体如何与其他物体互动(在地上跑,还是被一个人抓着等等)。视觉描述的任务旨在开发为图像中的物体生成语境描述的视觉系统。视觉描述正面临挑战,因为它不仅需要识别物体(熊),还要识别其他元素,如动作(站立)和属性(棕色),并构建一个流畅的句子来描述物体、动作和属性在图像中的关系(如一头棕熊站在森林里的一块岩石上)。

视觉描述的现状

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

LRCN [Donahue et al. '15]:一头棕熊站在绿色的地面上。

MS CaptionBot [Tran et al. '16]:一头大棕熊穿行在森林中。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

LRCN [Donahue et al. '15]:一头黑熊站在草地中间。

MS CaptionBot [Tran et al. '16]:一头熊在吃草。

以上为目前描述生成器(captioner)对两幅图片生成的描述。第一幅是训练数据中出现的物体(熊)图像,第二幅是模型在训练过程中未见过的物体(食蚁兽)图像。

当前的视觉描述或图像字幕生成模型效果已经很好,但是它们只能描述现有的图像字幕训练数据集中出现过的物体,且需要大量训练样本来生成好的描述。要学习如何在语境中描述类似「豺」或「食蚁兽」的物体,大多数视觉描述模型需要大量带有对应描述的豺或食蚁兽样本。但是,当前的视觉描述数据集,如 MSCOCO,不包含对所有物体的描述。与之相反的是,近期使用卷积神经网络(CNN)的目标识别工作能够识别出数百种类别的物体。尽管目标识别模型能够识别豺和食蚁兽,但是描述模型不能生成这些识别动物在语境中的准确描述语句。我们构建的视觉描述系统克服了这一难题,该系统无需成对的新物体图像和语句数据就可描述该物体。

任务:描述新物体

这里,我们正式地定义一下我们的任务。给定一个包含成对图像和描述(图像-句子对数据,如 MSCOCO)的数据集以及带有物体标签但没有描述的图像(非成对图像数据,如 ImageNet),我们希望能够学习如何描述在图像-句子对数据中未出现的物体。为此我们必须构建一个模型,该模型能够识别不同的视觉要素(如豺、棕色、站立和地面),并用新的方式将其组合成流畅的描述。以下是我们的描述模型的关键模块。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

我们的目标是描述训练图像中的多种物体。

使用数据的外部资源

为了给图像-字幕训练数据之外的多种物体生成描述,我们利用了外部数据源。具体来说,我们使用带物体标签的 ImageNet 图像作为非成对图像的数据源,将没有标注的文本语料库(如 Wikipedia)中的句子作为我们的文本数据源。它们分别用于训练我们的视觉识别 CNN 和语言模型。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

在外部资源上进行高效训练

捕捉语义相似度

我们希望能够描述在图像-句子对训练数据中未见过但与之类似的物体(如 ImageNet 中的物体)。我们使用密集词嵌入(dense word embedding)来达到该目的。词嵌入是词密集的高维表征,意义接近的词在嵌入空间中比较接近。在我们之前的工作「深度合成字幕(Deep Compositional Captioning,DCC)」[1] 中,我们首次在 MSCOCO 成对图像-字幕数据集上训练字幕模型。然后,为了描述新物体,我们对于每一个新物体(如霍加狓鹿)都使用词嵌入方法来确定一个在 MSCOCO 数据集所有物体中与新物体最相似的物体(在此案例中该物体是斑马)。之后,我们将该模型学得的参数从已见过的物体传输(复制)到未见过的物体(即将斑马对应的网络权重复制到霍加狓鹿)。

新物体字幕生成

DCC 模型能够描述多个未见过的物体类别,而将参数从一个物体复制到另一个物体可以创造符合语法的句子,如物体「网球拍」,模型从「网球」复制权重至「网球拍」,生成句子如「一个男人在球场打网球拍」。在我们近期的工作 [2] 中,我们直接将词嵌入纳入我们的语言模型。具体来说,我们在语言模型的输入和输出中使用 GloVe 嵌入。这使得该模型在描述未见过的物体时悄悄地捕捉语义相似度,进而生成句子,如「一个网球运动员挥舞球拍击球」。另外,直接将词嵌入纳入网络使我们的模型可以进行端到端的训练。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

将密集词嵌入纳入语言模型以捕捉语义相似度。

字幕模型和神经网络中的遗忘问题

我们将视觉网络的和语言模型的输出与字幕模型联合起来。该模型与现有的 ImageNet 预训练字幕模型相似。但是,我们观察到尽管该模型在 ImageNet 上接受预训练,当该模型在 COCO 图像-字幕对数据集上进行训练/微调时,它倾向于遗忘之前见过的物体。蒙特利尔和 Google DeepMind 的研究者也观察到了神经网络中的遗忘问题。我们在研究中,使用联合训练策略可以解决遗忘问题。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

在不同的数据/任务上共享参数、联合训练,以克服「遗忘」问题

具体来说,我们的工作包含三个部分:一个视觉识别网络、一个字幕模型和一个语言模型。这三个部分共享参数,共同训练。在训练过程中,每一批输入包含部分带标注的图像、一系列图像-描述对,以及部分句子。这三种输入训练网络的三个部分。由于三个部分共享参数,所以该网络接受联合训练,以识别图像中的物体、生成图像字幕和句子。联合训练帮助该网络克服遗忘问题,使模型能够对很多新的物体类别生成描述。

未来会怎样?

我们的模型中最常见的一个错误是无法识别物体,一种缓解方式是使用更好的视觉特征。另一个常见错误是生成的句子不够流畅(A cat and a cat on a bed)或不符合「常识」(如:「A woman is playing gymnastics」不完全正确,因为一个人无法「play」gymnastics,动词搭配不当)。提出这些问题的解决办法应该会很有趣。尽管我们在该研究中提出把联合训练作为克服遗忘问题的策略,但是在大量不同任务和数据集上训练模型并不总能够实现。另一种解决方法是构建一个基于视觉信息和物体标签生成描述的模型。这样的模型还能够在计算机运行中集成物体,即当我们在选中的物体集合上对模型进行预训练时,我们还应该思考如何渐进地在具备新概念的新数据上训练模型。解决这些问题可以帮助研究者开发出更好、更鲁棒的视觉描述模型。

UC伯克利提出新型视觉描述系统,物体描述无需大量样本

内容推荐
更多阅读

· 特朗普宣布将收紧美对古巴政策 美古关系或遇冷

· 好物|抹上这些颜色的指甲油,特别显高级

· 皇帝太贪玩儿,国内玩罢玩国际,租块地皮充脸面,丢人丢到长城外

· 你以为做了试管婴儿就万事大吉,答案真不是你想的那样

· 印尼电商Blibli收购本国OTA Tiket

· 悲剧?天大喜讯!日本两兄弟巨星双双被国乒淘汰!球迷怒骂:丢人

· 做小本生意必读,小本生意切勿触碰10大禁忌!

· 维吾尔族退伍老兵为牺牲战友守墓46年

· 《史前埃及》:俄罗斯老铁做了一款向中国玩家致敬的“古埃及”游戏

· 中国量子卫星破了个世界纪录 从这个青海小城传出的回响一直响到了华盛顿

· 75岁残疾老人供出2个大学生,5元磨一把菜刀,不图挣钱只为找个事干

· 夏季清晨,青城公园,活力满满,狗狗除外

· Uber 在英国的第一支广告,画风有点《爱乐之城》

· 打车软件Lyft宣布以“100%可再生能源驱动汽车

· 国内生产机器人核心设备最大企业就在武汉黄陂,打破我国长期受制于人格局

· 小斯随以色列俱乐部夺得职业生涯首冠!

· 总有一款你喜欢的LOL皮肤

· 阴阳师:神龛商店什么时候会上架SSR呢?盘点日本夏季传统节日!

· 保山多措并举全面叫响“温泉之都”旅游品牌

· 筑牢安全生产防线!习近平这样要求党员干部

· 微信「小程序列表」惊现广告?开发者们纷纷坐不住了

· 新车|这又是一款无人问津的豪华SUV?|Y车评

· 凯尔特人正与76人认真讨论交易状元签

· 推开窗便是天堂!这才叫度假,你那最多算个窝!

· 七大原因告诉你孩子为什么迟迟不会走

· 虎妈弃养的虎宝为什么选狗妈来哺乳?

· 近40度高温来袭全国多地 鸟儿觅食赏花享清凉!

· 图片报:弗赖堡有意霍芬海姆中场小将奥克斯

· 再施“换股吸并”妙手 招商局资本局棋至中盘

· 「意·焦点」米兰开全意首家“合法大麻”商店!店家:我们不是为了high~你信吗?

· 赵括的辩才当真无敌,把他老子说得哑口无言

· 上海电视节白玉兰奖揭晓:张译、殷桃获最佳男女主,关晓彤获最佳女配!

· 俄媒:美国最贵航母没战斗力 舰载机无法降落

· 过年去岳父家收到“山寨红包”,打开后我惊诧不已

· 深夜食堂,其实是部科幻剧

· 伊格达拉可能将与勇士续约一份1200万的合同

· 芝加哥警局为新警察举行毕业典礼

· 入夏需要点时髦灵感?备这些单品就对了……

· 全球十大煤矿产地 中国两地竞排第二第三

· 这是我们学生时代最后一张照片 明天即将各奔东西 好好珍惜

· 凯泽斯劳滕门将将成为今夏欧青赛德青队主力门将

· 「三分钟法治新闻全知道」台湾师生持“护照”到联合国旁听 工作人员:需要台胞证

· 小K前女友和德普千金,金风玉露一相逢,便胜却人间无数

· 明星嫁给爱情的样子,8分“酸臭” 9分虐狗 10分黑!

· 本田大法好,做了多年的梦终于要一步步实现了!

· 宝骏560销量低?宝骏质量差?都是车黑,真正的560车主没有一个说不好的

· 前皇马主席:C罗去意已决,有可能重回曼联

· 美轰炸机“三驾马车”在欧洲“同框”

· 玩不起的儿时经典 过于“昂贵”的《魂斗罗:归来》

· 毛豆别再煮着吃了,跟东北大姐学来的新做法,保证你一顿能吃三碗饭

· 就因医院这邪性的现象,孕妈说啥都不愿今天生,医生也没法解释

· 不为人知的一面,揭秘蒙古国富豪超级奢华的生活

· 安倍内阁支持率连续四个月下滑 陷办学丑闻引不满

· 花九百斤的钱仅买到六百斤蝤蛑 咋回事 商家却说……

· 《奔跑吧兄弟》第一季到第五季:让观众尴尬到不行的五位嘉宾

· 郑州日产交出皮卡答卷 纳瓦拉能否大卖?

· 当今世界那些正在闹独立的地区之二十一:北大年府(泰国)

· 2017LPL夏季赛W2D2速报:OMG曲折取胜SNG NB两连胜暂居小组第二

· 3000平米、300+道菜、航母级海鲜自助杀到魔都!

· 洛阳人气小龙虾店盘点,收藏了一家家扫荡去

· 壕!巴萨前主席亲口承认国米11年前1.5亿欧报价梅西!

· 德国政坛“巨人”科尔去世

· 我妈在早市上给我买的那双拖鞋,又火了

· 《来吧冠军2》游戏被质疑抄袭日本综艺,究竟是真的吗?

· 1980年06月17日,中国著名生物化学家彭加木在新疆罗布泊失踪

· 做了全职妈妈,你害怕吗?

· 农村养老保险允许一次性补缴9万元,退休后每月领取1300,你会交吗

· 成都自贸区全球揽才 百万年薪+完整产权人才公寓

· 美媒:马拉维危机 杜特尔特的大话令战况升级应负部分责任

· 重做之后的周瑜大大怎么样?

· 准妈妈如何成为时尚宝妈

· 孩子跟谁睡,竟决定他一生的性格!别不当回事!

· 看淡人生得失,笑对世事繁华

· 俄罗斯世界杯倒计时一周年 贝利拄着拐杖也要来

· 在建的5条快速路今年将全部通车,能给济南提速吗?

· 55个CEO杭州闭门会:阿里葫芦里到底卖什么药?

· 欧洲职业联赛中国首位留洋门将,葡超度过艰难一年

· 中国航天捷报连连!墨子号量子纠缠,世界首次!一领域4年反超国外半世纪

· 唐嫣经常笑容满面,原来是因为她有个童心未泯的男友!

· 梦幻千亿兽决,玩家却打在了蓝书宝宝上 这心有多大

· 世上所有的热米皮,都是汉中人的久别重逢

· 村里人抬棺,一步一文钱,财主却要在乱葬岗停下!

· 贵人语迟?小心你错过了孩子的语言敏感期!

· 因为青海和福建,一个月后,中国将成为“世界遗产最多的国家”

· 纪念张充和辞世两周年|桃花鱼——想起张充和先生

· 旅行时,要争当全世界最美的女人这些装备不能少!

· 西月岛,南海南沙群岛中的第三大岛屿

· 美驱逐舰与菲律宾货轮相撞 7名美国军人失踪

· 打野英雄:职业资格赛对手意料之外的强大!开局就劣势!

· 天津旅行攻略

· 武则天长期重用狄仁杰真实意狄阁老的作用

· 走进长春神店,只有在深夜,你才知道他为什么这么火!

· 岁月如酒!当你老了才明白,喝酒的真谛

· 小儿贫血的治疗以及预防方法,准妈妈、新手妈妈必读

· 农村一家十口人家中剩下一老一瘫 儿子儿媳挣钱为母延续生命

· 班子第六人被查 两书记一结党一内斗

· 有买揽胜运动版的钱 你会选择兰德酷路泽吗

· 收购未了局:信立泰被指设套拖垮竞争对手

· 国界线的内外,看到的国与国不同的风景!

· 发短信怂恿男友自杀 女子过失杀人罪成立

· 看完这组令人不寒而栗的图片,你还敢去大海或者大河里游泳划船么?庞然大物们似乎在伺机而动

· 「喜讯」咸宁又双叒叕被国家点名啦,看看这次是为么事?(美图多多)

· 农村大嫂搞了一脸盆雷公菌投放市场卖就4元一斤市民争相购买

· LOL 分享十张英雄联盟皮肤高清电脑壁纸,美哭

· 跨境生鲜电商崛起:中国人一年吃掉逾7亿加拿大龙虾

· 洛宁一男子路边捡到一个黑色包 随后他这样做

· 亚当斯回新西兰看球,场边餐桌前跷二郎腿观战

· 如果这个夏天只能用一支唇膏,我会……|大家说

· 索尼:你们自己游戏少卖不好 凭什么让我跨平台

· 盘点咱们80、90后的十大回忆,第一名如果不是真爱,是肯定猜不到的!

· 该省的车牌字母,不按经济、面积、地位等排序,按顺时针!

· 赵构是如何失去生育能力的?这件事和岳飞之死有啥关系?

· 明清奸商下场很惨

· 全球热点|收紧对古巴限制 特朗普重塑拉美政策

· 这家神秘集团有多牛?不仅打造了网红众泰汉腾,又鼓捣出一个新品牌

· 拿10万块钱买个低配车,不如建个顶配的光伏电站

· 加拿大曼尼托巴省PED疫情彰显猪业脆弱性

· 一夜之间宝宝身上起了一堆包,得知结果宝妈很迷惑

· 小伙无聊拿水果刀翻新,制成后价值翻数倍,老妈:你个败家仔!

· 亚马逊用户一夜被客服骗走43万 原因是办理退货

· 不想变咸鱼?天猫618这几款空调不可错过!

· 王者荣耀来袭!月收入30亿全球第一

· 618入手外设好时机 京东大促不容错过

· 美国伊利诺伊大学警局就中国访问学者章莹颖失踪案召开案件报告会

· 鹿晗首回应与热巴关系 男友力爆发:我不会让女生哭!

· 揭秘:这三大机油黑幕,坑骗了无数中国车主

· 《特工皇妃楚乔传》乌先生身份大起底,与洛水盟主关系匪浅

· 一涵说刘秀(1):天下大乱,一介布衣,汉室宗亲,乘势起兵

· 留级3天,顺产小帅哥一枚,无侧切!分享孕期症状及检查单!

· 跨越蔡当局重重障碍 海峡论坛更火热 青年基层经贸成台媒关注焦点

· 还记得《十八岁的天空》里的美术老师魏琳吗?她现在长这样啦!

· 杨幂的下巴真是一言难尽了

· 勇士夺冠之后,纳什在更衣室的这个举动看哭了多少人?

· 场面壮观 江西消防出动冲锋舟赣江水面抗洪演练

· 《亮剑》:在战术部署上,山本完爆了李云龙!笑到了最后的却是李云龙

· 图片报:老门将德罗布尼将与不莱梅续约一年

· 凶狠毒贩持枪拒捕 清原警方临危不惧“连窝端”

· 苹果惊人的AR功能是可以进行超级共享!

· 希腊债务危机:成也高盛 败也高盛

· 10款夏季餐桌非常受欢迎的湘菜

· 融资800万 他引国外鞋包进电商平台 代理5家品牌月销售额千万

· 宗宁:透视6·15二手车日,二手车电商上演卡位战

· C罗喊走人皇马一点也不慌:毁约金10亿,队内有4大替代者

· 我不大建议你们跑马拉松

· 中意食品对话会在意大利举行

· 原来男人眼中,女人怀孕是这样子的

· 专家:“台湾旅行法”一旦成法,将对中美关系构成重大冲击

· 维基解密披露美中情局“樱花”计划:入侵你的 Wi-Fi,200款路由器中招

· 绿衫军希望得到更多首轮签来追求吉米-巴特勒?

· 中国战术天眼——歼侦-8侦察机

· 「大美邢台县」“征战”旅发大会,白岸乡这些努力初见成效啦~

· 顾客拿滚烫面食泼向服务员——网友:让我看到打他都是轻的

· 孩子“偷拿”别人东西了怎么办?

· 72岁老人为防止老年痴呆,拿起放下多年的毛笔,找寻自己的精神寄托

· 圆梦 阿尔法·罗密欧Giulia长测(1)

· 暖闻|飞身扑向盗窃嫌犯的反扒老民警:干了18年曾拒绝转岗

· 成龙被问34岁房祖名为何还未成家,他的回答真容易让人想歪

· 因对城市感到恐慌,澳大利亚女子独自一人到丛林茅草屋生活一年

· 这些事只有医生才知道!你知道几件?

· 张译殷桃白玉兰获奖 郑恺回应退出跑男

· 《时间管理》作者:如何击退拖延症

· 1977年「星球大战:新希望」的幕后创作日历

· 做出了安卓系统的谷歌,却在安卓手机上栽了跟头

· 直击非洲一国,曾经富有变穷后,总统对中国男人提出两个问题

· 我国四大直辖市之一华北第二大城市,海拔却最低!

· 从平邑天宇自然博物馆看世界奇观

· C罗若离皇马必去曼联,穆帅不会成绊脚石,零可能性去中超!

· 外媒称致命大火凸显伦敦贫富分化:遇难者或过百

· 小伙想在西安开小吃店 长乐坊食药监所所长上门送证

· 科目三之解决考试中熄火的方法

· 夏天就是该美女们露露背的季节

· 网红失灵,雅诗兰黛宣布停产金小妹代言的彩妆系列

· 郑成功第11世孙谈明鲁王之死:要惦记自己是中国之族

· 回家探亲就和鬼子扫荡似的 见到无公害的就想摘下来

· 从先天失聪到赴美深造,华东理工女生毕业典礼收获最长掌声

· 朱婷入院急救后恢复良好,出院后是否继续休战还待定

· 雪藏132年,高迪处女作“文森之家”宣布解禁

· 新航重组旗下廉航 虎航酷航合并在即

· 一天带你了解一个人——国美创始人黄光裕

· 俄罗斯新型导弹碾压全球,可飞越南极袭击美国!

· 1976年9月10日《人民日报》毛主席逝世专号整版刊发毛主席大幅标准照

· 法甲-费尔南多·马卡尔加盟里昂出席发布会

· 曼城给瓜帅3亿买人,拒绝6000万收购范迪克

· 宁浩徐峥第五次合作,联手扶植新导演

· 丰台法院联合检司机关破解服刑人员附带民偿执行难

· 人物|78岁不退休,文职一级高工为何铆在山沟61年?

· 老两口为儿娶媳妇拾荒攒钱,一个香瓜让来让去

· 江铃居首 5月轻型客车销量前十企业6增4降

· 还不快上车? 618年中大促这些电动车性价比爆棚

· 欲避空头“冷枪” 先看清公司基本面“罗网”

· 位列“突击步枪之首” 反派最钟情 美国大兵最惧怕

· 为什么打游戏能成“瘾”:看了这篇文章,您可能再也不想打游戏了,您的青春还有更重要的事情去做

· 控糖食物“红黑榜”,吃错一种,血糖就会不稳定

· 泰国总理计划访美,特朗普能否拉拢亚洲最早的盟友回心转意?

· 紧急寻人:上海六旬老人离家走失,高1米7,戴眼镜,曾在江山出现过

· 颜值美到窒息,标致5008叫板“神车”丰田汉兰达

· 2017武汉国际游戏展(Game Show 2017)将于10月1号开幕

· 细数全球电梯之最:最短的电梯被吐槽最没用,自行车也有专属电梯

· 下雪天,你别说,我就愿意和鸟叔一起跳江南style,有乐趣

· 《极品经典》万佛朝宗 绝品良胚 大师之作一刀一刻精雕细琢拥有自己的独特气韵乃是家居风水摆设收藏精品

精彩图片