ImageBind:跨六种模式的整体人工智能学习
2023-05-10 19:13:54 来源: 93913虚拟现实
今天,我们推出了一种方法,使机器更接近人类同时、整体和直接从许多不同形式的信息中学习的能力——不需要明确的监督(组织和标记原始数据的过程)。我们已经构建并正在开源ImageBind,这是第一个能够绑定来自六种模式信息的人工智能模型。该模型学习单一嵌入或共享表示空间,不仅适用于文本、图像/视频和音频,还适用于记录深度 (3D)、热(红外辐射)和惯性测量单元 (IMU) 的传感器,这些传感器计算运动和位置。ImageBind使机器具备全面的理解力,将照片中的对象与它们的声音、3D 形状、冷暖感知以及移动方式联系起来。
(相关资料图)
如论文所述,ImageBind 可以胜过先前针对特定模态单独训练的专家模型。最重要的是,它有助于推进人工智能,使机器能够更好分析多种不同形式的信息。例如,基于ImageBind,Meta Make-A-Scene可以从音频创建图像,例如根据雨林或熙熙攘攘市场的声音创建图像。其他未来的可能性包括以更准确的方式识别、连接和调节内容,以及促进创意设计,例如更无缝生成更丰富的媒体和创建更广泛的多模式搜索功能。
ImageBind是Meta致力于创建多模态AI系统的一部分,该系统可以从周围所有可能类型的数据中学习。随着模态数量的增加,ImageBind为研究人员打开了尝试开发新整体系统的闸门,例如结合3D和IMU传感器来设计或体验身临其境的虚拟世界。ImageBind还可以提供一种探索记忆的丰富方式——使用文本、音频和图像的组合来搜索图片、视频、音频文件或文本消息。
在典型的人工智能系统中,每个模态都有特定的嵌入(即可以表示数据及其在机器学习中关系的数字向量)。ImageBind可以跨多种模态创建联合嵌入空间,而无需使用每种不同模态组合对数据进行训练。这一点很重要,因为研究人员无法创建包含来自城市街道的音频数据、热数据、深度数据、海边悬崖文本描述等样本的数据集。
正如近来基于文本生成图像、视频和音频方面取得了令人兴奋的进展(例如Make-A-Scene和Meta Make-A-Video),ImageBind的多模式功能可以让研究人员使用其他模式作为输入查询和检索以其他格式输出。ImageBind也是朝着构建能够像人类一样全面分析不同类型数据的机器迈出的重要一步。
ImageBind是一个多模态模型,加入了Meta一系列开源AI工具。这包括像DINOv2这样的计算机视觉模型,一种不需要微调训练高性能计算机视觉模型的新方法,以及Segment Anything (SAM),一种通用分割模型,可以根据用户提示分割图像中的任何对象。而ImageBind 补充了这些模型,因为它专注于多模态表示学习。它尝试为多种模态学习单一对齐的特征空间,包括但不限于图像和视频。未来,ImageBind可以基于DINOv2强大的视觉功能进一步提高其能力。
通过将内容与图像绑定来学习单个嵌入空间
人类有能力仅从几个例子中学习新概念。我们通常可以通过阅读对某种动物的描述,然后在现实生活中认出。我们还可以查看一张不熟悉的汽车模型照片,并预测其发动机的声音。这在一定程度上是因为一张图片实际上可以将整个感官体验“绑定”在一起。然而,在人工智能领域,随着模态数量的增加,多感官数据的缺乏会限制依赖配对数据的标准多模态学习。理想情况下,一个单一的联合嵌入空间——其中分布着许多不同类型的数据——可以让模型学习视觉特征以及其他模式。
以往,学习所有模式的联合嵌入空间需要收集成对数据的所有可能组合,这是一项不可行的壮举。
ImageBind基于大规模视觉语言模型,并通过往语言模型与图像的自然配对(如视频音频和图像深度数据)来学习单个联合嵌入空间,将zero-shot功能扩展到新的模式,从而规避了这一挑战。对于另外四种模式(音频、深度、热量和IMU读数),我们使用自然配对的自监督数据。
由于互联网上大量的图像和同时出现的文本,训练图像文本模型已被广泛研究。例如使用 Web数据将文本链接到图像,或者使用从可穿戴相机捕获的视频数据将运动链接到视频IMU 传感器。
从大规模网络数据中学习的视觉表征可以用作学习不同模式特征的目标。这支持ImageBind 对齐与图像同时出现的任何模态,自然对齐这些模态。与图像有很强相关性的模态,例如热和深度,更容易对齐。非视觉的模式,如音频和IMU,相关性较弱。
ImageBind表明,图像配对数据足以将这六种模式绑定在一起。该模型可以更全面解释内容,支持不同的模式相互“交谈”并找到链接。这使其他模型无需任何资源密集型培训即可“理解”新模式。ImageBind强大缩放行为支持模型替代或增强许多AI模型,使它们能够使用其他模式。例如,虽然Make-A-Scene可以使用文本提示生成图像,但ImageBind可以将其升级为通过音频生成图像。
图像对齐、自监督学习表明,模型的性能实际上可以通过使用很少的训练示例来提高。模型具有新的紧急能力,或扩展行为——也就是说,在较小的模型中不存在但出现在较大的版本中的能力。这可能包括识别哪些音频适合特定图像或预测照片场景的深度。
我们的分析表明,ImageBind的缩放行为随着图像编码器的强度而提高。换句话说,ImageBind 对齐模态的能力随着视觉模型的强度和大小而增加。这表明更大的视觉模型有利于非视觉任务,例如音频分类,并且训练此类模型的好处超出了计算机视觉任务。
在我们的实验中,我们使用了ImageBind的音频和深度编码器,并将它们与zero-shot检索以及音频和深度分类任务中的先前工作进行了比较。
基于基准测试,ImageBind在音频和深度方面优于专业模型。我们发现ImageBind特征可用于少镜头音频和深度分类任务,并且可以胜过为这些模式量身定制的先前方法。例如,ImageBind明显优于Meta在Audioset上训练的自监督AudioMAE模型和在音频分类上微调的监督AudioMAE模型,在≤四次分类上的top-1准确度提高了大约40%。
ImageBind还在跨模态的紧急zero-shot识别任务上实现了新的最先进的性能,甚至优于经过训练以识别该模态概念的最新模型。
多模式学习的未来
通过使用多种模式进行输入查询和跨其他模式检索输出,ImageBind为创建者展示了新的可能性。想象一下,有人可以拍摄一段海洋日落的视频,并立即添加完美的音频剪辑来增强它,而斑纹西施犬的图像可以产生类似狗的论文或深度模型。
人们甚至可以根据音频分割和识别图像中的对象。这创造了独特的机会,可以通过将静态图像与音频提示相结合来从静态图像中创建动画。例如,创作者可以将图像与闹钟和公鸡打鸣结合起来,并使用打鸣的音频提示来分割公鸡或使用闹钟的声音来分割时钟并将两者制作成视频序列。
虽然我们在当前的研究中探索了六种模式,但我们相信,引入连接尽可能多的感官(如触觉、语音、嗅觉和大脑fMRI信号)的新模式将使以人为中心的人工智能模型更加丰富。
关于多模态学习,还有很多东西有待发现。AI研究界还没有有效量化只出现在更大模型中的缩放行为,并理解它们的应用。ImageBind正朝着以严格的方式评估展示图像生成和检索新颖应用迈出新的一步。
来源:AI.Facebook
「93913原创内容,转载请注明出处」
标签:
为您推荐
精彩放送
热门文章
-
科技成长猎手王浩掌舵 银华清洁能源产业混合5月11日起发行 世界视讯
-
中国银行间市场交易商协会对郑州银行通报批评 责令其整改
-
车企年报:上汽不及比亚迪赚钱,“抱华为大腿”却继续亏 环球信息
-
迎驾贡酒突破50亿背后的“隐忧”-视讯
-
当前焦点!透过众邦银行2022年年报,下行之势止住了吗?
-
【新视野】红花绽放,见证美好:国民酱酒红花郎,成为五一期间喜宴首选
-
中邮保险2023年一季度保费收入同比提升37.30%,业务品质持续提升 全球焦点
-
扫地机器人市场遭遇发展瓶颈,科沃斯和石头科技开始内卷起来
-
2023,核电新周期|行业发现
-
从挑战者到引领者,迈瑞医疗智能化新征程_最资讯
-
全球快讯:从ESG视角,看微众银行的可持续发展
-
董明珠1150万股股份遭冻结,冻结股份市值约4亿元
精彩图片
-
【天天新视野】2023五一假期AI旅游拍摄报告→
-
首台8K超高清监视器亮相世界超高清视频产业发展大会|环球观点
-
第九届全国青年科普创新实验暨作品大赛第二期交流活动举办 环球关注
-
世界最新:为种子“体检”
-
教育数字化点亮西部课堂
-
天天即时:新技术把核桃油变“植物黄油”
-
全球快播:天舟六号任务完成发射前全区合练 各系统做好发射前准备工作
-
世界报道:服装、食品、饮用水......新一波“太空快递”即将发货
-
2023世界超高清视频产业发展大会在穗举办-天天快消息
-
日本研究发现健康膳食中蛋白质的理想比例 当前速讯
-
国家野生稻种质资源圃主体建成-世界播报
-
创新驱动 成都构筑生物医药产业发展新高地-天天最新
热文
-
摩托车股票有哪些?摩托车交强险赔偿范围是什么?
-
腾辉机械——专业生产制罐制桶一体化自动线
-
手机安装微信提示解析包错误 手机安装微信时出现解析包错误_每日快看
-
长效or短效?肿瘤患者该如何选择升白针
-
价格狂飙,创历史新高!在武汉有人一口气花了10万买它...... 世界新消息
-
世界即时:手游用上PC游戏优化“神技”!天玑9200+加入VRS技术支持
-
大宗交易:永顺生物成交232.5万元,折价3.00%(05-10)
-
05月10日猪评:节后猪价已定?行情窄幅调整,持续承压!
-
世界百事通!印度古吉拉特邦发生交通事故 已致5人死亡
-
焦点快播:外交部:敦促美方停止借世卫大会炒作台湾问题
-
天天热点评!中国驻缅甸大使馆提醒中国公民做好超强热带气旋“抹茶”防范准备
-
环球快看点丨美称中方采集部分少数民族人群DNA等生物数据,外交部驳斥
-
拜登与麦卡锡再度就债务上限谈判:仍无实质进展
-
呼和浩特市大型商超进社区惠民促销活动启幕
-
辽宁一季度“最缺工”46个职业公布!保洁员居首
-
加速物联网“智能化”进程!英飞凌新款连接传感器套件有何秘诀让工程师快速上手?-世界消息
-
每日快看:李云泽任国家金融监督管理总局党委书记
-
环球观速讯丨以红毛丹之名 擦亮保亭新名片
-
NBA半决赛4队取赛点,1个共同特点预示,“小球时代”落幕?
-
直播翻车惊喜不断,开黄腔、辣椒油齐上阵
-
社保个人账户余额少了?深圳发布情况说明 世界微资讯
-
非遗金牌手艺人——蒋右军
-
加拿大矿业巨头Lassonde:仍有兴趣收购泰克资源(TECK.US)煤炭资产 当前报道
-
美媒:移民儿童在美被虐待事件时有发生 这是不可接受的
-
天天看点:迫在眉睫!美智库:美国或最早6月出现债务违约
-
美民调:金钱危机成美国人最大忧患 高通胀损害心理健康-世界报资讯
-
日本政府负债总额超1270万亿日元创新高-世界今日报
-
日本原子能规制委员会:运转超60年的核电站需每十年进行一次大检 世界观天下
-
环球快报:上海“大零号湾”,何以打造世界级科创湾区?
-
截至4月底河北2023年农业项目招商引资764.5亿元
-
【焦点热闻】山西印发冬小麦后期田间管理意见
-
环球速讯:光谷10个项目获“中国专利奖”
-
五一黄金周畅销榜TOP10占3席,海信电视U7成2023闭眼买爆款王
-
余额宝收益计算公式是什么?余额宝是复利计息吗?
-
双年展已从艺术圈来到日常生活 当前视讯
-
证券开户要钱吗?证券可以开几个户?
-
平安普惠北京分公司:聚焦小微融资服务 支持经济全面复苏
-
全球微速讯:甘肃省法院联合省检察院出台协作办法 助力涉案企业健康发展
-
甘肃省生态环境厅印发三年减排计划 全力做好重大项目环境要素保障
-
半年线是多少日线?半年线和年线怎么看?
-
首台8K超高清监视器亮相世界超高清视频产业发展大会|环球观点
-
守卫者2号是哪家保险公司的?保险金额是什么意思啊?
-
寿险包括什么?定期寿险是什么意思啊?
-
世界快报:NBA季后赛西部半决赛继续进行
-
离岸人民币和在岸人民币的区别是什么?离岸账户怎么开通?
-
货币基金和指数基金的区别是什么?为什么新手不建议买指数基金?
-
如何选择股票有什么技巧?龙头股怎么选出来的?
-
主播直播开黄腔?让我们一起欢笑解围!
-
【环球新要闻】华为蓝牙音箱驱动下载_华为蓝牙音箱怎么连接电脑
-
环球快报:把牛奶放冰箱保鲜能放多久 把牛奶放冰箱保鲜能放多长时间呢