中文大模型让AI更“接地气” 世界热头条
2023-05-23 10:08:45 来源: 科技日报
◎本报记者 陈 曦
(资料图片)
目前成熟的生成式AI模型大多基于英文数据进行训练,在国内各行各业的应用环境中,中文大模型显然更“接地气”。通过中文或英文数据训练出来的大模型,差异比较大,中文的上下文理解和语义的多解性要大于英文。大模型首先要理解人类意图,因此对于国内用户来说,用中文去训练的大模型比较适用。
“请讯飞星火认知大模型模仿梁晓声先生笔下的小说《人世间》的风格,续写一小段文章。”5月20日,在第七届世界智能大会闭幕式上,主持人蒋昌建向讯飞星火认知大模型发问。短短几秒钟,续写文字便“跃然纸上”。原作者梁晓声认为,续写内容简练、文字有一定温度,从传达的情感和思想来看几乎“无可挑剔”。
在本次世界智能大会上,生成式人工智能毫无疑问成为大家关注的焦点。近期,国内各大厂商纷纷加快开展生成式AI核心技术的研发,无论是讯飞星火认知大模型展现出的雄厚“中文功底”,还是国家超级计算天津中心发布的基于国产天河超级算力、智能算力和汇集构建中文大数据集研发训练的天河天元大模型,都让大众对我国自主研发的中文生成式AI大模型充满期待。
开发适合国人的中文大模型
“AI大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代。”国家超级计算天津中心数据智能部部长康波介绍,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助“预训练+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。
AI大模型能够理解人类的自然语言表达,并通过庞大的网络结构实现具有针对性的内容输出。
从效果上看,生成式AI表现为“无所不知、无所不能”,其具备了逻辑推理、上下文理解、文字创作、知识提取、代码生成等非常多元化的强大能力。
不过,目前成熟的生成式AI大模型大多基于英文数据进行训练。“通过中文或英文数据训练出来的大模型,差异还是比较大的,中文的上下文理解和语义的多解性要大于英文。大模型首先要理解人类意图,因此对于国内用户来说,用中文去训练的大模型比较适用。”康波说。
此外,生成式AI正一步步向生产工具方向发展,为产业深度赋能,或将成为人工智能与实体经济深度融合的重要力量。那么作为数据驱动的AI大模型,其训练数据来源的可靠性和安全性,便成为推动科技创新的关键。因此,自主研发中文大模型成为越来越多科技巨头的首要选择。
三月以来,国内大模型领域已进入“混战”模式,各路玩家纷纷入局,其中有不少都“相中”了研发中文大模型。
“抢抓通用人工智能的发展机遇有几个基本要素。”科大讯飞董事长刘庆峰认为,第一,必须要在自主可控的平台上;第二,必须要同时做中文和英文,不只学习中国的“智慧”,还要向世界学习;第三,在“硬碰硬”的科技对比上,不仅要学习,还要想办法赶超。
例如,阿里推出了首个中文AI模型社区,社区首批上架超300个模型,其中中文模型超过100个,覆盖了视觉、语音、自然语言处理、多模态等AI主要领域,覆盖主流任务超过60个,且均全面开源并开放使用。360公司推出的“360智脑”背后的360GPT大模型,在海量的中文文本数据上进行了预训练和微调,从而具备了强大的语言理解和生成能力。据悉,该模型目前已经达到了100亿参数规模,并且还在不断扩展中。
中文大语言模型数据集稀缺
生成式人工智能是人工智能发展到一定阶段的产物。就像ImageNet数据集推动了残差网络等计算机视觉算法的成熟,openslr等开源数据集的发布催生了长短期记忆神经网络等自然语言神经网络的发展,图形处理器的大量使用使得模型参数从百万级发展到千亿级(ChatGPT使用了上万块A100显卡开展训练)。可以看出,生成式人工智能的快速成长,离不开算力和数据的支撑。
“大模型是大数据、大算力驱动的结果,两者缺一不可。”超级计算天津中心首席科学家孟祥飞博士强调。
一方面,中文大模型的理解能力来自于数据,它需要用海量数据来学习,通过自注意力和多头注意力机制来建立知识之间的联系。这就意味着,更多、更高质量的数据供给,将会带来模型网络中知识之间关系的完善性和贯通性。当用户提问到深层次或者冷门问题时,数据质量越高,AI大模型回答出正确答案的概率就越大。
“但目前中文大语言模型的数据集非常稀缺。”孟祥飞介绍,为了解决这个问题,天津超算中心搜集整理了全域的网页数据,并从中提取处理高质量的中文数据做成数据集,同时采集纳入各种开源训练数据、中文小说数据、古文数据、百科数据、新闻数据以及专业领域的诸如医学、法律等多种数据集,训练数据集总token数达到3500亿,训练打造了中文语言大模型——天河天元大模型。
另一方面,算力的供应是大模型的基础保障。大模型发端于自然语言处理领域,以谷歌的BERT、Open AI的ChatGPT和百度文心一言等大模型为代表,参数规模逐步提升至千亿、万亿,同时用于训练的数据量级也显著提升,带来了模型能力的提高,这也代表着算力需求的指数级上升。
“而超级计算可以说是算力中的战斗机。”孟祥飞说,为了保证大模型的训练顺利,天津超算中心充分利用了天河新一代超级计算机的双精度、单精度、半精度融合计算输出能力,构建基于自主E级算力体系架构的智能计算引擎,建设人工智能大规模训练与应用系统支撑环境,特别是在中文处理方面构建了中文大模型数据处理的工作流技术体系,从而保障了训练任务的顺利开展。
技术成果广泛应用于多领域
在此次世界智能大会上,随着讯飞星火认知大模型一起展示的还有多款搭载了大模型的行业应用成果。
康波认为,人工智能是驱动新一轮科技革命和产业变革的巨大力量,应将大模型作为产业智能化升级的基座,用专业数据集打造更贴合行业领域的智能化高水平“专家”。
以讯飞星火认知大模型为例,该大模型的整体布局为“1+N”体系。其中“1”是指通用认知智能大模型,“N”就是大模型在教育、办公、汽车、人机交互等各个领域的应用。例如在教育领域,作为全球首款搭载认知大模型的学习机,科大讯飞推出的学习机可像真人教师一样与3岁至18岁的学生进行互动式辅学;在办公领域,基于大模型能力升级的产品具备语篇规整、会议纪要、一键成稿等功能。
康波认为,在各行各业的应用中,中文大模型显然更“接地气”。他举例说,天津超算中心综合实现了文本、语音、视频等多模态的大模型生成能力,从而形成了“一平台三能力”的基础架构,实现了更广泛的产业融合能力。基于其自然语言的理解和表达能力,与医疗结合,学习医学指南等专业规范,可以迅速地掌握对应的专业知识。其中,中文大模型可以解决“同词不同义”在医疗上的歧义性,实现精准的输出,为医疗辅助诊断提供更为全面的支撑能力。
同样,在工业检测和流程控制方面,大模型基于多元化输出能力,可以进行规范辅导、缺陷检测、流程指令生成一系列操作,降低错误率,提升生产效率。其中,中文大模型可以更好地理解复杂的专业术语以及流程指令逻辑,让输出更准确、严谨。
“在大模型通用性、泛化性以及降低人工智能应用门槛的优势推动下,人工智能也将会加快落地,形成新的机遇。”康波表示。
标签:
为您推荐
精彩放送
热门文章
-
百瑞信托2022年年报: 营收净利双失利
-
天下车智|广汽三菱:一代传奇将谢幕 动态
-
天天即时:出人意料,今年以来债券基金脱颖而出
-
十四五“中国新一代奶粉研制”项目启动 飞鹤牵头承担
-
2022年上市民营医院业绩分化,今年能否触底反弹? 热点聚焦
-
宝骏再换标,押宝新能源,能否重现辉煌? 环球关注
-
【环球新要闻】个人系公募壮大难题:惠升基金权益拖后腿如何破?
-
【天天新视野】为“天马杯”优胜选手定制OFFER 马上消费毕业季抢招高科技人才
-
笑果文化在京演出无限期暂停,曾估值超40亿
-
世界动态:42家银行股一季报出炉,整体业绩情况几何?|财报看点
-
环球热消息:一季度业绩回暖,北京人寿期盼盈利继续
-
交银施罗德打响五千亿规模“保卫战” 实时焦点
精彩图片
热文
-
【世界热闻】易方达标普全球高端消费品指数增强型证券投资基金2023年5月26日至2023年5月29日暂停申购、赎回及定期定额投资业务的公告
-
全球观速讯丨上银聚鸿益三个月定期开放债券型发起式证券投资基金分红公告
-
中银丰禧定期开放债券型发起式证券投资基金开放申购、赎回业务公告-全球速看
-
全球快资讯丨鹏华兴惠定期开放灵活配置混合型证券投资基金开放申购、赎回和转换业务的公告
-
易方达标普全球高端消费品指数增强型证券投资基金2023年5月26日至2023年5月29日暂停申购、赎回及定期定额投资业务的公告
-
天天百事通!科沃斯05月22日被沪股通减持44.24万股
-
里海之谜是哪个国家的产品_里海之谜是哪个国家的 环球消息
-
晋控煤业(601001)5月22日主力资金净卖出348.31万元
-
世界实时:2023年05月23日全国玉米价格行情走势汇总
-
2023年05月23日全国豆粕价格行情走势汇总
-
2023年05月23日全国土杂猪生猪价格行情涨跌表 世界消息
-
2023年05月23日全国内三元生猪价格行情涨跌表
-
2023年05月23日全国外三元生猪价格行情涨跌表
-
比尔盖茨被曝婚内出轨俄年轻女牌手,还因婚外情遭爱泼斯坦要挟?-全球热讯
-
法国开始拆除马约特岛最大贫民窟,共135个铁皮棚户将被拆
-
【世界时快讯】印度星巴克宣传跨性别广告引争议,印网友批评“滚出印度!”
-
俄罗斯警告称乌“破坏侦察小组”侵入俄境内
-
全球头条:外媒:TikTok向美联邦法院提起诉讼 ,要求阻止蒙大拿州实施禁令
-
最新:景顺长城景泰鑫利纯债债券型证券投资基金分红公告
-
天天微动态丨关于景顺长城景泰鑫利纯债债券型证券投资基金暂停接受壹佰万元以上申购及转换转入业务的公告
-
长城久稳债券型证券投资基金收益分配公告
-
关于南方恒生交易型开放式指数证券投资基金联接基金2023年5月26日暂停申购、赎回和定投业务的公告|世界动态
-
泰信行业精选灵活配置混合型证券投资基金分红公告_世界焦点
-
世界速看:行政事业单位应当将内部控制报告_行政事业单位编制内部控制报告应当遵循的原则不包括
-
今日快看!出汗多吃什么食物好(手部出汗多,吃什么食物比较好?)
-
日媒:老人食堂,与同龄人围坐一起用餐
-
不满足英超三连冠,瓜帅瞄准欧冠:如果没赢欧冠就不完整
-
官宣!梅西领衔阿根廷队6月来中国,将迎战澳大利亚队
-
【天天热闻】美媒:80岁哈里森·福特仍在演《夺宝奇兵》,好莱坞缺强有力年轻明星
-
遭遇“50年来最激烈食品成本危机”,欧洲多国限制生活必需品价格|天天短讯
-
微软推出全球范围的Phone Link应用,让Win10和Win11用户收发iMessage信息
-
关于国泰恒生港股通指数证券投资基金(LOF)暂停申购、赎回、定期定额投资及转托管业务的公告
-
平安基金管理有限公司关于旗下基金新增万联证券股份有限公司为申购赎回代办机构的公告 环球今日报
-
关于南方原油证券投资基金2023年5月29日暂停申购、赎回和定投业务的公告-世界时快讯
-
全球快资讯:银河中证沪港深高股息指数型证券投资基金(LOF)非港股通交易日暂停申购、赎回、转换和定期定额投资业务的公告
-
华宝基金关于华宝大健康混合型证券投资基金A类新增代销机构的公告 环球聚看点
-
当前时讯:美财长重申:美国若6月1日前出现债务违约 财政部将无法支付政府账单
-
【当前热闻】国寿安保基金:全年经济复苏能见度将逐季提升
-
世界卫生大会批准世卫组织今后两年预算 世界播资讯
-
扎哈罗娃谈美债务上限危机:美国一切全靠印钞机和军事基地|环球滚动
-
自是指物作诗立就的就是什么意思_自是指物作诗立就
-
电讯盈科(00008.HK):5月22日南向资金增持30.3万股
-
今日热闻!一个忧心忡忡的穷人_忧心忡忡的穷人甚至对美丽的景色都无动于衷出自
-
堂客跟着堂客走_堂客 微动态
-
重庆招商银行-重庆招商银行在哪些地方
-
关注:菌烨tako知乎_如何评价B站二次元coser主播菌烨tako
-
系统教程篇:使用无线键鼠无法重装系统的解析
-
焦点讯息:爱q网可信吗_爱q网
-
快讯!克宫称普京已听取“乌破坏组织侵入俄领土”的报告 天天讯息
-
快讯!俄称“乌破坏组织侵入俄领土”,乌方表态:与我无关_世界报道