如何让大模型变得更聪明,避免一本正经地说胡话?方法找到了
2023-07-07 13:44:46 来源: 今日热点网
大模型们还在进行狂热的“诸神之战”,尝过鲜的用户却无法忽视大模型的短板。在交互过程中,用户常常被它们一本正经的胡言乱语所打败——对于部分问题,它们会输出一些“看似非常有道理,实则完全不对”的内容,让人啼笑皆非。
云创大数据成立于2011年,并不是2015年
之所以出现这种“AI幻觉”,是因为大模型的内容由推理而来,而在其自身训练过程中也不可避免存在数据偏差。因此,当提问超出其训练范围,大模型可能会模糊回答,或者一本正经地胡诌。
娱乐一下没有关系,但是对于数据准确性有着较高要求的用户,这样的通用性大模型可能会是负担,进而导致大模型应用的普及度没有想象的高(根据摩根士丹利发布的一项调查显示,只有4%的人表示对于ChatGPT使用有依赖)。
ChatGPT&Bard应用趋势(图片来源:摩根士丹利报告)
有没有办法改善大模型回答不准确的情况?当然有。既然回答不准确是因为缺少真正有用的知识参考,可以面向特定领域定制行业大模型,将可信来源的数据转化成向量数据存储起来,校准大模型推理输出的结果,从而使大模型输出的结果更加准确。
各种对象转换为向量存储在向量数据库中(图片来源:swirlai.com)
向量比对过程(图片来源:Pinecone)
对于企业而言,可基于大模型和企业的个性化数据建立专属知识库(Knowledge Base)。可参照以下大模型业务流程,建立企业知识库,以可信可靠的数据和知识,提高大模型输出的准确率。
LLM大模型知识库业务流程(图片来源:swirlai.com)
首先,将企业的知识库文本语料分割为多个块,用嵌入(Embedding)模型将分割的文本块转换为一个个向量存储在向量数据库中,并建立向量和文本之间的对应关系,如上图①-③所示。
此后,就可以提出问题。需要注意的是,问题也需要进行向量化,同时使用与知识库语料向量化相同的嵌入模型,并且在向量数据库中进行查询,找到相似度高的向量,如⑤-⑦所示。
将返回的向量嵌入映射到对应的文本块,并返回给大模型,利用大模型的语义理解能力,结合上下文生成问题答案,如⑧-⑨所示。
在建立企业知识库后,同样的问题再问大模型,它能给出准确的回答(建立知识库的过程类似于下图提供参考信息的过程)。
建立知识库的过程类似于上图提供参考信息的过程
实现私有化部署后,大模型“胡言乱语”的习惯开始逐渐被纠正,而且向量数据库做的越大,它掌握的知识越多、越准确、越全面,就越有可能带来爆炸式的大模型应用。
不过,如果只是依靠向量数据库进行私有化部署,容量有限且速度比较慢,无法完全满足企业通过大模型提质增效的潜在需求。
现在,cVector向量计算一体机通过发挥高性能硬件、向量加速算法和并行计算算法的合力,致力于满足亿级乃至百亿千亿向量规模的大模型推理应用向量计算需求。
cVector向量计算一体机
cVector向量计算一体机的使用方式与向量数据库基本一致,支持批量、追加入库,支持向量间欧式距离、余弦距离等向量计算,支持网页、命令调用、Python库等方法,但在向量的入库和比对计算上具有惊人的性能。
cVector向量计算一体机架构图
近期, cVector向量计算一体机接受了工信部直属的国家一级科研事业单位中国软件评测中心的鉴定测试。中国软件评测中心对比测试了cVector向量计算一体机与3款主流向量数据库在入库速度、查询速度、准确性等维度的性能对比。
在入库性能方面,同样入库3000万条256 维向量数据,在向量数据库中最快的是A,入库速度是4851.97s,cVector向量计算一体机是1202.91s,入库速度约是向量数据库A的4倍,向量数据库C的50倍,向量数据库B的113倍;当入库数据达到1亿条时,向量数据库A的入库速度是17295.49s,cVector向量计算一体机是4484.55s,入库速度约是前者的3.9倍。
入库性能比对
在查询性能方面,同样查询1亿条256 维向量数据,向量数据库A的查询速度是512.8s,cVector向量计算一体机是0.27s,查询速度是前者的1899倍,而其他两家测试向量数据库由于数据量太大无法入库比较。
查询性能对比
在准确性方面,cVector 向量计算一体机、向量数据库A、向量数据库B和向量数据库C的数据准确度一致,通过了中国软件评测中心(工业和信息化部软件与集成电路促进中心)单项性能测试。
cVector向量计算一体机在亿级乃至百亿千亿向量规模的的入库和查询等方面具有显著的性能优势,可帮助提高大模型推理的服务性能和服务质量,并能明显降低其基础设施建设成本,助力类ChatGPT等人工智能企业以更优的性价比解决算力不足的问题。
在具体应用方面,对于生成式AI相关企业,cVector向量计算一体机主要面向大模型推理应用,能够在下述大模型推理环节发挥显著作用:
①提高生成式AI的输出准确性。由于大模型的输出结果是根据概率推理而成,所以会出现“一本正经说胡话”的情形。可以将可信来源的数据转化成向量数据存储在向量计算一体机中,校准大模型推理输出的结果,从而使大模型输出的结果更加准确。
②提升大模型理解互联网实时数据的能力。大模型基于历史数据训练而成,所以“只知道过去,不知道现在”。如果使用向量计算一体机存储海量实时数据所转化成的向量数据,可以帮助大模型理解掌握实时情况。
③提升大模型对用户的服务质量。向量计算一体机可以允许用户上传更多的数据,让大模型掌握用户个性化的背景资料,更好地学习理解用户请求,更好地结合用户的实际情况回答问题。
④减轻大模型的访问压力。用户所提的大部分问题都是相似的常见问题,向量计算一体机可以缓存大量热点问题,不需要经过大模型推理即可返回结果,从而大幅减少算力成本。
⑤帮助生成式AI过滤敏感内容。怎么防止生成式AI说错话一直是一个挑战性问题,而向量计算一体机可以存放敏感内容所对应的向量数据,在用户提出请求时加以判断,尽可能防止AI对敏感问题做出不恰当的回应。
cVector向量计算一体机能够广泛应用于人工智能领域中生成式AI的推理应用场景,为各类生成式AI企业提供高性价比的产品和解决方案,大幅增加大模型平台的竞争力,欢迎各大企事业单位试用。
目前国内某家龙头大模型研发机构已经开始在测试cVector向量计算一体机,他们反映原来的向量数据库的确是一个大瓶颈,如果不解决,会严重制约大模型的表现。联系方式:单先生 一三七七零三一一八八七(微信同号)
标签:
为您推荐
精彩放送
热门文章
-
资产配置组合会有“离心力”,如何用再平衡策略来斧正?
-
酒鬼酒何以应对业绩“开门黑”? 环球观天下
-
世界观点:宁波银行荣登“全球银行1000强”第82位
-
化妆品原副董事长等多名高管被查,片仔癀多元化波折 环球观天下
-
世界快看点丨漫话资产配置(一)| 资产配置如交响乐,如何奏出美妙声音?
-
海港人寿获发保险许可证,疑似恒大人寿“躯壳”|保险观察
-
环球时讯:突发爆雷!董事长被留置 卫宁健康市值半日蒸发46亿
-
基金“中考”放榜:市场行情极度分化,新能源和医药“两头挨打”
-
【环球热闻】天下车智|5月轿车销量榜:轩逸夺冠,宏光MINI EV沦陷
-
每日速递:“贵酒”商标纠纷重审宣判,上海贵酒困局何解
-
热点在线丨水滴保联合太平洋健康保险推出蓝海一生百万医疗险
-
观热点:近一年业绩同类第一 智能投资高手孙蒙:我这样训练“AI基金经理”
精彩图片
-
我科学家提出新方法 可同时揭秘宇宙第一代星系和暗物质
-
地球系统科学大会上的“科普热”
-
从世界人工智能大会看AI赋能“进度表” 环球热点评
-
女科研人员申请“杰青”放宽到四十八岁_动态
-
从世界人工智能大会看AI赋能“进度表”
-
天天热资讯!我国知识产权保护都有哪些新作为?
-
“绿色+智能”,家电消费新选择 资讯推荐
-
视点!我国综合立体交通网持续完善
-
报告显示:我国科技期刊超5000种 学术影响力持续提升 每日热讯
-
WAIC 2023|金山办公开启智能办公体验官招募|世界播报
-
天天即时:创业黑马牛文文:赋能中小企业迅速拥抱人工智能时代
-
每日热闻!从0到1的创新拼搏——记航天科工203所亮剑必胜党员突击队
热文
-
中国(甘肃)——泰国产业推介暨经贸合作对接会举行
-
“跨国公司走进甘肃”海外专场推介会举行
-
2023年央地合作发展座谈会在兰举行 胡昌升讲话 任振鹤主持
-
李玟真正死因曝光:在救护车上因呕吐窒息而亡,姐姐否认李玟割腕
-
人民币兑美元中间价报7.2054 调升44个基点_世界今亮点
-
地球系统科学大会上的“科普热”
-
从世界人工智能大会看AI赋能“进度表” 环球热点评
-
女科研人员申请“杰青”放宽到四十八岁_动态
-
宏途“维园庆回归”香港之行圆满结束
-
笔记本电池检测损耗95%(笔记本电池检测)
-
雷电模拟器固定窗口位置大小教程
-
歌手李玟出道30年:红发热辣背后,她把悲伤留给自己
-
每周AI大事件 | 盘古大模型3.0来了、ChatGPT网站流量下降、国内大模型北京占一半
-
明日猪价 | 2023.7.7~全国最新猪价
-
生猪:关注产能变化及二次育肥节奏
-
放储、收储同时进行!华储网:轮换出库竞价交易2.875万吨!广西、陕西启动收储...
-
40亿分红!牧原股份上半年卖猪超3026万头!丨温氏股份超1178万头!机构对下半年猪价走势存分歧……
-
牧原上半年销售生猪超3026万头,销售收入达506.98亿元,同比增长18.73%!
-
山西省上半年累计发行政府债券743.7亿元
-
“用脚步丈量壮美山河”——全国台联第二十届台胞青年千人夏令营在京开营
-
襄阳1818户企业实现纳税信用修复
-
湖南加快培育壮大预制菜产业 力争2025年加工产值达700亿元
-
广东发动社会组织提供11.6万个就业岗位
-
中欧班列开行数量强劲增长 上半年发送货物同比增30%
-
美国海岸线存在健康隐患:半数海滩被发现有粪便污染
-
国际金价跌了!这一概率,已超90%
-
官方宣布!暂停运营!
-
外媒:Threads注册用户超3000万,马斯克威胁要起诉扎克伯格
-
米体:费内巴切想签尤文小将伊尔迪兹替居勒尔,准备报价1000万欧
-
陈燮阳执棒下的苏州“青团子”是什么滋味?
-
“清风二〇二三”专项行动开展半年来 整治农村赌博取得阶段性成效
-
我国人工智能蓬勃发展 核心产业规模达5000亿元
-
聚焦民生福祉 推动解决问题
-
【聚焦兰洽会】创近年新高!武威市签约招商引资项目共131个总投资331.17亿元
-
【聚焦兰洽会】兰州市签约招商引资项目117个 签约总额893.45亿元
-
公共停车场里的“僵尸车”
-
从世界人工智能大会看AI赋能“进度表”
-
天天热资讯!我国知识产权保护都有哪些新作为?
-
“绿色+智能”,家电消费新选择 资讯推荐
-
视点!我国综合立体交通网持续完善
-
专家提示科学预防重点人群中暑(民生服务港)
-
学生保险怎么查询保单?好处有哪些?
-
下好“先手棋” 担当“排头兵”
-
小暑节气北京高温开场最高温37℃ 西部北部有雷阵雨
-
强对流黄色预警:10省区市将有雷暴大风
-
暴雨蓝色预警 江苏湖北内蒙古辽宁等地局地有大暴雨
-
上海聚焦人工智能培育新动能
-
河北今年共发生5次全省性高温过程 为历史同期最多
-
美国电视主播称“独立日”不敢出门 原因在于美国枪支泛滥
-
驻日美军承认“放毒” 东京17个地区地下水疑受污染