DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
DeepMind这篇论文一出,人类标注者的饭碗也要被砸了吗?大模型的幻觉终于要终结了?今日,社媒平台reddit上的一则帖子引起网友热议。帖子讨论的是谷歌DeepMind昨日提交的一篇论文《Long-formfactualityinlargelanguagemodels》,文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说,大语言模型幻觉不再是问题了。更多技术细节和实验结果请参阅原论文。
微软Azure AI平台增加新安全功能 可捕获客户AI应用中的幻觉
微软的AzureAI平台最近添加了一系列新的安全功能,旨在帮助捕捉客户AI应用中的幻觉、提示攻击和其他安全漏洞。这些功能由微软的首席负责人SarahBird介绍,并表示将易于使用,无需雇佣红队来测试他们构建的AI服务。该公司还努力扩展其提供的强大AI模型数量,最近与法国AI公司Mistral达成独家协议,以在Azure上提供MistralLarge模型。
苹果研究人员提出MAD-Bench基准,克服多模态大语言模型中幻觉和误导性提示
在人工智能领域,多模式大语言模型在推动进步方面发挥了巨大作用,但它们面临处理误导性信息的挑战,可能导致不正确或产生幻觉的响应。这种脆弱性引发了对MLLM在需要准确解释文本和视觉数据的应用中可靠性的担忧。作为一个不断发展的领域,解决这些挑战对于在现实应用中部署MLLMs至关重要。
AI聊天机器人WikiChat:通过检索维基数据终结LLM幻觉 对话准确率比GPT-4高55%
**划重点:**1.🚀WikiChat通过维基百科检索数据,有效阻止大型语言模型的幻觉。2.🌐项目使用ColBERT进行信息检索,并通过七阶段流程确保响应准确。通过WikiChat,我们有望有效应对大型语言模型的幻觉问题,使得这些模型在提供信息时更加可靠和准确。
维基百科+大模型打败幻觉!斯坦福WikiChat性能领先GPT-4
斯坦福大学的研究人员利用维基百科数据训练了一个大模型,命名为WikiChat,通过优化和改进,成功解决了大模型的幻觉问题,并在事实准确性和其他指标上表现优秀。他们的最佳模型在新的基准测试中获得了97.3%的事实准确性,远远超过了GPT-4的66.1%。WikiChat的成功表明,维基百科数据在大模型训练中发挥了重要作用,通过检索增强生成的方法,可以有效解决大模型的幻觉问题�
以搜索增强对抗幻觉,百川智能拿出了实现大模型商业化的最后一块拼图
12月19日,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo。这是9月末Baichuan2-53B第一次向外界打开API之后,百川智能在B端的进一步动作。“在整体规划上,我们做7B和13B的模型就是用来做开源的,但主力的模型还是会往百亿、千亿上走。
继剑桥词典,“幻觉”成Dictionary.com2023年度词汇
Dictionary.com日前宣布,“幻觉”成为2023年度词汇。尽管大多数人可能认为幻觉是人类大脑的一种表现,但Dictionary.com选择这个词汇时实际上是考虑到了人工智能的应用。”他继续说:“‘幻觉’是一个富有表现力的动词,暗示了一个体验与现实脱节的主体。
开源模型「幻觉」更严重,这是三元组粒度的幻觉检测套件
BSChecker:细粒度大模型幻觉检测工具与基准测试排行榜大模型长期以来一直存在一个致命的问题,即生成幻觉。由于数据集的复杂性,难免会包含过时和错误的信息,这使得输出质量面临着极大的挑战。对于BSChecker来说,引入一个关于有益性的评估标准可能很重要。
尴尬!马斯克的Grok因用ChatGPT的数据回答出现幻觉
伊隆·马斯克推出了xAI公司开发的新人工智能聊天机器人Grok。令人惊讶的是,Grok被曝光使用了OpenAI的ChatGPT的数据,这让其开发人员感到十分意外。开发者表示他们将努力解决这一问题,确保Grok的未来版本不再受到这种意外的影响。
大模型就是「造梦机」,Karpathy一语惊人!人类才是「幻觉问题」根本原因
早已成为LLM老生常谈的问题。OpenAI科学家AndrejKarpathy今早关于大模型幻觉的解释,观点惊人,掀起非常激烈的讨论。每个LLM都是一个不可靠的叙述者,就其架构的本质言,它是不可逆转的。
亚马逊面向企业的 AI 聊天机器人 Amazon Q 或存在严重幻觉和数据泄露问题引发质疑
在发布不到一周后,AmazonQ——亚马逊对抗Copilot的生成式AI助手——已面临生存威胁,一份新报告显示这款AI助手可能产生「严重幻觉」。据ThePlatformer援引泄露文件报道,Q正面临准确性和隐私问题,包括幻觉和数据泄露。「因此,人们对于聊天机器人和其他相关技术抱有更高的期望。
Galileo Lab 推出检测 AI 幻觉的新指标
幻觉问题正在成为AI一个主要问题,因为新的AI工具在喷发出具有权威性的废话方面越来越出色。剑桥词典将“幻觉”定为2023年的年度词汇。GalileoLabs等检测和减少幻觉的工具将帮助企业更安全地利用LLMs。
国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题
夸克,也下场大模型了。夸克大模型就迅速登顶权威测评双榜第一,幻觉率大幅降低,可以预见,风靡年轻人的夸克APP,要掀起新的飓风了。」随着自研大模型的全面升级,全新的夸克,必然会给我们带来全新的惊喜。
Vectara排行榜:OpenAI的GPT-4在文档摘要中幻觉率最低
在一项由Vectara进行的开源模型评估中,OpenAI的GPT-4在文档摘要中表现卓越,凭借其出色的97%准确率和令人瞩目的3%的幻觉率,成为幻觉率最低的大型语言模型。Vectara在GitHub上发布了一个排行榜,评估了一些大型语言模型在其“HallucinationEvaluationModel”上的表现,该模型衡量了语言模型在摘要文档时引入幻觉的频率。我们的目标是通过量化分析为企业提供他们需要的信息,使他们�
多模态语言模型新基准AMBER 评估和降低模型中的幻觉问题
AMBER项目是针对多模式语言模型的一个新基准,旨在评估和降低模型中的幻觉问题。幻觉是指当模型在生成文本、图像或音频等多种模态的数据时,可能会产生不准确或误导性的结果。自动化评估流程:提供自动化评估管道,简化用户评估模型性能的过程。
剑桥词典公布2023年度词汇:AI改变了“幻觉”的定义
剑桥词典宣布2023年的年度词汇是“幻觉”,并且这个词汇因人工智能技术得到了新的定义。“幻觉”是指某人似乎感觉到不存在的事物,通常是由于健康状况或药物使用,但现在它还与人工智能产生虚假信息有关。虽然这并不意味着广泛相信AI有感知能力,但它强调了我们准备将类人属性赋予AI的态度。
LeCun的意难平!Galactica比ChatGPT早发两周 却因幻觉问题被喷下线
在大型语言模型的领域,OpenAI的ChatGPT因其卓越性能和广泛应用引起轰动,成为瞩目的焦点。在ChatGPT之前的两周,Meta发布了Galactica,一款试用版模型。Taylor强调他们的研究仍然有价值,并且从Galactica的经验中学到的教训已经用到了后续的LLaMA2项目中。
哈工大团队发表50页综述 梳理LLM幻觉问题
哈尔滨工业大学和华为的研究团队发表了一篇长达50页的综述,深入梳理了通用型LLMs在专业领域中存在的幻觉问题。虽然这些模型在通用领域任务中表现出色,但由于主要在广泛的公开数据集上进行训练,它们在专业领域的专业知识方面受到了内在限制。研究人员呼吁改善数据质量,以便更有效地学习和回忆事实知识,从减轻专业领域中的幻觉问题。
大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤
【新智元导读】MetaGalatica的一周年忌日快到了,LeCun和一作心里都很痛。比ChatGPT早诞生两周,却因幻觉被喷下架——ChatGPT的荣光,原本可能是属于Galactica的……同时,全网热转的大模型幻觉排行榜,也被专家打假了。从这个角度来看,ChatGPT的编造能力是一个缺陷,但也是其类人智能的标志。
大模型幻觉率排行:GPT-4 3%最低,谷歌Palm竟然高达27.2%
排行榜一出,高下立见。人工智能发展进步神速,但问题频出。下次的排行榜会是怎样的,有没有大幅变动,我们拭目以待。