OneChart:仅2亿参数,专门用于图表信息结构化提取
在图表解析领域,由于样式、数值、文本等的多样性,存在着重大挑战。即使是拥有数十亿参数的先进大型视觉-语言模型也难以令人满意地处理此类任务。研究团队提出的OneChart在图表结构提取方面取得了令人瞩目的成绩,为解决图表解析中的挑战提供了新的思路和方法。
马斯克XAI发布Grok-1.5 Vision 多模态模型 可处理文本和图片信息
在人工智能领域,多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用,我们有理由相信,它将在多个领域发挥重要作用,推动人工智能技术向前发展。
谷歌发布可读屏AI模型ScreenAI:可理解用户界面和信息图表
谷歌研究最新发布的ScreenAI标志着语言和语音控制计算机界面的又一重要进展。这一AI模型不仅能理解用户界面和信息图表在回答基于信息图表的问题、总结内容以及导航用户界面等多项任务上,创下了新的性能标杆。为鼓励更多的发展,谷歌研究计划发布ScreenAI的评估数据集,其中ScreenQA已经提供了包含36,000张截图的86,000个问答对;更复杂的变体和包含截图及其文本描述的集合将会推出。
谷歌Chrome搜索建议升级:个性化、图像化搜索助您快速发现信息
谷歌今日宣布对Chrome浏览器中的搜索建议进行了重大改进,旨在为用户带来更加智能、个性化、丰富的搜索体验。作为这一变化的一部分,用户将能够从其他人的搜索内容中获取更有用的建议,查看更多的搜索建议图像,并在连接较差的情况下继续获得搜索建议。这一更新意味着用户即使在隐身模式下浏览时,仍将获得更多有用的建议。
谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型
划重点:⭐️GoogleAI团队提出了ScreenAI,这是一个视觉语言模型,可以全面理解UI和信息图。⭐️ScreenAI在多个任务上表现出色,包括图形问答,元素注释,摘要生成等。通过利用这些组件的共同视觉语言和复杂设计,ScreenAI为理解数字内容提供了全面的方法。
跑长途高速不怕充电难!百度地图宣布接入全国服务区充电站信息
相信很多新能源车车主跑长途高速时都会担心充电困难,比如下一个服务区有没有充电桩,或者服务区充电桩是否排队。百度地图宣布联合交通运输部公路局,将全国高速公路沿线的充电基础设施信息上线到百度地图,极大地提升了百度地图服务区充电站信息的覆盖率、准确度和时效性。北京、辽宁、吉林、上海、浙江等11个省高速公路服务区充电设施覆盖率达到100%。
卢伟冰打造的旗舰焊门员!一图了解Redmi K70E所有关键信息
据Redmi官微消息,RedmiK70E会在本月登场,该机的散热、性能、屏幕、电池等关键信息已经公布。RedmiK70E采用第二代1.5K旗舰直屏,峰值亮度达到了1800尼特,支持1920Hz高频PWM调光。K70E的性能表现在接下来很长一段时间都不会有对手,是新一代旗舰焊门员,做到了彻彻底底的同档无敌。