OneChart:仅2亿参数,专门用于图表信息结构化提取
在图表解析领域,由于样式、数值、文本等的多样性,存在着重大挑战。即使是拥有数十亿参数的先进大型视觉-语言模型也难以令人满意地处理此类任务。研究团队提出的OneChart在图表结构提取方面取得了令人瞩目的成绩,为解决图表解析中的挑战提供了新的思路和方法。
马斯克XAI发布Grok-1.5 Vision 多模态模型 可处理文本和图片信息
在人工智能领域,多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用,我们有理由相信,它将在多个领域发挥重要作用,推动人工智能技术向前发展。
谷歌发布可读屏AI模型ScreenAI:可理解用户界面和信息图表
谷歌研究最新发布的ScreenAI标志着语言和语音控制计算机界面的又一重要进展。这一AI模型不仅能理解用户界面和信息图表在回答基于信息图表的问题、总结内容以及导航用户界面等多项任务上,创下了新的性能标杆。为鼓励更多的发展,谷歌研究计划发布ScreenAI的评估数据集,其中ScreenQA已经提供了包含36,000张截图的86,000个问答对;更复杂的变体和包含截图及其文本描述的集合将会推出。
谷歌Chrome搜索建议升级:个性化、图像化搜索助您快速发现信息
谷歌今日宣布对Chrome浏览器中的搜索建议进行了重大改进,旨在为用户带来更加智能、个性化、丰富的搜索体验。作为这一变化的一部分,用户将能够从其他人的搜索内容中获取更有用的建议,查看更多的搜索建议图像,并在连接较差的情况下继续获得搜索建议。这一更新意味着用户即使在隐身模式下浏览时,仍将获得更多有用的建议。
谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型
划重点:⭐️GoogleAI团队提出了ScreenAI,这是一个视觉语言模型,可以全面理解UI和信息图。⭐️ScreenAI在多个任务上表现出色,包括图形问答,元素注释,摘要生成等。通过利用这些组件的共同视觉语言和复杂设计,ScreenAI为理解数字内容提供了全面的方法。
跑长途高速不怕充电难!百度地图宣布接入全国服务区充电站信息
相信很多新能源车车主跑长途高速时都会担心充电困难,比如下一个服务区有没有充电桩,或者服务区充电桩是否排队。百度地图宣布联合交通运输部公路局,将全国高速公路沿线的充电基础设施信息上线到百度地图,极大地提升了百度地图服务区充电站信息的覆盖率、准确度和时效性。北京、辽宁、吉林、上海、浙江等11个省高速公路服务区充电设施覆盖率达到100%。
卢伟冰打造的旗舰焊门员!一图了解Redmi K70E所有关键信息
据Redmi官微消息,RedmiK70E会在本月登场,该机的散热、性能、屏幕、电池等关键信息已经公布。RedmiK70E采用第二代1.5K旗舰直屏,峰值亮度达到了1800尼特,支持1920Hz高频PWM调光。K70E的性能表现在接下来很长一段时间都不会有对手,是新一代旗舰焊门员,做到了彻彻底底的同档无敌。
只需2分钟,单视图3D生成又快又好!北大等提出全新Repaint123方法
将一幅图像转换为3D的方法通常采用ScoreDistillationSampling的方法,尽管结果令人印象深刻,但仍然存在多个不足之处,包括多视角不一致、过度饱和、过度平滑的纹理,以及生成速度缓慢等问题。为了解决这些问题,北京大学、新加坡国立大学、武汉大学等机构的研究人员提出了Repaint123,以减轻多视角偏差、纹理退化,并加速生成过程。图4:Repaint123两阶段单视角3D生成框架实验�
中科院提出全新多视图世界模型和自动驾驶世界模型Drive-WM
随着自动驾驶技术的迅猛发展,中科院自动化所的团队提出的Drive-WM模型成为自动驾驶领域的关键创新。这一模型通过多视图世界模型,利用生成式世界模型的强大生成能力,实现了多视图预测和规划,为自动驾驶系统的安全性提供了新的保障。这一技术突破有望推动自动驾驶领域迈向新的里程碑。
AI「脑补」画面太强了!李飞飞团队新作ZeroNVS,单个视图360度全场景生成
利用3D感知扩散模型训练模型,然后对单个物体进行SDS蒸馏的研究数不胜数。能够真正做到「场景级」的画面生成,从未实现。他还曾在谷歌研究院担任学生研究员。