谷歌发布可读屏AI模型ScreenAI:可理解用户界面和信息图表
谷歌研究最新发布的ScreenAI标志着语言和语音控制计算机界面的又一重要进展。这一AI模型不仅能理解用户界面和信息图表在回答基于信息图表的问题、总结内容以及导航用户界面等多项任务上,创下了新的性能标杆。为鼓励更多的发展,谷歌研究计划发布ScreenAI的评估数据集,其中ScreenQA已经提供了包含36,000张截图的86,000个问答对;更复杂的变体和包含截图及其文本描述的集合将会推出。