Tarsier:构建基于视觉交互的多模式网络代理工具库
Tarsier是一个开源的简单实用的多模式网络代理工具库,它提供了视觉标记可交互元素、页面截图OCR识别、文本元素标记等功能,为网页交互代理提供了更深层次的视觉和文本处理能力。该工具库通过在页面上使用方括号id的方式对可交互元素进行视觉标记,提供了元素和id之间的映射,使得GPT-4可以对这些元素进行操作。Tarsier通过提供视觉标记、OCR识别等功能,为网页交互代理提供了更丰富的交互能力,为现有的视觉语言模型的性能问题提供了解决方案。
南开山大等开发trRosettaRNA 一种基于深度学习的自动化RNA 3D结构预测方法
南开大学、山东大学以及北京理工大学的联合团队成功开发了一种基于深度学习的自动化RNA3D结构预测方法,命名为trRosettaRNA。该方法采用Transformer网络,通过进行1D和2D几何形状预测,再通过能量最小化实现3D结构折叠。我们期待着深度学习方法在RNA结构预测方面的进一步发展,为理解RNA分子的生物学功能提供更为准确的工具和方法。
OpenAI发布全新微调API :ChatGPT支持更详细可视化微调啦!
4月5日凌晨,OpenAI在官网宣布新增6个全新微调API功能,以扩展自定义模型,帮助企业、开发人员更好地构建特定领域、精细化的ChatGPT应用。这些功能包括:基于Epoch的检查点创建、Playground新功能、第三方集成、全面验证指标、超参数配置和更详细的微调仪表板改进。如果对模型的请求超时或找不到模型名称,可能是因为模型仍在加载中,可在几分钟后重试。
MathVerse:全方位可视化数学基准,对多模态大型语言模型进行公平和深入的评估
多模态大型语言模型在视觉情境下的表现异常出色,引起了广泛关注。它们解决视觉数学问题的能力仍需全面评估和理解。这表明需要更先进的数学专用视觉编码器,突显了MLLM发展的潜在未来方向。