Tarsier:构建基于视觉交互的多模式网络代理工具库
Tarsier是一个开源的简单实用的多模式网络代理工具库,它提供了视觉标记可交互元素、页面截图OCR识别、文本元素标记等功能,为网页交互代理提供了更深层次的视觉和文本处理能力。该工具库通过在页面上使用方括号id的方式对可交互元素进行视觉标记,提供了元素和id之间的映射,使得GPT-4可以对这些元素进行操作。Tarsier通过提供视觉标记、OCR识别等功能,为网页交互代理提供了更丰富的交互能力,为现有的视觉语言模型的性能问题提供了解决方案。