微软开源创新框架:可将DeepSeek,变成AI Agent
微软在官网发布了视觉Agent解析框架OmniParser最新版本V2.0,可将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型,变成可在计算机使用的AIAgent。与V1版本相比,V2在检测较小的可交互UI元素时准确率更高、推理速度更快,延迟降低了60%。当任务是“点击设置按钮”时,OmniParser不仅提供了设置按钮的边界框和ID提供了其功能描述,颗显著提高了模型的准确性和鲁棒性。
Voice Agent 开源框架 TEN,让你的 AI Agent 能听能说!
搭建VoiceAgent就像是把大象装进冰箱,看上去只有三步很简单:1)选择LLM/STT/TTS大模型2)接入WebRTC或WebSockets进行实时传输3)调整参数封装但在实际使用过程中,却困难重重:“😫回声太大、噪音太多”、“人声太杂听不清👂”“人工智能如智障,说话都不能打断🤐”“延迟太高反应慢🐢”、“又有新模型了又要重新接😞”“三段式看着简单实现的工程太难💻”“多模态数据�