字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin,专为视觉语言时代设计。更多大模型算法相关岗位开放中。
2024年Top100 AI公司报告发布:OpenAI、Anthropic和Databricks位列前三
CBInsights最近发布了2024年度Top100人工智能公司报告。该报告选择了来自16个国家/地区最具潜力的100家人工智能公司进行评选。该报告全面评估了来自16个国家/地区100家最具潜力的人工智能初创公司,为投资者和行业提供了有价值的参考。
谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA
【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。谷歌研究人员表示,ScreenAI模型还需要在一些任务上进行更多研究,以缩小与GPT-4和Gemini等更大模型的差距。
AI视野:Stability AI发布代码模型Stable Code3B;书生·浦语2.0正式开源;阿里推新项目MotionShop;Win11新增AI生成图像功能
StabilityAI公司发布了其首个新型人工智能模型,商业许可的StableCode3B。字节复旦团队提出metaprompts扩散模型图像理解力刷新SOTA过去一年,扩散模型逐渐在文生图领域扩展,能否处理视觉感知任务呢?字节跳动和复旦大学技术团队提出了简单有效方案,旨在提高模型在视觉识别任务中的性能。
新增荔枝播客App!理想L系列将迎OTA 5.0.2:支持一键播放、订阅等功能
理想L系列将迎OTA5.0.2版本。此次升级将增加荔枝播客App,并对全场景智能驾驶NOA、全场景辅助驾驶LCC和智能泊车体验进行优化。理想汽车还暂未公布OTA升级的更多信息,更多消息,我们将持续为您报道。
Meta AI发布炸裂项目audio2photoreal 可将音频生成全身逼真的虚拟人物形象
MetaAI最近发布了一项引人注目的技术,他们成功地开发出一种能够从音频中生成逼真的虚拟人物形象的系统。这个系统能够根据多人对话中的语音生成与对话相对应的逼真面部表情、完整身体和手势动作。我们可以期待在不久的将来,这种技术将成为我们生活中不可或缺的一部分。