AI视野:英伟达推文生图模型ConsiStory;高度可控AI试衣OOTDiffusion;开发者推SoraWebui开源项目;Groq最快AI推理芯片成本推算高得离谱
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
AI视野:Stability AI发布代码模型Stable Code3B;书生·浦语2.0正式开源;阿里推新项目MotionShop;Win11新增AI生成图像功能
StabilityAI公司发布了其首个新型人工智能模型,商业许可的StableCode3B。字节复旦团队提出metaprompts扩散模型图像理解力刷新SOTA过去一年,扩散模型逐渐在文生图领域扩展,能否处理视觉感知任务呢?字节跳动和复旦大学技术团队提出了简单有效方案,旨在提高模型在视觉识别任务中的性能。
阿里推新项目MotionShop 可将视频中的角色替换为3D
阿里巴巴推出了名为MotionShop的新项目,这一项目可以将视频中的角色替换为3D化身。MotionShop利用先进的视频处理和3D渲染技术,能够高效地将视频中的某个角色替换为3D人物,同时不改变视频中的其他场景和人物。第一步:上传一个包含人物的视频;第二步:选择视频中要替换的人物;第三步:选择要替换的虚拟角色模型并点击生成,等待10分钟即可生成结果。
Meta AI发布炸裂项目audio2photoreal 可将音频生成全身逼真的虚拟人物形象
MetaAI最近发布了一项引人注目的技术,他们成功地开发出一种能够从音频中生成逼真的虚拟人物形象的系统。这个系统能够根据多人对话中的语音生成与对话相对应的逼真面部表情、完整身体和手势动作。我们可以期待在不久的将来,这种技术将成为我们生活中不可或缺的一部分。
开发速率飙升20倍!GPT Pilot明星项目登Github热榜,从0开始构建AI
开发者的效率倍增工具来了。AI开发者伴侣GPTPilot可以让95%的开发者实现自动编码。对于GPTPilot编写的所有代码,它需要编写检查代码是否按预期工作的测试,以便无论何时进行新的更改,都可以运行所有回归测试,以检查是否有任何故障。
趣味项目CLoT:训练LLM更幽默地回答问题
研究人员通过日本传统喜剧游戏“大喜利”对AI进行了一项新的挑战,以培养AI成为吐槽高手。在这个游戏中,AI需要理解给定的图文信息,并以幽默搞笑的方式做出回答。CLoT还在其他任务中提高了创造性能力,显示出其卓越的泛化能力,为AI的幽默表现和创意生成能力带来了新的突破。
iPhone屏幕发明人从苹果离职 曾负责ProMotion、Face ID等项目
苹果公司的重要高管史蒂夫·霍特林即将退休,他曾负责开发许多关键技术,其中包括iPhone的多点触控屏幕、TouchID和FaceID。霍特林在苹果公司担任副总裁,向硬件技术高级副总裁约翰尼·斯鲁吉汇报工作。他的退休将给苹果公司带来一定的技术人才流失,但对于整个科技界来说,他的贡献将永远被铭记。
AI开源项目screenshot-to-code 借助GPT-4V直接把网页截图制作成HTML网页
这是一个简单的应用程序,可将截图转换为HTML/TailwindCSS。它利用GPT-4Vision生成代码,并使用DALL-E3生成类似的图像。用户还可以通过GitHub上的issue或Twitter提供反馈、功能请求和报告bug。