快手出品!DragAnything:拖动锚点精准控制视频物体和镜头运动
快手科技联合浙江大学、新加坡国立大学表演实验室研究团队提出了一种名为DragAnything的新方法,通过实体表示实现了对任何物体的运动控制。研究团队通过分析发现,DragNUWA的像素运动轨迹并不能很好地代表物体的整体运动,因为单个点无法表示整个实体。DragAnything方法在视频生成领域取得了显著进展,为实现对任何物体的精确运动控制提供了新的思路和方法。
解剖Sora:37页论文逆向工程推测技术细节,微软参与,华人团队出品
Sora刚发布不久,就被逆向工程“解剖”了?!来自理海大学、微软研究院的华人团队发布了首个Sora相关研究综述,足足有37页。他们基于Sora公开技术报告和逆向工程,对模型背景、相关技术、应用、现存挑战以及文本到视频AI模型未来发展方向进行了全面分析。OneMoreThing这篇综述发布后引起了不少网友关注,有网友表示值得全文阅读,但也有网友吐槽标题“Sora:”的设置极易引起误会。
7B开源数学模型干翻千亿GPT-4,中国团队出品
7B开源模型,数学能力超过了千亿规模的GPT-4!它的表现可谓是突破了开源模型的极限,连阿里通义的研究员也感叹缩放定律是不是失效了。无需借助任何外部工具,它就能在竞赛水平的MATH数据集上达到51.7%的准确率。在X上,已经有人开始在期待Coder和Math的MoE版本了。
大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品
北大团队新作,让大模型拥有个性!且还是自定义那种,16种MBTI都能选。图源备注:图片由AI生成,图片授权服务商Midjourney这样一来,即便是同一个大模型,不同性格下的回答都不一样。请继续关注更多的发展,因为我们继续探索语言模型和人类个性的令人着迷的交汇点。
1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品
只需两分钟,玩转图片转3D!还是高纹理质量、多视角高一致性的那种。不管是什么物种,输入时的单视图图像还是这样婶儿的:两分钟后,3D版大功告成:△上,Repaint123;下,Repaint123新方法名为Repaint123,核心思想是将2D扩散模型的强大图像生成能力与再绘策略的纹理对齐能力相结合,来生成高质量、多视角一致的图像。作者也对论文使用的每个模块的有效性以及视角转动增量进行�
英伟达出品!文生图模型TrailBlazer:利用边界框控制视频对象轨迹
在最近的文本到视频生成方法中,实现合成视频的可控性通常是一个挑战。通常情况下,为了解决这个问题,需要提供低级别的每帧指导,如边缘图、深度图或待修改的现有视频。5.高效且自然的运动生成:尽管使用简单的边界框进行指导,TrailBlazer生成的运动效果仍然非常自然,包括透视效果和随着边界框大小增加向虚拟摄像机移动等出现的效果。
阿里出品!DreaMoving:图片+文字提示就能生成高质量舞蹈视频
DreaMoving由阿里巴巴集团的一组研究人员倾力打造,一种基于扩散模型的可控视频生成框架,。该框架的核心目标基于图文就能生成高质量、定制化的人类舞蹈视频。值得一提的是,目前DreaMoving项目并没有开源代码。
比亚迪、腾讯联合出品!天文科普纪录片《外星连线》明日上线
快科技12月4日消息,比亚迪汽车官微刚刚宣布,比亚迪与腾讯视频联合出品的天文科普纪录片《外星连线》明日正式上线。官方尚未公布具体内容,但从文案和预热海报来看,应该会聚焦中国天眼”FAST射电望远镜。据悉,位于贵州平塘的中国天眼”FAST,是目前世界上最大、灵敏度最高的单口径射电望远镜,截至今年2月,它共观测发现740颗脉冲星。依靠它,我国探测宇宙天体�
文本生成高精准3D模型,北京智源AI研究院等出品—3D-GPT
北京智源AI研究院、牛津大学、澳大利亚国立大学联合发布了一项研究—3D-GPT,通过文本问答方式就能创建高精准3D模型。3D-GPT使用了大语言模型的多任务推理能力,通过任务调度代理、概念化代理和建模代理三大模块,简化了3D建模的开发流程实现技术民主化。在多步语言指令的场景中,3D-GPT能够充分理解每一步指令,并对场景进行准确修改。