苹果研究人员推出Keyframer:一款基于LLM的动画原型工具,可以从静态图像(SVG)生成动画
苹果的研究人员最近推出了一款名为Keyframer的动画原型工具,该工具采用了大型语言模型的动力,旨在从静态图像生成引人注目的动画。这标志着LLMs在创意领域的又一次创新应用。该研究为未来的动画设计工具提供了可能的方向,将生成能力与动态编辑器相结合,以实现更强大的创意控制和迭代。
蒂姆·库克谈生成式人工智能:「我们拥有使我们与众不同的优势」
在今天覆盖2024年第二财季的财报电话会议上,苹果公司首席执行官蒂姆·库克再次谈到了苹果在生成式人工智能方面的工作。苹果拥有的「优势」将使公司在人工智能时代「脱颖出」,并且不久的将来会向客户分享一些「非常激动人心的事情」。我们最快可以在下周的新iPadPro型号中看到M4芯片,彭博社的马克·古尔曼上周末表示,苹果有可能在iPadPro型号中发布这款芯片。
亚马逊发布生成式 AI 助手 Amazon Q,功能强大易用
亚马逊近日在官网发布了式AI助手AmazonQ,引起了广泛关注。该助手类似于ChatGPT,能够生成创意文本、代码、总结文档、分析数据等多种功能。这一系列产品的推出,将为用户提供更便捷、高效的AI助手服务。
Kimi悄悄更新智能体功能Kimi+ 增加小红书爆款生成等功能
Kimi悄悄更新了自己的智能体功能Kimi。Kimi是一个增强版的智能体,它在原有的基础上增加了许多实用的功能,比如:什么值得买驱动的商品挑选,学术搜索,旅行规划师、小红书爆款生成器,论文写作助手有翻译、内容改写等常用功能。比如先翻译内容,之后再改写,最后生成单个媒体格式的文案,这样的流程整合可以大大提高工作效率。
谷歌DeepMind新方法Gecko,为测试AI图像生成器引入严格新标准
谷歌DeepMind最近的研究示了当前我们对文本到图像AI模型性能评估的隐藏局限性。在其发布在预印本服务器ariv上的研究中,他们引入了一种全新的方法称为“Gecko”,承诺提供一个更全和可靠的基准,以评估这一蓬勃发展的技术。Gecko为我们展示了如何做到这一。
IBM宣布以64亿美元收购HashiCorp 加强混合云和生成式人工智能部署
在4月24日的第一季度财报电话会议上,IBM宣布将以64亿美元收购总部位于旧金山的HashiCorp,以加强其混合云和多云产品以及生成式人工智能部署。这一交易预计将于2024年底完成,标志着IBM在扩大混合云、多云和人工智能产品组合方面迈出的重要一步。HashiCorp的产品还可以帮助企业管理生成式人工智能工作负载,成为当今云公司主要驱动力之一。
七麦数据重磅发布AI应用榜:豆包登顶;文本生成仍是主流、数字人崭露头角;厂商布局渐成雏形......
随着ChatGPT的火热,国产大模型开始呈现爆发式增长态势,科技巨头、垂直场景玩家纷纷入局。在AI技术跃进式发展的趋势下,“从文本生成到AI聊天机器人”“从网站、软件App到智能终端”“从AI视频,到AI游戏”……AIGC无处不在,并开始席卷一切。七麦数据后期也将持续关注AI类产品的动向趋势,希望能给大家一些助力。
甲骨文加强生成式 AI 能力,云计算竞争白热化
美国多国计算机技术公司甲骨文正加强其生成式AI能力,与云计算竞争日益激烈,越来越多的公司加入AI领域。AI繁荣——ChatGPT聊天机器人在2022年11月推出,推动了对云计算服务和数据中心的需求增加,因为AI模型训练需要大量数据云计算提供了访问庞大数据集的渠道。甲骨文和英伟达在3月宣布将合作向全球客户提供独立的AI解决方案。
Sora生成火爆短片被指后期特效人工参与 不能保证视频一致性
Sora火爆短片《气球人》的背后,最新揭秘引发了争议。这部视频并非完全由人工智能生成,其中有大量视觉效果需要人类后期实现。他们对OpenAI的营销方式感到厌倦。
Harmonai:一个开源的生成音频工具 让每个人都可以轻松制作音乐
Harmonai,由StabilityAILab支持的开源项目,致力于让音乐制作变得更加容易和有趣。该模型利用先进的AI算法,可以生成定制的无限音乐库,为用户提供高品质、创新性的音乐资源,让用户可以轻松地创作多元化的音乐作品。声音设计:为视频游戏、电影或多媒体项目设计独特的音效。
InstantMesh:新AI框架可在10秒内从2D图像生成高质量3D网格
根据研究团队发表的预印本文章,InstantMesh是由腾讯PCGARC实验室和上海科技大学的研究人员开发的人工智能框架,能够在仅需10秒的时间内,从单个2D图像生成高质量的3D网格。该开源框架由多视图扩散模型和3D网格重建模型组成,通过使用不同角度合成的3D视图来实现高质量的重建。这一技术有望显著提升3D行业生产力,尤其在视频游戏开发领域。
开源Open-Sora大更新:可生成16秒,720P高清视频
国内著名大模型开源公司潞晨科技,对其开源文生视频模型Open-Sora进行了大更新,现在可生成16秒,分辨率高达720P的视频。同时具备可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的多模态功能。感兴趣的小伙伴们现在可以利用这些资源,结合技术报告和代码高效地处理和优化自己的数据集。
Open-Sora开源项目更新:可生成长达16秒、720P高清视频
潞晨科技旗下文生视频模型开源项目Open-Sora近日进行了重大更新,新版本可以生成16秒时长、720P高清视频。在本次更新中,团队对1.0版本的STDiT架构进行了关键性改进,提高了模型的训练稳定性和整体性能。Open-Sora的更新版本在模型稳定性、训练效率和功能扩展等方面都取得了显著进展,为用户提供了更加强大和多样化的视频生成能力。
Humanify:专为Blender设计的插件,一键生成高度逼真的人类模型
Humanify是一个创新的Blender着色器插件,它通过简化的操作流程,使得在Blender中一键生成高度逼真的人类模型成为可能。无论是3D建模的新手还是经验丰富的艺术家,都能够利用Humanify轻松实现人物模型的真实感渲染。Humanify插件代表了3D建模和渲染技术的一大进步,它通过简化技术流程,让艺术家们能够更加专注于他们的艺术创作,同时保证了作品的质量。
Sora 支持的短片创作者解释了人工智能生成视频的优点和局限性
OpenAI在二月份推出的视频生成工具Sora引起了AI社区的广泛关注。Sora展示出的流畅、逼真的视频似乎远远领先于竞争对手。Sora的首次亮相为我们提供了一个窥探AI在电影制作领域应用的机会,但也让我们意识到还有很长的路要走。
清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频
生数科技与清华大学在中关村论坛未来人工智能先锋论坛上共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型是国内首个达到Sora级别的视频大模型,标志着中国在视频生成技术领域的重要进展。开源成就:2023年3月,团队开源了基于U-ViT架构的多模态扩散模型UniDiffuser,这是全球首个此类模型,验证了U-ViT架构的大规模可扩展性。
中国首个Sora级大模型Vidu:文本生成16秒,1080p高清视频
4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型——Vidu。Vidu采用了原创的Diffusion与Transformer融合的架构U-ViT,支持文本生成长达16秒、分辨率高达1080P的高清视频内容。生数科技致力打造世界领先的多模态大模型,融合文本、图像、视频、3D等多模态信息,探索生成式AI在艺术设计、游戏�
Interactive3D:可直接通过交互操作指导3D模型生成
Interactive3D技术为3D内容的创造和修改提供了一种极其灵活的方法。用户可以直接通过交互操作来指导3D模型的生成,这一过程不仅直观具有高度的创造性。无论是专业的3D设计师还是业余爱好者,都能通过这一技术轻松实现自己的创意构想。
扎克伯格称 Meta 需要数年才能从生成式 AI 赚钱
在Meta的首季度财报电话会议上,CEO马克・扎克伯格向投资者表示,生成式AI的热潮已经到来,但不要指望它能很快带来利润。Meta公司净利润在上个季度已经达到120亿美元,营收为365亿美元,但未来其营收增长有望放缓,同时在AI和元宇宙方面的支出也创下历史新高。但现在似乎很明显,时尚AI眼镜也有一个有意义的市场无需显示屏。
Open-Sora悄悄升级 支持16秒视频生成和720p分辨率
Open-Sora在开源社区悄悄更新了,现在,该项目不仅支持长达16秒的单镜头视频生成视频分辨率最高可达720p,能够处理各种宽高比的文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频的生成需求。技术报告与模型架构:Open-Sora技术报告已在GitHub上发布,详细介绍了新功能和模型架构。作者团队将在下一版本中优先解决这些挑战。