微软开源创新LoRA组合方法,增强文生图复杂细节控制
LoRA的高效能力已在文生图领域获得广泛应用,可以准确渲染、融合图像中的特定元素,例如,不同字符、特殊服装或样式背景等,同时可对图像进行压缩、去噪、补全进行优化操作。但想在模型中应用多个LoRA构建更复杂的图像时,会出现图像失真、难以控制细节的难题。尤其是使用数量较多的LoRA组合时,生成高质量的效果更加明显。
Stability AI CEO 辞职 自称没董事会控制权
StabilityAI是一家备受瞩目的AI公司,然,近日突然爆出CEOEmadMostaque辞职的消息,引发了公司内部的巨大变动。Mostaque辞职后,公司由首席运营官ShanShanWong和首席技术官ChristianLaforte暂时兼任联席首席执行官。面对这一挑战,AI创业公司需要重新审视商业运营模式,以应对未来的挑战。
小米14 Ultra获推HyperOS 1.0.7.0公测版更新:新增摄影手柄充电控制开关
小米14Ultra手机的HyperOS操作系统已经更新到了1.0.7.0.UNACNXM版本,这个更新包含了摄影手柄充电控制开关、天通短信同步生命体征信息功能、SOS模式下使用卫星通话后自动发送求救短信功能以及触控体验的优化。在相机方面,更新内容包括部分场景下HDR成像效果的优化、人像场景拍摄清晰度的提升以及测光权重-环境优先选项下人脸亮度策略的改善。当手机电量低于80%时,会自动连接手柄进行充电。
快手出品!DragAnything:拖动锚点精准控制视频物体和镜头运动
快手科技联合浙江大学、新加坡国立大学表演实验室研究团队提出了一种名为DragAnything的新方法,通过实体表示实现了对任何物体的运动控制。研究团队通过分析发现,DragNUWA的像素运动轨迹并不能很好地代表物体的整体运动,因为单个点无法表示整个实体。DragAnything方法在视频生成领域取得了显著进展,为实现对任何物体的精确运动控制提供了新的思路和方法。
快手发布革命性视频运动控制技术 DragAnything
快手科技近日推出了一项创新技术DragAnything,它是一个利用实体表示实现任何物体运动控制的项目页面。该项目提供了对实体级别运动控制的新见解,通过实体表示揭示了像素级运动和实体级运动之间的差异。实验结果显示,DragAnything在FVD、FID和用户体验研究方面均达到行业领先水平,尤其在对象运动控制方面比先前技术提高了26%。
SLD自纠正LLM控制的扩散模型框架怎么使用?SLD官网地址入口
SLD 是一个自纠正的LLM控制的扩散模型框架,它通过集成检测器增强生成模型,以实现精确的文本到图像对齐。SLD框架支持图像生成和精细编辑,并且与任何图像生成器兼容,如DALL-E 3,无需额外训练或数据。点击前往SLD官网体验入口需求人群:适用于需要精确文本到图像对齐的研究者和开发者,以及希望进行图像生成和编辑的用户。使用场景示例:使用SLD框架根据文本提示生�
OpenAI回应马斯克起诉,初期仅投入4500万美元就想取得控制权
在最新回应中,OpenAI对马斯克的起诉提出了明确回应,揭示了有关融资和公司使命的关键细节。OpenAI指出,自2015年成立以来,马斯克仅投入4500万美元,远低于其最初承诺的10亿美元。OpenAI的这场高风险法律战可能对人工智能的未来方向和发展速度产生重大影响,同时也可能改变行业主要参与者之间的力量平衡。
开源AI助手AIlice:可以控制多个智能体协同完成复杂任务
MyShellAI刚上班了开源项目AIlice,可以控制多个智能体协同完成复杂的任务,例如文档检索、下载、数据分析、画图等。并且可以针对任务生成代码在虚拟环境中运行。只需用户简单的提示,AIlice便可构建模块,并通过命令加载新实施的模块。
FreeControl:无需训练即可控制任何文本到图像扩散模型的空间控制方法
在最新的研究中,研究人员提出了一种名为FreeControl的方法,可以实现对文本到图像生成模型的空间控制无需进行训练。这项研究支持同时控制多个条件、架构和检查点,为生成过程提供了更大的灵活性。FreeControl有助于对许多不同的架构和检查点进行方便的免训练控制,允许大多数现有免训练方法失败的具有挑战性的输入条件,并通过基于训练的方法实现有竞争力的合成质量。
马斯克称首位脑机接口受试者或已康复 可思维控制鼠标
人类首次脑机接口技术试验取得了显著进展。Neuralink公司的首位人类受试者已完全康复,并能通过思维控制电脑屏幕上的鼠标移动。随着这一技术的不断发展和完善,我们有理由相信,未来的生活将更加美好,充满无限可能。
马斯克:Neuralink首位人类受试者康复 实现思维控制鼠标
Neuralink公司的首位人类受试者已经完全康复,并且能够通过思维在电脑屏幕上移动鼠标。这一成果标志着脑机接口技术在人类身上的应用取得了重要突破。该公司计划到2030年将为超过2.2万人植入芯片,为人类带来更加便捷和高效的生活体验。
字节跳动推出颠覆性文生视频模型,可自由控制动作!
在Sora引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与Gen-2、Pink1.0等模型不同的是,Boximator可以通过文本精准控制生成视频中人物或物体的动作。字节跳动的研究人员表示,目前该模型处于研发阶段,预计2-3个月内发布测试网站。
苹果新一代CarPlay不再霸道:放弃部分控制权 车厂适配更灵活
CarPlay是苹果的生态之一,将iPhone的地图、音乐和通话等功能融入汽车系统,从减少驾驶过程中的分心和危险。这款来自苹果的车载系统于2014年在法拉利跑车上首次亮相,随后在2015年被各大汽车制造商广泛采用,只需要数据或者无线,就可以在车载屏幕上体验到CarPlay。这一决策标志着苹果对汽车市场的深度投入,也让车厂的带来更多创新,也为消费者带来了更多选择,这一策�
字节发布视频控制方式Boximator 比Runway运动笔刷更精确
字节研究院发布了一个名为Boximator的视频控制方式,看起来相当不错。这种控制方式允许用户选择需要运动的物体,并绘制其结束位置和运动路径,物体将严格按照用户绘制的位置和路径进行运动。人类评估显示,用户更喜欢Boximator生成的视频效果不是基础模型的输出。
苹果Vision Pro可直接控制Mac电脑!7年前老机型也支持
随着苹果VisionPro在美国正式发售,苹果官方也公布了其支持文档,其中一份文档显示,VisionPro可以直接查看和控制Mac电脑。VisionPro的MacVirtualDisplay功能可以与任何运行macOSSonoma的Mac兼容,并且如果Mac搭载的是苹果自己芯片,VisionPro可以显示4K分辨率。不过需要注意的是,当VisionPro处于访客模式时,MacVirtualDisplay功能将无法正常工作。
视频生成模型Motion-I2V:支持控制视频运动轨迹
Motion-I2V是一种新型的视频生成模型,可以像Runway的运动笔刷一样控制视频生成。它能够从一张静态图片生成连贯且可控制的视频,效果惊人!这个技术还能对生成视频进行运动控制,例如可以生成一辆车在道路上行驶的视频还能控制车辆的行驶方向和速度等细节。这个技术还能够做到从一个视频转换到另一个视频不需要额外的训练数据,这是通过在第二步骤中引入的一种新技术
支持Animatediff所有控制方式!AnimateLCM 4步推理即可生成视频
又有团队开卷视频生成了!这个项目在视频生成方面非常优秀。它使用了一致性模型的启发,简化了预训练的图像扩散模型以加速采样过程。AnimateLCM暂未发布代码和权重,期待能够尽快上代码。
手机直接控制汽车!保时捷携手苹果推出全新CarPlay功能
保时捷目前正与苹果共同开发了全新的CarPlay功能,此次合作将进一步提升苹果用户的使用便捷性。图源备注:图片由AI生成,图片授权服务商Midjourney据悉,此次研发的新功能将集成到AppleCarPlay中,用户可以直接通过手机屏幕对车辆的中控进行控制,完成例如更改电台、调整车辆温度和控制环境照明等操作。驾驶员将能够使用苹果的语音辅助控制更多功能,并能够通过此更新从方向盘上的按钮启动该功能。
人类首次植入脑机接口芯片!马斯克:用意念就能控制手机、电脑
今早的科技圈被马斯克旗下脑机接口公司Neuralink刷屏。马斯克宣布昨天,人类首次接受脑机接口芯片植入,植入者恢复良好。此消息一出,很多美国网友纷纷自告奋勇,愿意充当小白鼠”参与实验。
正交微调解锁文本创建逼真图像新能力 实现对生成图像的精确控制
基于文本的图像生成技术一直备受关注,因为它能够根据文字描述创建逼真的图像。这些模型利用复杂的算法解读文本并将其转化为视觉内容,模拟了人类独有的创造力和理解能力。这一突破为需要准确从文本生成图像的应用开辟了新的可能性,标志着AI创造力和视觉表现的新时代的到来。