【附体验地址】华为再破界限!PixArt-Σ领航文本直转4K时代,视觉创作未来已来

资讯8个月前更新 花花
3,290 0 0

2024年3月11日由华为诺亚方舟实验室(Huawei Noah's Ark Lab)、大连理工大学和香港大学的研究团队,包括Junsong Chen、Chongjian Ge、Enze Xie、Yue Wu、Lewei Yao、Xiaozhe Ren、Zhongdao Wang、Ping Luo、Huchuan Lu和Zhenguo Li共同开发的PixArt-Σ,是一款能够直接生成4K分辨率图像的扩散变换模型(DiT)。PixArt-Σ相比其前作PixArt-α,在图像质量和文本提示对齐方面有了显著提升,展示了从“弱”到“强”的训练效率。
【附体验地址】华为再破界限!PixArt-Σ领航文本直转4K时代,视觉创作未来已来体验地址:

Pixart-α - a Hugging Face Space by PixArt-alpha

PixArt LCM - a Hugging Face Space by PixArt-alpha

GitHub地址:GitHub - PixArt-alpha/PixArt-sigma: New PixArt Model, Faster, Stronger, Better

原文链接PIXART-Σ (pixart-alpha.github.io)

主要创新点

PixArt-Σ的两大创新包括:

  1. 高质量训练数据:该模型引入了更高质量的图像数据和更精确详细的图像标题,为生成过程提供了更准确的数据支持。
  2. 高效的令牌压缩:提出了一种新颖的注意力模块,能够在DiT框架内压缩键和值,大幅提高了效率,使得生成超高分辨率图像成为可能。

得益于这些改进,PixArt-Σ在保持较小模型大小(0.6B参数)的同时,达到了优于现有文本到图像扩散模型(如SDXL的2.6B参数和SD Cascade的5.1B参数)的图像质量和用户提示遵循能力。此外,PixArt-Σ生成4K图像的能力,为电影和游戏等行业高质量视觉内容的生产提供了有效支持。
【附体验地址】华为再破界限!PixArt-Σ领航文本直转4K时代,视觉创作未来已来

样本展示

该模型的能力覆盖了广泛的场景,从海边的崎岖悬崖到宇航员骑着独角兽的浮世绘风格画面,再到透明玻璃制成的柯基犬站在约塞米蒂国家公园河边的彩色照片,PixArt-Σ都能以惊人的细节和高分辨率捕捉和创造。

【附体验地址】华为再破界限!PixArt-Σ领航文本直转4K时代,视觉创作未来已来

浮世绘风格的画作,骑着独角兽的宇航员, 在背景中,有一座古老的日本建筑。

【附体验地址】华为再破界限!PixArt-Σ领航文本直转4K时代,视觉创作未来已来

由透明玻璃制成的柯基犬的彩色照片, 站在优胜美地国家公园的河边。

总结

PixArt-Σ的开发标志着文本到图像生成技术的一大进步,为未来内容创造提供了新的可能性和视觉体验。这一创新不仅展示了人工智能在视觉艺术领域的应用潜力,也为科研人员和内容创作者开辟了新的路径,使他们能够以前所未有的分辨率和质量创造出引人入胜的视觉作品。

 

 

资讯、工具、教程、IT服务!

扫描以下二维码加群

告诉管理员您遇到的问题

我们会第一时间为您挑选优质教程和帮您解决问题

【附体验地址】华为再破界限!PixArt-Σ领航文本直转4K时代,视觉创作未来已来
© 版权声明

相关文章

分享