【附体验地址】华为再破界限！PixArt-Σ领航文本直转4K时代，视觉创作未来已来

资讯12个月前更新花花

3,851 0 0

2024年3月11日由华为诺亚方舟实验室（Huawei Noah's Ark Lab）、大连理工大学和香港大学的研究团队，包括Junsong Chen、Chongjian Ge、Enze Xie、Yue Wu、Lewei Yao、Xiaozhe Ren、Zhongdao Wang、Ping Luo、Huchuan Lu和Zhenguo Li共同开发的PixArt-Σ，是一款能够直接生成4K分辨率图像的扩散变换模型（DiT）。PixArt-Σ相比其前作PixArt-α，在图像质量和文本提示对齐方面有了显著提升，展示了从“弱”到“强”的训练效率。
体验地址：

Pixart-α - a Hugging Face Space by PixArt-alpha

PixArt LCM - a Hugging Face Space by PixArt-alpha

GitHub地址:GitHub - PixArt-alpha/PixArt-sigma: New PixArt Model, Faster, Stronger, Better

原文链接：PIXART-Σ (pixart-alpha.github.io)

主要创新点

PixArt-Σ的两大创新包括：

高质量训练数据：该模型引入了更高质量的图像数据和更精确详细的图像标题，为生成过程提供了更准确的数据支持。
高效的令牌压缩：提出了一种新颖的注意力模块，能够在DiT框架内压缩键和值，大幅提高了效率，使得生成超高分辨率图像成为可能。

得益于这些改进，PixArt-Σ在保持较小模型大小（0.6B参数）的同时，达到了优于现有文本到图像扩散模型（如SDXL的2.6B参数和SD Cascade的5.1B参数）的图像质量和用户提示遵循能力。此外，PixArt-Σ生成4K图像的能力，为电影和游戏等行业高质量视觉内容的生产提供了有效支持。

样本展示

该模型的能力覆盖了广泛的场景，从海边的崎岖悬崖到宇航员骑着独角兽的浮世绘风格画面，再到透明玻璃制成的柯基犬站在约塞米蒂国家公园河边的彩色照片，PixArt-Σ都能以惊人的细节和高分辨率捕捉和创造。

【附体验地址】华为再破界限！PixArt-Σ领航文本直转4K时代，视觉创作未来已来

浮世绘风格的画作，骑着独角兽的宇航员，在背景中，有一座古老的日本建筑。

【附体验地址】华为再破界限！PixArt-Σ领航文本直转4K时代，视觉创作未来已来

由透明玻璃制成的柯基犬的彩色照片，站在优胜美地国家公园的河边。

总结

PixArt-Σ的开发标志着文本到图像生成技术的一大进步，为未来内容创造提供了新的可能性和视觉体验。这一创新不仅展示了人工智能在视觉艺术领域的应用潜力，也为科研人员和内容创作者开辟了新的路径，使他们能够以前所未有的分辨率和质量创造出引人入胜的视觉作品。

资讯、工具、教程、IT服务！

扫描以下二维码加群

告诉管理员您遇到的问题

我们会第一时间为您挑选优质教程和帮您解决问题

【附体验地址】华为再破界限！PixArt-Σ领航文本直转4K时代，视觉创作未来已来

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

阿里AI新品 Ovis：多模态大模型引领AI技术新风向

优优

1,596

小米触屏音箱全新升级！小爱同学与大模型智能对接受瞩目

优优

1,844

ChatGPT Plus会员迎来新功能浪潮：文件上传和多模态支持正式推出！

花花

3,309

阿里巴巴打破传统，推出全球首个B2B领域的人工智能搜索引擎Accio

优优

1,443

Ideogram AI绘画正式发布: 永久免费，可生成完美字体和创意图像

花花

2,584

OpenAI震撼发布GPT-4o，全新AI模型引领语音助手革命

万万

4,152

Copyright© 2023 AI万花筒 | 京ICP备2023008188号

友情链接

火星时代美图设计 AIPPT 智能编剧文多多AIPPT HelpLook AI知识库

分享