Các ứng dụng AI đa thể thức (phần 5)

Text thành ảnh (tiếp tục)

Sử dụng Stable Diffusion

Stable Diffusion 3.5 Large là model text thành ảnh của Stability AI, phát hành March 2024. Nó là một
Multimodal Diffusion Transformer (MMDiT) cái khởi tạo ảnh phân giải cao với chi tiết và chất lượng
đáng ghi nhận.
Model này sử dụng các cái mã hóa text huấn luyện trước, cố định và thực thi Query-Key Normalization
cho ổn định huấn luyện cải thiện. Nó có khả năng sinh ra các đầu ra đa dạng từ cùng prompt và hỗ trợ
các phong cách nghệ thuật khác nhau.
code 1
Các tham số khuyên dùng cho model mới bao gồm:
+ prompt_strength: Kiểm soát ảnh đi theo gần gũi với prompt như thế nào
+ cfg: Kiểm soát model đi theo prompt chặt chẽ như thế nào (4.5)
+ steps: Nhiều steps hơn dẫn đến ảnh chất lượng cao hơn (40)
+ aspect_ratio: Thiết lập thành 1:1 cho ảnh vuông
+ output_format: Sử dụng WebP cho tỉ lệ chất lượng với kích cỡ tốt hơn
+ output_quality: Thiết lập thành 90 cho đầu ra chất lượng cao
Sau đây là ảnh chúng ta nhận:
ảnh
Bây giờ hãy khám phá làm cách nào phân tích và hiểu các ảnh sử dụng các models đa thể thức.

Chia sẻ