星空网站建设

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 130|回复: 0

解读QQ混元图像2.0发布 时生图毫秒级速度与超写画质

[复制链接]
  • TA的每日心情
    无聊
    5 小时前
  • 签到天数: 62 天

    [LV.6]常住居民II

    1万

    主题

    53

    回帖

    5万

    积分

    超级版主

    Rank: 8Rank: 8

    积分
    58188
    发表于 2025-5-26 22:36:50 | 显示全部楼层 |阅读模式

    5月16日消息,今天QQ正式发布了业内首个毫秒级响应的时生图大模型——混元图像20(Hunyuan游戏+的具体问题可以到我们网站了解一下,也有业内领域专业的客服为您解答问题,为成功合作打下一个良好的开端!https://www.g4g.cn/games

    Image20)。目前已在QQ混元官方上线,并对外开放注册体验,该模型主要有两大特点:时生图、超写画质。







    相比前代模型,QQ混元图像20模型参数量提升了一个数量级,得益于超高压缩倍率的图像编解码器以及全新扩散架构,其生图速度显著于行业领先模型。



    在同类商业产品每张图推理速度需要5到10秒的情况下,QQ混元可现毫秒级响应,支持用户可以一边打字或者一边说话一边出图,改变了传统“抽卡—等待—抽卡”的方式。







    除了速度以外,QQ混元图像20模型图像生成质量提升明显,通过强化学习等算法以及引入大量人类美学知识对齐,生成的图像可有效避免AIGC图像中的“AI味”,真感强、细节丰富、可用性高。



    在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准GenEval(Geneval
    Bench)上,QQ混元图像20模型准确率超过95%,远超其他同类模型。







    提示词:人像摄影,爱因斯坦,背景是东方明珠,自拍视角



    QQ表示,QQ混元图像20引入多模态大语言模型(MLLM)作为文本编码器,配合自研的结构化caption系统,不仅能理解你在说什么,更能推测出你希望画面「怎么表达」。



    哪怕你一句话里埋了层含义,它也能一一拆解,再一笔一笔画出来。







    除了文字输入,QQ混元图像20还可以通过语音直接输入提示词,系统将语音自动转写为文字,并在识别后即时生成图像,适用于直播讲解、移动创作等场景。



    也可以上传草图作为参考,模型能自动识别线稿的结构与构图逻辑,再结合提示词内容补全光影、材质、背景等细节,迅速扩展成图。



    QQ混元图像20模型生成的图片:







    人像摄影风格







    动物特写







    复古摄影







    动漫风格







    真人物风格
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表