据媒体 1 月 28 日消息,DeepSeek 于 1 月 28 日凌晨发布了开源多模态人工智能(AI)模型 Janus - Pro,在 GenEval 和 DPG - Bench 基准测试中击败了 OpenAI 的 DALL - E 3。具体介绍如下:
技术创新点
自回归框架:采用新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为 “理解” 和 “生成” 两条路径,同时仍采用单一的 Transformer 架构进行处理,缓解了视觉编码器在理解和生成中的角色冲突,提升了框架的灵活性。
数据优化:在视觉生成方面添加 7200 万张高质量合成图像,使真实数据与合成数据比例达 1:1,实现更具视觉吸引力和稳定性的图像输出。在多模态理解的训练数据方面参考了 DeepSeek VL2 并增加约 9000 万个样本。
性能优势
跑分数据领先:Janus - Pro - 7B 的准确率测试结果在 GenEval 和 DPG - Bench 基准测试中分别为 80% 和 84.2%,高于 OpenAI 的 DALL - E 3 等对比模型。
功能全面出色:作为多模态模型,不仅能 “文生图”,还可对图片进行描述、识别地标景点、识别图像中的文字,并能介绍图片中的知识。
TAG:潮流 | 热榜 | DeepSeek | OpenAI
文章链接:https://www.lk86.com/hot/168586.html