向“可控图片生成算法挑战”！未来的世界是属于大模型的时代

只需简单输入一定的要求，AI就可以创作出符合你心境的艺术作品？这种现象，在AI原生时代，早已成为常见之事。

那么，这背后的逻辑是什么？又是如何实现的？从第二届百度搜索创新大赛赛道五“可控图片生成算法挑战”中或许可以了解一二。

解锁AI创作

提高文生图领域的生成能力

百度搜索创新大赛被誉为搜索界的“奥林匹克”，其旨在促进业内交流、产教融合，推动算法技术应用创新，激发人工智能及检索技术领域不断创新,挖掘和培育更多搜索人才。此次大赛以“新奇点新搜索”为主题，初衷就在于通过竞赛的形式，去从中探析AI原生时代下的搜索生态。而五大赛道议题的设置无疑已经彰显一切。

此次大赛主要包含 5大赛题方向：「搜索答案组织」、「基于向量交集的TopK搜索」、「基于搜索用户充分的调研，洞察用户在搜索场景的需求,并通过构建AI应用解决」、「基于GPU的近似最近邻检索算法挑战」、「可控图片生成算法挑战」。据悉，所有大赛赛题均来源于搜索核心业务场景,涉及算法、工程、产品三大领域，涉及大模型应用、语义检索、多模态、软硬结合优化等丰富的技术方向。

其中，赛道五“可控图片生成算法挑战”针对则是AI创作这个垂直场景。在这场专注于可控图像生成的赛道中，其希望借助AI技术，降低图像设计门槛，满足用户对图像的需求。从该赛道的赛题具体任务便可看到：以文生图任务为核心，基于扩散技术框架，百度将提供该框架下的预训练模型以及百万级训练数据，参赛者需在此基础上，通过训练方式和prompt工程等手段优化自己的生成模型。

“赛道五的目的就在于通过比赛，提高文生图领域的生成能力，充分理解用户需求，生成相关性高、美观度高、清晰度高和创新性高的图像”，百度搜索方面表示。

据12月1日举办的大赛颁奖典礼数据显示，赛道五共有390人报名，其中50支队伍上榜，经过激烈角逐，最终获得 “可控图片生成算法挑战”赛道冠军的团队为来自北京理工大学的【幸运的深不见底】的团队。

该团队表示，“通过参加这次比赛，我们不仅对大模型框架与生成式AI有了更多地了解，同时也更加了解文生图领域的难点和痛点。我们认为，未来的世界是属于大模型的时代，所以我们以后也会考虑加入‘大模型’的家庭，为行业贡献更多力量。”

持续创新深耕，

迎接更加智能化、精准便捷化的搜索时代

“幸运的深不见底”，深邃且神秘。但一切成果的背后，运气只是一种主观的表达，更多的则是来源于不懈地努力与探索。

据该团队介绍，他们的团队成员主要由两名博士和三名硕士组成，他们所面临的主要比赛任务则是“基于扩散技术框架，借助预训练模型和百万级训练数据，通过训练与融合等手段优化出自己的生成模型。”

针对这一要求，挑战显而易见。从当前最火的文生图模型来看，主要就有三个难点：第一在于模型过大，也就是对于普通人来讲很难用一张消费级显卡训练出属于自己的文生图模型；第二现在可以挖掘文生图数据量非常难找，很难获得高质量的文生图数据；第三是现在模型算法很容易不稳定，也很难生成高质量的图像。

面对此情此景，该团队使用了多个方法实现算法：第一是通过大量数据收集、清洗、标注、对齐和增强，去挖掘和爬虫下来自己大规模的数据集，并对百度官方发布数据集进行大规模清洗。

同时，在此基础上，他们进行了多LORA模型混合使用，并得到了初步效果。此外，重新使用自身采集数据进行训练，与多LORA模型融合。在不断摸索与尝试下，控制变量，细察原因，最后取得了第一名的效果。“我们比第二名的效果相比于基础模型提升了5倍”。该团队自豪地讲道。

“通过比赛，我们也深切感受到团队协作的重要性，通过不断地头脑风暴，才能逐步实现1+1大于2的效果。”该团队表示，“同时我们也意识到，尽管现在有很多开源模型可以使用，但思维应该是创新性的，不能止于此。我们应该求真务实、脚踏实地，一步步实现自己的算法，实现自己的目标。”

因为，“变革，无时不刻不在发生。”就像本届大赛主题 “新搜索新奇点”，它所枪强调的是搜索技术的不断发展和创新，也代表着人们对于搜索的需求和方式也在不断变化。“我们需要不断创新和探索新的搜索技术来满足用户的需求。”上述团队表示，“只有不断地探索和创新，我们才能让搜索变得更加智能化、更加精准便捷化。”

关键词：

向“可控图片生成算法挑战”！未来的世界是属于大模型的时代

推荐阅读