建筑AIGC的热潮已经发生一个月,在这一个月,图像生成技术继续迅猛发展,以ControlNet的诞生为标志而进入了崭新阶段、更加精细化的构成控制能力成为可能。
除了造型灵感、草图深化、出图渲染这三类直观行业应用之外,AIGC图像技术还能如何更加创造性地嵌入建筑研究和实践过程中?目前开源的建筑AIGC模型效果如何?设计平台还存在哪些普遍性的不足?未来的技术发展方向又是什么?
本文从Prompt工程的角度切入回答上述问题。我们决定于近期将调教好的Sengine模型无偿分享给诸位,希望能为日渐繁荣、百花齐放的中文建筑AIGC社区做出我们的独特贡献。各位的关注转发是我们的不懈动力。
市场主流模型PK
信息整合
传统的设计呈现逻辑是设计意向——资料搜集——草图——建模——渲染。
而新的逻辑是设计意向——(草图)——渲染。
这件事情的革命性意义在于,AIGC其实避免了资料搜集、建模阶段造成的大量信息损失,并解放这部分生产力。在职建筑师都有体会,所谓的设计工作中大量其实都是资料搜集和建模。
从信息广度来说,建筑师日常资料搜集主要集中在谷德、ArchDaily、Dezeen、Pinterest等几个主流平台,广度有限,且人力在每次搜索时不可能穷尽。但是一个巨型神经网络模型,却可以事先包含所有资料,并且自动归纳总结规律、合并类似数据。目前一个StableDiffusion模型大小在5G左右,却囊括了互联网各种主题的海量图库,非有极强的归纳能力(特征提取、语义提炼能力)是无法做到的。
信息检索——Prompt工程
理论上说,StableDiffusion中已经潜在地涵盖了世间建筑大部分风格的高质量图像,但是要想让模型“听话”,依然是一件困难的事。
如何从深远的神经网络潜空间中检索到我们想要的语义和高质量图像,这已成为独立的课题叫做“Prompt工程”。在调校的非常好的模型里面,例如MidJourney,它对prompt的要求极低,甚至输入乱码也可以出来质量的图像。(乱码产出的图像反映了模型潜空间的“平均值”,是一种监测模型bias的巧妙方法)可以看出,MidJourney主要针对的是人像艺术画,这是它训练数据最多,效果最好的领域。
请登录后查看评论内容