บทสัมภาษณ์นี้แปลจาก https://www.latent.space/p/comfyui โดยจะเน้นไปที่สิ่งที่สำคัญและน่าสนใจเป็นหลัก

จากคนที่เป็น Software Engineer ที่ทำเว็บและระบบ Automation ในบริษัทเล็กๆ เป็นหลัก แล้วถูกจ้างโดย StabilityAI และกลายมาเป็นผู้สร้าง ComfyUI จนกลายเป็นที่โด่งดังในวงการ AI Image ได้อย่างไรมาดูกันเลยนะครับ

ก่อนจะมาเป็น ComfyUI ทำไมถึงมาสนใจเรื่องของ Text 2 Image

Comfy : ตอนช่วง ตุลาคม 2022 ผมได้ค้นเจอ Stable Diffusion และตอนนั้นก็ยังใช้ตัว Automatic 1111 (Stable Diffusion WebUI) อยู่ ตอนนั้นก็เลยสงสัยว่า pytorch มันเขียนยังไง แล้ว Stable Diffusion มันทำงานยังไง ก็เลยได้ลองเขียน code python และใช้งาน library pytorch เป็นครั้งแรกเลย ง่ายๆ เลยเริ่มจาก Hi-Res Fix ที่บอกว่า Latent Diffusion Model ทำได้แค่ภาพเล็กๆ แล้วพอจะทำภาพใหญ่ๆ มันทำยังไงด้วยความสงสัยก็เลย ลองเพิ่มอะไรไปนิดๆ หน่อย แบบปรับ steps, sampler, แปร๊บๆ อ่าวมันแค่นี้เองหรอเนี่ย (จริงๆ ตอนนั้นทำเป็นเหมือนกับ auto code) แต่ตอนนั้นยังไม่ดีพอ เลยลองเขียน User Interface แบบจริงจัง แล้วก็เลยได้ ComfyUI ออกมาในวันที่ 16 มกราคม 2023

ทำไมถึงชื่อ ComfyUI?

Comfy : ฉันชื่อ Comfy คนคิดว่ารูปของฉันดู Comfy เปล่าจริงๆ คือตั้งตามชื่อตัวเอง (ComfyUI) ก็ตามนั้นอะ

Target user ของคุณคือใคร?

Comfy : คนที่ชอบการทดลองอะไรใหม่ๆ เช่นการต่อหลายๆ model (checkpoints) พร้อมกัน, การแบ่ง area โดยมี prompt ที่แตกต่างกัน

ภาพที่แบ่ง prompt 4 ส่วน 2 checkpoints credit

เคยคุยกับ Robin Rombach 1 ในทีมงาน stabilityAI มั้ย?

Comfy : อ่ออ เคยทำงานที่นั่นด้วยซ้ำ เค้าจ้างผมตอน มิถุนายน 2023 ตอนนั้นเค้าให้ลองเอา model SDXL โดยตอนนั้นมี Refiner กับ Base มาต่อกัน แล้วดูว่ามันได้ผลลัพธ์เป็นอย่างไร ซึ่งผลลัพธ์ก็ดีขึ้น แต่สุดท้ายก็ใช้ base เต็มๆ กันอยู่ดี

คุณคิดว่า model SD ตัวไหนที่ถูกมองข้ามมากที่สุด เพราะว่าตอนนี้ Flux ก็มาแรงมากๆ จนเบียด SD ไปเหมือนกัน

Comfy : SD3.5 นั่นแหล่ะ มีทั้ง Medium 2.5 พันล้าน parameters, กับ Large 8 พันล้าน parameters ผมก็อยากให้พวกคุณลอง SD3.5 นะ ผมไม่พูดนะว่าดีกว่า แต่มีบางกรณี (use-case) ที่ดีกว่าอยู่ แบบความ creative แต่ถ้าเอาคุณภาพนิ่งๆ ก็ Flux นั่นแหล่ะ

การเปลี่ยนผ่านระหว่าง SD1 ไป SD2 และ SD2 ไป SD3 คุณคิดว่ามันมีอะไรโดดเด่นขึ้นมามากพอมั้ยในแต่ละช่วง

Comfy : จากที่เห็นคือ SD2 model แทบไม่เปลี่ยนเลยแถมโดนเมินเยอะสุดอีก แถมอีกอย่างคือ Stable Cascade ที่ปล่อยก่อน SD3 1 อาทิตย์ แล้วพอ SD3 มาคือ Stable Cascade หายไปเลย

ทำไม SD3 ถึงปล่อยมาแบบนั้น

Comfy : หลังจากก้าวกระโดดจาก SDXL แต่ก็หายไปหมดกับ SD3 เพราะว่าผู้ใช้เลือกที่จะเมินเพราะว่าบางอย่าง และก็พัฒนาโดยคนละนักวิจัยด้วย

กลับมาที่ ComfyUI แล้วทำไมถึงไม่ทำ UI ที่ง่ายๆ ขึ้นมาเหมือนกับ UI อื่นๆ

Comfy : ผมแค่ไม่ชอบที่ทุกๆ คนทำ (เน้นให้ใช้ง่าย) ผมเลยทำ UI ที่ทรงพลังที่ไม่ได้ใช้ง่ายเลย

กระแส ComfyUI ตอนนั้นมาได้ยังไง

Comfy : มาจากผมทำ workflow ภาพที่แบ่ง prompt 4 ส่วน 2 checkpoints ลง Reddit แล้วมี youtuber Olivio Sarikas มาทำคลิปเกี่ยวกับ ComfyUI และก็เริ่มจาก SDXL ตอนนั้นมีให้ใช้งานผ่าน streamlit ui โดยมี code ที่ให้ใช้เจนออกก่อน แต่ตัว model sdxl ต้องมีอีเมลเพื่อการศึกษา (edu email) ถึงจะได้ตัว model ออกมาถึงจะได้ SDXL 0.9 base และ refiner แต่สุดท้าย หลุด ซึ่งตอนนั้นผมก็ได้ทำ ComfyUI ให้รองรับไว้แล้ว (code จาก github SDXL นั่นแหล่ะ) ซึ่งก็มีคนมาแจ้งปัญหาบ้างก่อนที่จะ SDXL 1.0 ออกมา แล้วก็คนก็แห่มาใช้ ComfyUI มาเลยเพราะว่าไม่มีทางเลือก

เกี่ยวกับ ComfyOrg

Comfy : ในจุดนี้ผมก็ได้จ้างในส่วนของ frontend และ backend มาเข้าทีมและก็ช่วยกันทำตัว desktop application ออกมาทั้ง windows และ mac

สรุปจากที่สัมภาษณ์ทั้งหมด

ComfyUI ไม่ใช่ UI แต่มันคือ runtime ที่ใช้ทำระบบ automation โดยอาจจะต่อยอดไปได้มากกว่าเจนภาพ บางทีเหมือนกับการทำ AI Engineering มาประยุกต์กับ Art ได้

สถานะ Repo ปัจจุบัน

อ่านแนวทางของ ComfyUI เพิ่มเติม + บทสัมภาษณ์เต็มๆ

ในบทสัมภาษณ์จะเห็นหน้า Comfy ด้วย

https://www.youtube.com/watch?v=Hc31HotThA0 (ในนี้มีพูดถึง textual inversion กับ LoRA และ custom nodes ด้วย)
https://blog.comfy.org/p/comfyui-turns-2-a-journey-and-call
https://www.youtube.com/watch?v=H1mjUmNubN8 (meetup ที่พูดถึงแนวทางในปี 2025 ComfyUI ยังคงฟรีต่อไป)

แถม

Comfy บอกว่า Textual Inversion มันก็คือเทรน Text Encoder งั้นแสดงว่า ถ้าเทรน T5XXL อันนี้คือใช้ได้หลายโมเดลเลยนะ แต่ประสิทธิภาพคงไม่ได้ดีขนาดนั้นเพราะว่า SD3.5 มี 3 CLIP, FLUX 2 CLIP

เรียบเรียงโดย vjumpkung