Stable Diffusion History ตอนที่ 2 StabilityAI ปล่อยของใหม่ใช่ว่าจะดีเสมอไป

การพัฒนาครั้งยิ่งใหญ่ของ StabilityAI

จากที่ Stable Diffusion 1.5 ประสบความสำเร็จอย่างมาก บริษัท StabilityAI มีแนวคิดที่จะสร้าง Stable Diffusion ตัวใหม่ขึ้นมา โดยมี CLIP จาก LAION ที่เข้าใจ prompt มากขึ้น แต่มีจำนวน parameters เท่ากับ SD 1.5 (983 ล้าน) และใช้ dataset ขนาด 768x768 pixels ที่คัดภาพให้เหมาะสมขึ้นและนำภาพที่มีความเสี่ยงออกไปแล้ว และก็กลายมาเป็น Stable Diffusion 2.0
แต่การเปิดตัว Stable Diffusion 2.0 ได้เสียงตอบรับจากผู้ใช้แย่ลงกว่าเดิมมากเพราะว่า ไม่สามารถเจนภาพ nsfw ออกมาได้เลย เพราะว่าโดนป้องกันในระดับ CLIP ซึ่งหมายความว่า model ไม่เข้าใจ nsfw ใดๆ เลยทำให้เกิดความอิสระในการทำภาพน้อยลงไปมาก จนสุดท้ายผู้ใช้กลับไปใช้ Stable Diffusion 1.5 เหมือนเดิม เพราะว่าในตอนนั้น fine-tuned ต่างๆ เครื่องมือที่สร้าง มีเยอะมากๆ และ ได้ภาพที่มีคุณภาพสูงและมีความอิสระตามที่ต้องการของผู้ใช้งานได้
StabilityAI แก้เกมด้วยการปล่อย Stable Diffusion 2.1 ออกมาซึ่งเป็นการปรับแต่ง Stable Diffusion 2.0 และ CLIP โดยยังคงมีการป้องกัน nsfw อยู่แต่ว่าไม่ได้เข้มงวดเท่า Stable Diffusion 2.0 แต่ก็ไม่สามารถดึงดูดให้ผู้ใช้กลับมาใช้งานได้ เพราะว่า คุณภาพของรูปภาพที่ออกมาถ้าเทียบกับ Stable Diffusion 1.5 ดีกว่าเพียงนิดเดียว

XL แปลว่าใหญ่พิเศษ = กินสเปคมากขึ้น

กลางๆ ปี 2023 StabilityAI ได้พัฒนา model ครั้งใหม่นี้คือเพิ่มจำนวน parameters เป็น 3500 ล้าน และใช้ขนาดของ dataset เป็น 1024x1024 pixels ทำให้ภาพมีคุณภาพดีขึ้น ชัดขึ้น เริ่มเจนตัวอักษรได้ตรง และ ปรับปรุง clip ที่ให้เข้าใจ prompt มากขึ้น ด้วยคำบรรยายแบบง่ายๆ ก็ได้รูปสวยๆ ออกมาแล้ว แต่สิ่งที่ทำขึ้นมาต้องแลกกับว่า model มีขนาดใหญ่ขึ้นและต้องการ GPU ที่มี vram เยอะขึ้น
หลังจากการปล่อย SDXL 1.0 อย่างเป็นทางการ StabilityAI มีการสื่อสารกับ Community มากขึ้นทำให้มีผู้ใช้เข้ามาใช้งานมากขึ้นและเกิด fine-tuned mode, tools ต่างๆ ขึ้นมาอย่างรวดเร็ว ถึงแม้ว่าจะไม่ได้ดังเท่าในช่วง Stable Diffusion 1.5 แล้วการใช้งาน SDXL ก็ถือว่าพอมีกระแสอยู่ และ Fine Tuned ตัวหนึ่ง (Pony) ที่ทำให้ SDXL กลายเป็นหนึ่งในตัวเลือกที่ดีตัวหนึ่งเลย

เมื่อ StabiltiyAI ต้องการเงิน และ นวัตกรรมใหม่ในเวลาพร้อมกัน

จากการปล่อย model ดีๆ ให้แบบฟรีๆ และ สร้างรายได้จาก DreamStudio นั้นไม่เพียงพอ และ การที่ต้องการเงินจากนักลงทุนนั้นก็เริ่มหมดแล้วด้วย ซึ่ง model ที่ผ่านมาก็ต้องปล่อยไป แต่ StabilityAI ได้ค้นพบเทคนิค Diffusion Model ใหม่ ที่ทำให้การเจนภาพ เข้าใจ prompt มากขึ้น สมจริงขึ้น มี detail มากขึ้นได้ เรียกว่า MMDiT และ คำว่า DiT นี่แหล่ะ จะมา breakthrough การเจนภาพอีกครั้ง แต่ก็แลกกับจำนวน Parameters ที่ใหญ่ขึ้นเป็น 8 พันล้าน และ ต้องใช้การ์ดจอที่มี vram เพิ่มขึ้น
หลังจากการเปิดตัว Stable Diffusion 3 มีทีมงานทั้งหมด 17 คน เพิ่มจากเดิม 8 คนตอน SDXL ในตอนแรกผู้ใช้ตื่นเต้นมากเพราะว่า ภาพตัวอย่างที่ปล่อยออกมา มีตัวอักษรภาษาอังกฤษที่ชัดเจน ครบถ้วน และ ทำภาพได้เหมือนจริงเนียนตาขึ้น และ มีการจับตามองเป็นอย่างมาก
แต่การเปิดให้ ใช้งานในช่วงมิถุนายน 2024 กลับกลายเป็นว่า StabilityAI ให้ model ที่ดีที่สุด เรียกว่า SD3 Ultra ให้ใช้ผ่าน API อย่างเดียว ซึ่งต้องจ่ายตังค์ หมายถึงไม่มีให้ Download และ ปล่อยตัว SD3 Medium แทน และ มีลิขสิทธิ์โมเดลที่อ่านแล้วปวดหัวหนักกว่าเดิม เช่นให้เจนภาพได้แค่ 6000 รูปต่อเดือน สำหรับ model ที่เอาไป fine tuned และ หากต้องการใช้มากกว่านั้นต้องเสียค่าลิขสิทธิ์ในราคา 20 ดอลลาร์ ต่อเดือน
การที่มีลิขสิทธิ์การใช้งานที่น่าปวดหัวที่แม้กระทั่งคนเขียนยังกุมขมับ และ เมื่อมีการนำ SD3 Medium ไปทดลองใช้งานก็เจอปัญหาใหญ่อีกคือ ทำภาพ nsfw ไม่ได้อีกแล้ว และ civitAI แบน SD3 ไม่ให้ลงในเว็บอีกเพราะกลัวปัญหาลิขสิทธิ์
StabilityAI ออกมาแก้ปัญหาด้วยการอัพเดทข้อกำหนดใหม่คือ หากมีการทำเงินถึง 1 ล้าน ดอลลาร์ ให้จ่ายค่าลิขสิทธิ์แทน จึงทำให้ CivitAI ปลดแบน SD3 แต่ก็สายไปแล้ว สำหรับ community ที่จะนำ model มา fine-tuned และ สร้างเครื่องมือต่างๆ สำหรับ SD3 เพราะว่าถอดใจกันไปหมดแล้ว

เมื่อเกิดวิกฤติ พลังมิตรภาพจึงเกิดขึ้น

ช่วงต้นปี (มีนาคม 2024) CEO ลาออก บริษัท StabilityAI ขาดทุนหนัก เงินสดไม่มี ปลดพนักงานอีก การพัฒนา model ต่างๆ ก็อาจจะทำให้ติดขัดได้ และสิ่งนี้ทำให้เกิดบริษัทใหม่ที่ชื่อว่า Black Forest Labs
Black Forest Labs มาจากทีมสร้าง "Stable Diffusion 3" 14 คนจากทั้งหมด 17 คน ได้เงินระดมทุนได้ 30 ล้านดอลลาร์ โดยมีเป้าหมายคือสร้าง model เจนภาพ/วิดิโอที่ดีที่สุดออกมา
ในเดือนสิงหาคม 2024 ก็ได้เปิดตัว model เจนภาพออกมาชื่อ Flux.1 ที่่มีความทรงพลังสูงมาก จำนวน parameters ที่มหาศาล (สูงสุด 1.2 หมื่นล้าน) และมีออกมาทั้งหมด 3 version คือ pro จะให้ใช้งานผ่าน API เท่านั้น, dev และ schnell ปล่อยให้ download ฟรีๆ ข้อจำกัดหลักๆ คือ dev ใช้งานเชิงพาณิชย์ไม่ได้ แต่ schnell ใช้ได้อิสระโดยห้ามเปลี่ยนลิขสิทธิ์ของโมเดล
คุณภาพของโมเดลที่ออกมาทำให้เรียกเสียงฮือฮามากๆ แบบดังพลุแตกอีกครั้งเพราะว่า เป็น model ที่มีให้ download ใช้งานบน pc ส่วนตัวได้ และ เจนภาพตรงตาม prompt มากๆ และ ตัวอักษรสวยงามตรงตามบรรยายแบบสุดๆ จนทุกคนที่เล่น AI เจนภาพต้องมาลอง
การที่เกิดกระแส Flux การ fine-tuned และ tools ต่างๆ เกิดขึ้นอย่างรวดเร็วมากๆ ทั้งการลดขนาด model ให้เข้าถึงได้ง่ายขึ้น และ ทำให้เจนภาพ nsfw ผ่านการ train dataset เพิ่มเข้าไป ทำให้กระแสของการเจนภาพบน pc ไปได้ไกลอีกครั้งเทียบเคียงกับสมัย Stable Diffusion 1.5 บูมขึ้นมา

จบไปแล้วสำหรับ Stable Diffusion History ตอนที่ 2 ยาวกว่าที่คิดไว้เลย สำหรับ Stable Diffusion History ตอนที่ 3 รอติดตามเรื่องของการ fine-tuned model แต่ละแบบเลย ซึ่งอาจจะไม่ได้เรียงตามเวลาแล้วนะครับ ขอบคุณครับ