NoobAI-XL โมเดลที่อาจจะดีกว่า Illustrious-XL?

หลังจากที่ได้เห็นว่า CivitAI ได้แยก NoobAI-XL ออกมาเป็นประเภทของ base model อีก 1 ซึ่งจริงๆ มีการพัฒนาสำเร็จและได้ปล่อย version 1.0 ตั้งแต่ช่วงคริสต์มาสปีที่แล้ว แต่ก็พึ่งได้แยกประเภทออกมา

NoobAI คืออะไร ?

NoobAI คือโมเดลที่เป็นการ Fine Tuned ของ SDXL อีกทีหนึ่งโดยเป็นการพัฒนาต่อจาก IllustriousXL v0.1 จาก Onoma AI Research โดยมี 2 version คือ eps-prediction กับ v-prediction การ Fine Tuned ทั้งหมดมาจาก Laxhar Lab จากประเทศจีน และมีการ Fine Tuned ต่อด้วยการนำ Dataset จาก Danbooru จนถึงวันที่ 2024-10-23 และ E621 2024 ทำให้โมเดลนี้มีความสามารถทั้งการสร้างรูปภาพ 2D Anime และ Furry ได้อย่างมีประสิทธิภาพ โมเดลนี้ถูกฝึกทั้งรูปแบบของ tag และ บรรยาย (โดย tag อาจจะดีกว่า)

Link Download Model

https://civitai.com/models/833294/noobai-xl-nai-xl?modelVersionId=1190596

eps-prediction กับ v-prediction ต่างกันอย่างไร

ในปกติโมเดล SDXL ในการ Fine-Tuned จะใช้วิธี eps-prediction ในการคำนวณ loss เพื่อปรับแต่งโมเดลให้ได้คุณภาพที่ดียิ่งขึ้น แต่ v-prediction เป็นอีกวิธีหนึ่งในการปรับแต่งโมเดลและทำให้การเจนภาพ ออกมาต้องเปลี่ยนวิธีการ denoise ของรูปภาพด้วยเพราะว่าเรียนรู้มาด้วยคนละวิธีการกัน โดยผู้สร้างบอกว่าทำให้ภาพมีความตรง prompt มากขึ้น และ ทำภาพได้หลากหลาย style มากขึ้น

หมายเหตุ : eps-version สามารถใช้งานได้กับทุกๆ ui ที่มี

ความโดดเด่นของ NoobAI

รู้จักตัวละครเยอะที่สุดเท่าที่เคยมีมา โดยสามารถดูรายชื่อตัวละครได้จากทั้ง 2 dataset (โดยดูจำนวนรูปที่ได้รับมาด้วย ถ้าน้อยอาจจะทำให้ไม่สามารถเจนออกได้ หรือไม่สมบูรณ์)
รู้จัก prompt ทั้งปกติ และ NSFW เยอะมาก ๆ และมีความตรง prompt สูงระดับหนึ่ง (ไม่ถึงระดับ Flux)
ดูรายชื่อตัวละคร + Style ได้จาก https://huggingface.co/datasets/Laxhar/noob-wiki/tree/main
ทำภาพตัวละครมากกว่า 1 ตัวละครได้ง่ายขึ้น (แต่อาจจะมีอาการผสมกันบ้าง แยกไม่ออกบ้าง ต้องใช้ BREAK หรือว่า latent couple ในการเจนภาพ)

ตัวอย่างเปรียบเทียบระหว่าง Pony, Illustrious, NoobAI (ภาพจาก text-to-image ล้วนๆ prompt เหมือนกันยกเว้น prompt คุณภาพ)

genshin impact, ganyu \(genshin impact\), 1girl, ahoge, bare shoulders, bell, black gloves, black leotard, 
blue hair, bodystocking, breasts, chinese clothes, closed mouth, cloud, cloudy sky, day, detached collar, 
detached sleeves, flower, foot out of frame, gloves, goat horns, gold trim, grass, hair between eyes, holding, 
holding flower, horns, leotard, leotard under clothes, long hair, looking at viewer, medium breasts, neck bell, 
outdoors, pantyhose, pelvic curtain, purple eyes, qingxin flower, sidelocks, sitting, sky, smile, solo, very long hair, 
vision \(genshin impact\), white sleeves, yokozuwari

หมายเหตุ ใช้ Checkpoint Merge ของคุณ WAI ที่ทำให้ได้ style ที่มีความคล้ายกันที่สุด

ข้อจำกัดของ NoobAI

สร้างตัวอักษรไม่ได้
base model ไม่มี default style ต้อง prompt style เข้าไปถึงภาพออกมาสวย
วิธีการใช้งานอาจยุ่งยากสำหรับมือใหม่ แต่มีให้เจนบน online บ้าง

ใช้งานกับโปรแกรมอะไรได้บ้าง (สำหรับ version v-prediction)

ComfyUI

สามารถทำได้โดยการต่อ node ModelSamplingDiscrete เพิ่มจาก load checkpoint
ตัวอย่าง workflow สามารถโหลดได้จาก Link นี้ ตัวชื่อ node เป็นภาษาจีนบางส่วนสามารถแก้ไขได้ด้วยการ recreate node

reForge

สามารถใช้งานได้เลย

WebUI (A1111)

ต้องสลับ branch ไปเป็น dev ได้ด้วยการ

git switch dev

git pull

WebUI Forge

เห็นว่ารองรับแล้ว (ไม่ชัวร์ 100%)

วิธีการ Prompt และการตั้งค่าต่างๆ (ใช้ได้กับโมเดลทั้ง base และ merge ส่วนมาก)

Parameters

CFG: 4 - 5
Steps: 28 ~ 35
Sampling Method: Euler
ความละเอียดภาพ : 1024x1024. เลือกได้จาก: 768x1344, 832x1216, 896x1152, 1024x1024, 1152x896, 1216x832, 1344x768

Prompts

ในการเรียง prompt สามารถเอา prompt คุณภาพไว้หน้าหรือหลังก็ได้ (ได้ผลลัพธ์เหมือนกัน)

prompt คุณภาพของภาพ

masterpiece, best quality, newest, absurdres, highres,

ต่อด้วย

<1girl/1boy/1other/...>, <character>, <series>, <style name>, <special tags>, <general tags>, <other tags>

Negative Prompt: (สามารถปรับแต่งได้ตามความสะดวก)

nsfw, worst quality, old, early, low quality, lowres, signature, username, 
logo, bad hands, mutated hands, mammal, anthro, 
furry, ambiguous form, feral, semi-anthro

tag อื่นๆ ที่ช่วยกำหนด style ได้

tag ปี ค.ศ.

old ใช้ year 2005-2010
early ใช้ year 2011-2014
mid ใช้ year 2014-2017
recent ใช้ year 2018-2020
newest ใช้ year 2021-2024

ตัวอย่าง (old)

Prompt

souryuu asuka langley, neon genesis evangelion, 1girl, blue eyes, hair between eyes, long hair, orange hair, brown hair, 
two side up, medium breasts, plugsuit, plugsuit, pilot suit, red bodysuit, interface headset, sitting on plastic chair, 
dark theme, holding longinus staff, year 2005, old, very awa, masterpiece, best quality, newest, highres, absurdres

Negative Prompt

worst quality, old, early, low quality, lowres, signature, username, logo, bad hands, mutated hands, mammal, anthro, 
furry, ambiguous form, feral, semi-anthro

ตัวอย่าง (newest)

Prompt

souryuu asuka langley, neon genesis evangelion, 1girl, blue eyes, hair between eyes, long hair, orange hair, brown hair, 
two side up, medium breasts, plugsuit, plugsuit, pilot suit, red bodysuit, interface headset, sitting on plastic chair, 
dark theme, holding longinus staff, year 2024, newest, very awa, masterpiece, best quality, newest, highres, absurdres

Negative Prompt

worst quality, old, early, low quality, lowres, signature, username, logo, bad hands, mutated hands, mammal, anthro, 
furry, ambiguous form, feral, semi-anthro

เปรียบเทียบ

ทำไมถึงควรใช้ checkpoint merge มากกว่า base model

เพราะว่า base model ไม่ได้มีการ train default style ทำให้ภาพออกมาไม่ได้ดีเท่าที่ควร การที่มีการเทรน style ไปในรูปแบบใดรูปแบบหนึ่งเป็นเหมือน default style ทำให้ได้ภาพที่คุณภาพดีได้ง่ายขึ้น
มีการทำข้ามไปทำสาย realistic ได้ด้วยโดยยังคงสามารถนำตัวละครไปทำภาพแนว cosplay เพื่อต่อยอดไปเป็นภาพที่หลากหลายรูปแบบได้ง่ายขึ้น

เปรียบเทียบ base vs merge

Link Checkpoint Merge ที่ใช้

https://civitai.com/models/989367/wai-shuffle-noob?modelVersionId=1494366

(จากคนสร้าง checkpoint IllustriousXL merge ที่ใช้เยอะที่สุด)

ภาพตัวอย่างจาก checkpoint merge ที่ใช้

ความเข้ากันได้ของ LoRA

LoRA ที่เทรนจาก Illustrious บางส่วน อาจจะใช้ไม่ได้ 100%
LoRA ที่เทรนจาก NoobAI-XL v-pred v1.0 (เทรนมาเฉพาะ)

การเทรน LoRA

เทรนด้วย kohya-ss GUI https://github.com/vjumpkung/kohya_ss (ในปัจจุบันในเว็บออนไลน์อาจจะยังมีให้เทรน NoobAI ไม่ครบถ้วน)

ต้องมีการต่อ paramters พิเศษ 2 ตัวคือ

--v_parameterization --zero_terminal_snr

Controlnet

มีให้ใช้งานโดยสามารถโหลดได้จาก https://civitai.com/models/929685

แถมเพิ่มเติม

Onoma ก็กำลังพัฒนา IllustriousXL V3.0 และ V3.5 โดยมีการนำ v-prediction มาใช้แก้ปัญหาภาพสีสดเกิน และ ทำให้ตรง prompt มากขึ้น สามารถดูรายละเอียดได้จาก https://www.illustrious-xl.ai/blog/8
Illustrious V1.0 และ V1.1 ปล่อย Base Model ให้ Download ฟรีเป็นที่เรียบร้อยแล้ว

Reference

*แถมภาพตัวละครมากกว่า 1