10 Generative AI ด้าน Image และ Video ที่สะเทือนต่อโลกมากที่สุดในปี 2025

กลับมาแล้วหลังจากหายไปนานกับการทำเพจ วันนี้อยากให้ย้อนกลับไปว่า Generative AI ในปี 2025 เกิดอะไรขึ้นบ้างที่แน่ ๆ เพราะว่ามีการออก Model ใหม่ ๆ แทบจะตลอดเวลาจนไม่ได้ลองทั้งหมด มีทั้ง Close Source และ Open Source และปีนี้แต่ละอย่างออกมาเรียกว่าเติบโตแบบ Exponential เลย และสักพักก็จะมีการก๊อปออกมาแล้ว Open Source ใส่อีก ทำให้ปีนี้เป็นปีที่สนุกไปอีกสำหรับวงการ Generative AI แต่ก็ทำให้เกิดความ กังวลมากมายเช่นกัน ที่ทำให้ไม่รู้ว่าอนาคตจะเกิดอะไรขึ้นกับคนเรา ต้องติดตามกันต่อไป

บทความนี้จะเป็นแค่การรวม 10 Generative AI Model + รางวัลชมเชย โดยมาจากความเห็นส่วนตัวของผู้เขียนเท่านั้น

1. OpenAI เปิดตัว GPT Image-1 จุดเริ่มต้นการแก้ไขภาพ และการเข้าถึงของการเจนภาพที่ง่ายขึ้น

ณ วันที่ปล่อยออกมา OpenAI ทำให้เกิดกระแสนึงคือ Ghibli Style ที่ทุกคนแห่กันเล่นจนแม้กระทั่ง Sam Altman CEO OpenAI ยังเปลี่ยนรูป profile เป็น style นี้ตาม และกำเนิดกระแสมากมายเช่นการทำ art toy การทำ Design ต่าง ๆ ที่พิมพ์เป็นภาษาอะไรก็ได้แล้วก็ออกมาเลย กระแสนี้ทำจนการ์ดจอไม่พอจน CEO ร้องขอเลย

2. Google Veo 3 ราคาแรง คุณภาพแรงตาม พร้อมเสียง

Veo 3 เครื่องมือที่ตอนนั้นยอมมุด VPN กันไปเล่น Veo 3 เพื่อได้เล่นเครื่องมือที่ทำ Text To Video และ Image To Video ที่ได้เสียงออกมาด้วย แถมพูดได้หลายภาษาอีก และคุณภาพ ฟิสิกส์ที่ได้ บางคนบอกนี่มันระดับ Cinematic ชัด ๆ

3. Midjourney V7 + Midjourney Video เมื่อเจ้าใหญ่ลงสนามและทำให้จบใน Platfrom เดียวได้

ถึง Midjourney V7 จะไม่ได้สร้างกระแสอะไรมากมาย แต่ Midjourney Video คือเป็นจุดกำเนิดการทำ Image To Video แบบง่าย ๆ ได้ และสามารถทำได้ง่ายโดยการกดเพียงคลิ๊กเดียว และราคาที่สมเหตุสมผลด้วย

4. Nano Banana จาก Codename ของ Google กลายเป็นกระแสการแก้ไขรูป การสร้างรูปที่ได้ดั่งใจที่สุด จนเป็นกระแสในปัจจุบัน

ถ้าจะบอกว่า GPT Image 1 ว่าเป็นเทรนแล้ว เจอ Nano Banana เข้าไปคือ ตอนนี้เจนภาพที่นี่ไม่หยุดเลย ทั้งกระแส figure, กระแสเทรนต่าง ๆ ที่ทำตามได้ง่ายเพียงแค่ใช้ gemini จนตอนนี้หยุดไม่อยู่กันแล้ว และกลายเป็น Generative AI ที่เต็มฟีตสุด ๆ ณ ตอนนี้

5. Sora 2 มากกว่า AI Video เพราะนี่คือ Social Media

ถ้า Nano Banana คือที่สุดด้าน Image แต่ Sora 2 คือที่สุดด้าน Video จนมีแอป Social Media ที่ให้ผู้ใช้มาเล่น Sora 2 ที่เจน Video ได้ยาว 10-25 วินาที พร้อมเสียงอีก และได้คลิปฟีล Short Vertical Video มาอีกด้วย แถมมีฟีเจอร์ Cameo ที่ให้เอา Reference ให้ไปอยู่ใน AI Video ได้อีก

6. WAN Video จุดกำเนิด Open Source AI Video อย่างแท้จริง

Alibaba ปล่อย WAN 2.1, WAN 2.2 ที่ปล่อยมาแล้วชาว community Open Source AI มาใช้จนทำให้เกิด use case มากมายจาก Model นี้จนมี tools งอกออกมาเป็น 10 เช่น lipsync, control camera เป็นต้น และยัง fine tuned ที่ทำให้ได้ concept ตามที่ต้องการอีก

ต้องขอบคุณ ComfyUI และ Kijai ที่ผลิต tools จนแทบตามกันไม่ทันแล้ว

7. Qwen Image Open Source AI Image ที่คุณภาพชน Bytedance Seedream 3.0 ได้

ถ้าถามว่า Open Source ฝั่งรูปภาพต้องใคร Alibaba Qwen Image เท่านั้น ทั้งการ edit image และ txt2img มาแปร๊บเดียว fine tuned ได้ ทำภาพใหญ่ได้ และมี text encoder ที่เข้าใจภาษาไทยได้อีก (อังกฤษและจีนได้อยู่แล้ว) ส่วนคุณภาพก็คือมีแต่คนบอกว่านี่ Seedance 3.0 + Imagen 4 ชัด ๆ

8. Grok Imagine เจนภาพ เจน Video ฟรี แบบให้เยอะมาก ๆ แถม Spicy ได้อีก

Grok Imagine เป็น AI ตัวนึงที่แค่แบบฟรีได้อะไรที่เยอะมากแล้ว แถม filter เข้มน้อยสุดแล้วถ้าเทียบกันกับ Close Source อื่น ๆ แถมใช้งานง่าย เจนภาพ อัพโหลดภาพ แล้วกดไม่กี่คลิกก็ได้ล่ะ video หรือ image

9. Bytedance Seed ทั้งหลาย Seedream Seedance Seededit จากผู้สร้าง Tiktok มาเป็นหัวแถว AI Image + Video ฝั่งจีน

Seedream 3.0 โมเดลที่อยู่ดี ๆ ขึ้นที่ 1 ใน AI Image Arena แล้วพอใช้ทุกคนแบบว้าววววววว กันไปหมด แล้วต่อมาปล่อย Seedance 1.0 อีกที่ขยับ motion video อะไรที่ทำได้ง่ายและตรงตามใจแถมได้ Full HD อีก สุดท้ายมีตัว 4.0 ออกมามีทั้ง text to image และ edit image อีก ซึ่งกระแสอาจตกลงหน่อยแต่ก็ยังโหดอยู่ดี

10. Flux.1 Kontext ความหวังของ BFL ที่มาแปร๊บเดียวแล้วก็โดนเกทับไป

เมื่อกระแสของ GPT Image 1 เริ่มมีคนบอกว่าทำไมหน้าเพี้ยน ภาพโดยรวมเพี้ยน เจอ Flux.1 Kontext ออกไปคือ หน้าเพี้ยนน้อย แก้ไขภาพเฉพาะจุดจริง ๆ แถม .... มีตัว dev ที่เทรน LoRA ได้อีก เรื่องบันเทิงเลยเริ่มจาก Model นี้เลย แต่แปร๊บ ๆ โดน Qwen Image Edit เกทับไปแล้วกระแสก็หายไปเลยในที่สุด

Honorable Mention ที่ไม่อยู่ใน 10 อย่างแต่น่าสนใจ

Chroma โมเดลที่คนเรียกว่า Pony Version Flux
Pony V7 เทรนมานานเป็นปีแต่ก็ผิดหวังอยู่ดี
Lumina 2 โมเดลเล็ก แต่ Fine Tuned ได้ง่ายจนเก่ง
Nvidia Cosmos เมื่อผู้ผลิตการ์ดจอสร้าง Model ของตัวเอง
Illustrious v2-v3-v3.5-v3.6 เป็นต้นไปโมเดลสาย Anime ที่กลายเป็นว่าคนกลับไปใช้ Version 0.1 อยู่ดี

สรุป

ปีนี้เป็นปีที่ AI Image, Video โตเร็วมาก ๆ จน know how หลาย ๆ อย่าง เรียนวันนี้พรุ่งนี้ตกกระป๋องแล้ว ไปไวมากจริง ๆ จนปีหน้าก็ยังคงนึกไม่ออกว่าจะมีอะไรให้ว้าวอีก ทั้งฝั่ง close source และ open source

Reference

xAI เปิดตัว Grok Imagine https://www.blognone.com/node/147675
Alibaba เปิดตัว Wan2.1 + Wan2.2 จุดกำเนิดการทำ AI Video Open Source ที่ทำให้เกิดเครื่องมือมากมายในการทำ Video https://github.com/Wan-Video/Wan2.1/
OpenAI เปิดตัว chatgpt 4o Image Generation พร้อมกระแส Ghibli ที่เล่นกันเต็ม Social https://www.blognone.com/node/145471
Midjourney V7 https://www.blognone.com/node/145676
Veo 3 https://www.blognone.com/node/146519
Nano Banana https://gemini.google/overview/image-generation/
Sora 2 https://openai.com/index/sora-2/
Flux.1 Kontext https://bfl.ai/models/flux-kontext
QWEN Image https://huggingface.co/Qwen/Qwen-Image
Bytedance Seedream 3.0 + 4.0, Seedance 1.0 https://seed.bytedance.com/en/tech/seedream3_0 https://seed.bytedance.com/en/seedream4_0 https://seed.bytedance.com/en/seedance