![]() |
Google เพิ่งเปิดตัวฟีเจอร์การสร้างภาพดั้งเดิมจากโมเดลภาษา Flash Gemini 2.0 อย่างกว้างขวาง ด้วยความสามารถนี้ โมเดลสามารถสร้างและแก้ไขรูปภาพที่มีอยู่ตามข้อความที่ป้อนได้ รูปภาพ: Google . |
![]() |
ต่างจากเครื่องมือสร้างภาพอื่นๆ ที่รวมการสร้างแบบจำลองการแพร่กระจายเข้ากับการสร้างแบบจำลองภาษาขนาดใหญ่ (LLM) Gemini 2.0 Flash เป็นระบบหลายโหมด สามารถจัดการอินพุตและเอาต์พุตในหลายรูปแบบ (ข้อความ เสียง รูปภาพ เป็นต้น) ในทางทฤษฎี เทคนิคนี้ช่วยปรับปรุงคุณภาพของภาพ ช่วยให้เครื่องมือเข้าใจบริบท และแก้ไขต่อภายในบทสนทนาเดียวกันได้ รูปภาพ: Google . |
![]() |
หากต้องการทดลองใช้เครื่องมือนี้ ผู้ใช้และนักพัฒนาต้องไปที่ Google AI Studio แล้วเปลี่ยนไปใช้โมเดล การทดลอง Gemini 2.0 Flash (การสร้างภาพ) ในส่วนรูปแบบเอาต์พุต ให้เลือก รูปภาพและข้อความ พื้นที่โต้ตอบเครื่องมือจะอยู่ตรงกลางหน้าจอ ด้านล่างนี้เป็นคุณสมบัติหลักบางประการของ Gemini 2.0 Flash |
![]() |
สร้างรูปภาพและข้อความในเวลาเดียวกัน ตามที่ Google ระบุ Gemini 2.0 Flash รองรับการสร้างข้อความและรูปภาพในเวลาเดียวกัน ตัวอย่างเช่น อาจขอให้โมเดลเล่าเรื่องราวและวาดภาพประกอบ ตามประสบการณ์ของฉัน ความเร็วในการสร้างภาพและข้อความค่อนข้างเร็ว โดยเฉลี่ยอยู่ที่ 5-10 วินาทีต่อภาพ (ขึ้นอยู่กับความยาวและความซับซ้อน) |
![]() |
แก้ไขรูปภาพในบทสนทนาเดียวกัน Gemini 2.0 Flash รองรับการตอบรับและการแก้ไขรูปภาพด้วยการทำความเข้าใจบริบท หากคุณไม่พอใจกับสี วัตถุ หรือรายละเอียดใด ๆ ในภาพถ่าย เพียงแค่ป้อนคำสั่งเพื่อเปลี่ยนเครื่องมือโดยไม่ส่งผลกระทบต่อองค์ประกอบอื่น ๆ |
![]() |
แก้ไขรูปภาพที่มีอยู่ ในทำนองเดียวกัน เพียงอัปโหลดรูปภาพใดๆ เพื่อขอให้เครื่องมือแก้ไขรายละเอียดในภาพ เช่น เปลี่ยนสี เพิ่มวัตถุ หรือปรับพื้นหลัง ผู้ใช้สามารถให้ข้อเสนอแนะอย่างต่อเนื่องจนกว่าเครื่องมือจะผลิตผลลัพธ์ที่น่าพอใจ |
![]() ![]() |
แยกวัตถุ . ความสามารถในการแยกวัตถุของ Gemini 2.0 Flash ค่อนข้างดี แต่ยังคงมีจุดอ่อนที่เกี่ยวกับมือมนุษย์อยู่ เครื่องมือนี้เข้าใจความหมายของภาษาเวียดนาม ทำให้สามารถแยกและแทนที่พื้นหลังตามหัวข้อต่างๆ มากมายได้ |
![]() ![]() |
ขยาย/เปลี่ยนฉาก ... ในกรณีนี้ ผู้ใช้สามารถขอให้เครื่องมือย่อขนาดภาพที่มีอยู่โดยเติมช่องว่างด้วยฉากใหม่ตามคำอธิบาย เนื่องจากยังอยู่ในช่วงเบต้า เครื่องมือจึงอาจขัดข้องหรือไม่สร้างภาพที่ต้องการได้ |
![]() |
สร้างภาพด้วยข้อความหลายๆอัน ตามที่ Google ระบุ Gemini 2.0 Flash สามารถสร้างรูปภาพที่มีข้อความยาวๆ ได้โดยไม่เกิดการสะกดผิดหรือมีอักขระแปลกๆ นี่คือจุดอ่อนประการหนึ่งในโมเดลการสร้างภาพอื่นๆ อย่างไรก็ตาม จากประสบการณ์พบว่าภาษาเวียดนามยังคงอ่านยากในบางพื้นที่ เครื่องมือนี้ยังไม่สามารถแปลคำศัพท์เป็นข้อความโดยไม่มีคำแนะนำที่เจาะจงได้ |
![]() ![]() |
เพิ่มบุคคลลงในรูปภาพ เครื่องมือสำหรับเพิ่มบุคคลลงในรูปภาพที่มีอยู่โดยให้มีลักษณะที่ถูกต้องตามที่อธิบายไว้ เนื่องจากเป็นรุ่นเบต้าฟรี หัวข้อสนทนาแต่ละหัวข้อจึงจำกัดจำนวนโทเค็นได้ประมาณ 30,000 โทเค็น อย่างไรก็ตาม ผู้ใช้ไม่ต้องกังวล เพราะคำถาม/คำตอบหนึ่งข้อมีค่าใช้จ่ายเพียง 300-500 โทเค็นเท่านั้น ซึ่งไม่มากเกินไปหากเพียงแค่แก้ไขและสร้างรูปภาพพื้นฐาน |
![]() ![]() |
เปลี่ยนมุมการถ่ายภาพ ... ผู้ใช้สามารถขอเปลี่ยนมุมต่างๆ ของรูปภาพเดียวกันได้ แน่นอนว่าเครื่องมือนี้รองรับการปรับแต่งรายละเอียดต่าง ๆ จนกระทั่งสร้างภาพที่น่าพึงพอใจ |
![]() |
การขุดความรู้ ... ตามที่ Google ระบุ Gemini 2.0 Flash ได้รับการฝึกฝนด้วยความรู้จำนวนมากและมีความสามารถในการใช้เหตุผล ตัวอย่างเช่น คุณสามารถขอให้เครื่องมือคิดสูตรอาหารโดยอิงจากความรู้ที่มีอยู่ จากนั้นวาดภาพประกอบเพื่อให้เข้าใจง่ายขึ้น เช่นเดียวกับเครื่องมืออื่นๆ Google ระบุว่า Gemini 2.0 Flash เป็นเพียงความรู้ทั่วไปเท่านั้น ไม่ได้เจาะลึกหรือแม่นยำเกินไป |
![]() |
การใช้งานที่ยังมีข้อถกเถียง หลังจากมีการเผยแพร่อย่างแพร่หลาย ผู้คนจำนวนมากก็ได้ค้นพบว่า Gemini 2.0 Flash สามารถลบลายน้ำออกจากรูปภาพได้ ความเป็นไปได้นี้ไม่ได้รับการยอมรับจากเครื่องมือ AI เช่น GPT-4o เนื่องจากยังอยู่ในช่วงทดลอง Google น่าจะแก้ไขปัญหานี้ในอนาคตอันใกล้นี้ รูปภาพ : @deedydas/X . |
ที่มา: https://znews.vn/gemini-20-flash-lam-duoc-gi-post1539018.html
การแสดงความคิดเห็น (0)