![]() |
أطلقت Google مؤخرًا على نطاق واسع ميزة إنشاء الصور الأصلية من نموذج لغة Gemini 2.0 Flash. بفضل هذه الإمكانية، يمكن للنموذج إنشاء الصور الموجودة وتحريرها استنادًا إلى النص المدخل. الصورة: جوجل . |
![]() |
على عكس أدوات التصوير الأخرى التي تجمع بين نمذجة الانتشار ونمذجة اللغة الكبيرة (LLM)، فإن Gemini 2.0 Flash متعدد الوسائط، وقادر على التعامل مع الإدخال والإخراج بتنسيقات متعددة (نص، صوت، صور، إلخ). من الناحية النظرية، تعمل هذه التقنية على تحسين جودة الصورة، وتسمح للأداة بفهم السياق، ومواصلة التحرير داخل نفس المحادثة. الصورة: جوجل . |
![]() |
لتجربة الأداة، يحتاج المستخدمون والمطورون إلى الانتقال إلى Google AI Studio، والتبديل إلى النموذج التجريبي Gemini 2.0 Flash (توليد الصور) . في قسم تنسيق الإخراج، حدد الصور والنص . تقع منطقة تفاعل الأداة في منتصف الشاشة. فيما يلي بعض الميزات الرئيسية لبرنامج Gemini 2.0 Flash. |
![]() |
إنشاء الصور والنصوص في نفس الوقت. وفقًا لـ Google، يدعم Gemini 2.0 Flash إنشاء النصوص والصور في نفس الوقت. على سبيل المثال، قد يُطلب من النموذج أن يروي قصة ويرسم الرسوم التوضيحية. في تجربتي، فإن سرعة إنشاء الصور والنصوص سريعة جدًا، في المتوسط 5-10 ثوانٍ/صورة (اعتمادًا على الطول والتعقيد). |
![]() |
تعديل الصور في نفس المحادثة . بفضل فهمه السياقي، يدعم Gemini 2.0 Flash الملاحظات وتحرير الصور. إذا لم تكن راضيًا عن اللون أو الكائن أو أي تفاصيل في الصورة، فما عليك سوى إدخال أمر لإجراء تغيير على الأداة دون التأثير على العناصر الأخرى. |
![]() |
تعديل الصور الموجودة . وبالمثل، ما عليك سوى تحميل أي صورة لطلب من الأداة تحرير التفاصيل في الصورة، مثل تغيير الألوان، أو إضافة كائنات، أو ضبط الخلفية. يمكن للمستخدمين تقديم تعليقات مستمرة حتى تنتج الأداة نتائج مرضية. |
![]() ![]() |
تقسيم الكائن . إن قدرة برنامج Gemini 2.0 Flash على فصل الكائنات جيدة جدًا، ولكن لا يزال هناك ضعف يتعلق بالأيدي البشرية. تفهم الأداة المعنى الفيتنامي، مما يسمح بفصل الخلفيات واستبدالها وفقًا للعديد من الموضوعات المختلفة. |
![]() ![]() |
توسيع/تغيير المشهد . في هذه الحالة، يمكن للمستخدم أن يطلب من الأداة تقليص حجم الصورة الموجودة، وملء الفجوة بمشهد جديد بناءً على الوصف. نظرًا لأنه لا يزال في مرحلة تجريبية، فإن الأداة تتعطل أحيانًا أو لا تولد الصورة المطلوبة. |
![]() |
إنشاء صورة تحتوي على نص متعدد . وفقًا لـ Google، يمكن لـ Gemini 2.0 Flash إنشاء صور تحتوي على نص طويل بدون أخطاء إملائية أو أحرف غريبة. وهذا هو أحد نقاط الضعف العديدة في نماذج التصوير الأخرى. ومع ذلك، تشير التجربة إلى أن اللغة الفيتنامية لا تزال صعبة القراءة في بعض الأماكن. ولا تستطيع الأداة أيضًا ترجمة الكلمات الموجودة في النص دون اقتراحات محددة. |
![]() ![]() |
إضافة الأشخاص إلى الصورة . أداة لإضافة الأشخاص إلى الصور الموجودة، بالمظهر الصحيح كما هو موضح. نظرًا لأنه إصدار تجريبي مجاني، فإن كل سلسلة محادثة محدودة بحوالي 30000 رمز. ومع ذلك، لا داعي لقلق المستخدمين لأن سؤال/إجابة واحدة تكلف حوالي 300-500 رمز فقط، وهي ليست كثيرة إذا كان الأمر يتعلق فقط بتحرير وإنشاء صور أساسية. |
![]() ![]() |
تغيير زاوية التصوير . يمكن للمستخدمين طلب تغيير زوايا مختلفة لنفس الصورة. وبطبيعة الحال، تدعم الأداة تعديل تفاصيل مختلفة حتى يتم إنشاء صورة مرضية. |
![]() |
استخراج المعرفة . وفقًا لـ Google، تم تدريب Gemini 2.0 Flash على كمية كبيرة من المعرفة مع القدرة على التفكير. على سبيل المثال، يمكنك أن تطلب من الأداة أن تتوصل إلى وصفة تعتمد على المعرفة الموجودة، ثم ترسم رسمًا توضيحيًا لتسهيل فهمها. على غرار الأدوات الأخرى، تشير Google إلى أن Gemini 2.0 Flash هو مجرد معرفة عامة، وليس متعمقًا للغاية أو دقيقًا تمامًا. |
![]() |
استخدامات مثيرة للجدل . بعد إصداره على نطاق واسع، اكتشف العديد من الأشخاص أن برنامج Gemini 2.0 Flash يمكنه إزالة العلامات المائية من الصور. لا يتم قبول هذا الاحتمال بواسطة أدوات الذكاء الاصطناعي مثل GPT-4o. نظرًا لأن الأمر لا يزال تجريبيًا، فمن المرجح أن تقوم Google بإصلاح هذه المشكلة في المستقبل القريب. الصورة: @deedydas/X . |
المصدر: https://znews.vn/gemini-20-flash-lam-duoc-gi-post1539018.html
تعليق (0)