zoomit

آموزش کامل ساخت و ویرایش عکس با هوش مصنوعی نانو بنانای گوگل

آموزش کامل ساخت و ویرایش عکس با هوش مصنوعی نانو بنانای گوگل

تصور کنید بتوانید بدون نیاز به فتوشاپ و تنها با نوشتن چند کلمه، دوست خود را در یک عکس به فضانورد تبدیل کنید یا یک خودرو را از وسط خیابان حذف کنید. مدل جدید هوش مصنوعی گوگل، موسوم به «نانو بنانا»، دقیقاً برای همین کار طراحی شده است.

این مقاله به شما نشان می‌دهد که چگونه از این ابزار قدرتمند برای ویرایش حرفه‌ای تصاویر خود استفاده کنید.

نانو بنانا چیست و چه چیزی آن را متمایز می‌کند؟

نانو بنانا، با نام رسمی Gemini 2.5 Flash Image، نسل جدید ابزارهای هوش مصنوعی گوگل برای ویرایش تصویر است. برگ برنده‌ی این مدل، معماری ذاتی چندوجهی (Natively Multimodal) آن است؛ یعنی برخلاف مدل‌های قدیمی، از پایه برای درک یکپارچه‌ی متن و تصویر طراحی شده است. این ویژگی به نانو بنانا اجازه می‌دهد تا به‌جای تولید ساده‌ی عکس از متن، بر ویرایش عمیق و مفهومی تصاویر تمرکز کند و دستورات پیچیده را با دقت بالایی اجرا نماید.

این معماری پیشرفته، قابلیت‌های منحصربه‌فردی را در اختیار کاربر قرار می‌دهد:

  • حفظ هویت سوژه (Character Consistency): توانایی حفظ ظاهر یک شخص یا شیء در سناریوهای مختلف.
  • ترکیب و ویرایش چند عکس (Multi-Image Fusion & Style Transfer): ترکیب هوشمندانه‌ی چند تصویر یا انتقال سبک هنری از یک عکس به دیگری.
  • ویرایش موضعی با زبان طبیعی (Prompt-based Inpainting): حذف یا اضافه‌کردن عناصر به بخشی از تصویر فقط با دستورات متنی.
  • ویرایش محاوره‌ای (Iterative Refinement): اصلاح تدریجی تصویر در یک گفتگوی ادامه‌دار با هوش مصنوعی.
  • استدلال بصری (Visual Reasoning): درک و تحلیل محتوای تصاویر با تکیه بر دانش جهانی مدل جمینای.
  • رندر دقیق متن انگلیسی (High-Fidelity Text Rendering): تولید متن‌های خوانا و خوش‌فرم انگلیسی روی تصاویر (این مدل فعلاً توانایی ایجاد درست متون فارسی را ندارد).

لازم به ذکر است که تمام تصاویر خروجی دارای واترمارک نامرئی SynthID هستند و مدل برای بهترین عملکرد به پرامپت‌های انگلیسی نیاز دارد (هرچند پرامپت‌های فارسی نیز قابل استفاده هستند).

چگونه به نانو بنانا دسترسی پیدا کنیم؟

گوگل دسترسی به این مدل را از طریق دو بستر اصلی فراهم کرده است که هرکدام برای گروه خاصی از کاربران با نیازهای متفاوت طراحی شده‌اند.

گوگل مدل ویرایش تصویر Gemini 2.5 Flash Image را در چت‌بات هوش مصنوعی جمنای خود به کار برده است.

کاربران می‌توانند برای دسترسی به مدل ویرایش تصویر جدید گوگل، از اپلیکیشن یا وب‌سایت Gemini استفاده کنند. با‌این‌حال، گاهی اوقات فیلترهای ایمنی این پلتفرم سخت‌گیرانه‌تر از پلتفرم AI Studio عمل می‌کنند.

پتلفرم Google AI Studio

کاربران حرفه‌ای و توسعه‌دهندگان می‌توانند به سراغ Google AI Studio بروند. این بستر پیشرفته امکانات بیشتری مانند تنظیم دقیق پارامترهای مدل و تغییر حساسیت فیلترهای ایمنی را فراهم می‌کند. از ویژگی‌های کلیدی دسترسی به مدل نانو بنانا از طریق این پلتفرم می‌توان به موارد زیر اشاره کرد:

  • کنترل دقیق پارامترها: امکان تنظیم پارامتر Temperature برای کنترل میزان خلاقیت مدل.
  • تنظیمات ایمنی قابل‌تغییر: کاربران می‌توانند با کلیک روی Edit در بخش Safety settings، حساسیت فیلترها را کاهش دهند و با انتخاب Block none، آزادی عمل بیشتری در تولید محتوا داشته باشند.

نحوه‌ی دسترسی به مدل نانو بنانا در Google AI Studio:

  • به وب‌سایت aistudio.google.com مراجعه کنید.
  • از منوی سمت چپ، گزینه‌ی Chat را انتخاب کنید.
  • در پنل تنظیمات سمت راست (Run settings)، مدل Nano Banana را برگزینید.

هر دو پلتفرم جمنای و Google AI Studio در بیشتر مواقع به درخواست‌های ایجاد تصاویر از افراد واقعی و مخصوصاً کودکان عمل نمی‌کنند. این محدودیت‌ها جزوی از سیستم‌های حفاظتی گوگل هستند و راهی برای دور زدن آن‌ها نیست.

راهنمای پرامپت‌نویسی برای مدل نانو بنانا

کیفیت خروجی مدل‌های هوش مصنوعی مولد تصویر، ارتباطی مستقیم با کیفیت دستورات ورودی شما (پرامپت) دارد. هرچه دستورات دقیق‌تر و توصیفی‌تر باشند، نتیجه به واقعیت ذهن شما نزدیک‌تر خواهد بود. در ساخت تصاویر جدید از متن و ویرایش تصاویر ابتدا به موارد زیر دقت کنید:

ساخت تصاویر جدید از متن

اگر به دنبال یک صحنه‌ی واقع‌گرایانه (Photorealistic) هستید، از اصطلاحات تخصصی عکاسی، به‌ویژه در مورد نورپردازی استفاده کنید. اما اگر به دنبال تصاویر هنری و گرافیکی هستید، سبک موردنظر را صراحتاً بیان کنید (مانند «استیکر به سبک کاوایی» یا «نقاشی دیجیتال»). این رویکرد برای موکاپ محصول و عکاسی تبلیغاتی نیز کاربرد دارد.

ویرایش یک تصویر موجود

در این سناریو باید به مدل بگویید چه چیزی را تغییر دهد و مهم‌تر از آن، چه چیزهایی را تغییر ندهد. برای افزودن یا حذف عناصر، دستور شما باید صریح و دقیق باشد. اگر قصد ترکیب چند تصویر را دارید، نقش هر عکس را مشخص کنید تا مدل دچار سردرگمی نشود. در نهایت، برای حفظ جزئیات حساس مانند چهره یا لوگو، روی ثابت ماندن آن‌ها تأکید کنید.

اصول بنیادین پرامپت‌نویسی برای مدل نانو بنانا

علاوه بر موارد ذکر شده، برای دستیابی به بهترین نتایج با مدل ویرایش تصویر جدید گوگل، به نکته‌های زیر نیز توجه کنید:

  • به‌صورت محاوره‌ای ویرایش کنید: پس از دریافت خروجی اولیه، از ماهیت گفتگومحور مدل برای اصلاح تدریجی تصویر بهره ببرید. با دستورات کوچک و تدریجی مانند «می‌توانی نورپردازی را کمی گرم‌تر کنی؟» آن را اصلاح کنید.
  • دوربین را کنترل کنید: از زبان عکاسی و سینمایی برای کنترل ترکیب‌بندی، زاویه دید و نوع لنز استفاده کنید. اصطلاحاتی مانند «نمای واید (Wide Shot)»، «کلوزآپ (Close-up)»، «زاویه‌ی دید از پایین (Low-Angle View)» و «عمق میدان کم (Shallow Depth of Field)» به شما اجازه می‌دهند ترکیب‌بندی را به‌دقت مدیریت کنید.
  • مرحله‌به‌مرحله دستور دهید: برای خلق صحنه‌های پیچیده، بهتر است دستورات خود را به مراحل کوچک‌تر و قابل فهم تقسیم کنید. برای مثال: «ابتدا، پس‌زمینه‌ای از یک جنگل مه‌آلود ایجاد کن. سپس، در پیش‌زمینه، یک محراب سنگی پوشیده از خزه اضافه کن. در نهایت، یک شمشیر درخشان روی محراب قرار بده.»
  • از پرامپت‌های منفی هوشمند استفاده کنید: به‌جای گفتن اینکه چه چیزی «نباشد»، صحنه‌ی مطلوب را به‌صورت مثبت و کامل توصیف کنید. به جای «ماشین نباشد»، بگویید: «یک خیابان خلوت و خالی از هرگونه ترافیک در سپیده‌دم.»
  • از نام بردن افراد مشهور بپرهیزید: سیستم‌های ایمنی معمولاً پرامپت‌های حاوی نام افراد مشهور را مسدود می‌کنند. راهکار بهتر این است که تصویر شخص موردنظر را آپلود کرده و در پرامپت خود با عناوینی کلی مانند «این شخص» به او ارجاع دهید.

برای مطالعه‌ی راهنمایی‌های تکمیلی و مشاهده‌ی مثال‌های بیشتر، می‌توانید به مستندات رسمی گوگل درباره‌ی نانو بنانا مراجعه کنید.

نمونه‌های کاربردی: قدرت نانو بنانا در عمل

در ادامه چند مثال عملی از توانایی‌های این مدل را بررسی می‌کنیم.

مثال ۱: حفظ هویت سوژه در سناریوهای گوناگون

نمونه پرامپت:

Put the person in the provided photo behind the steering wheel of an Italian sports car. keep his appearance and facial expression unchanged as much as possible.

تصویر نقی معمولی در سکانسی از پایتخت
تصویر نقی معمولی پشت فرمان یک خودروی اسپرت با هوش مصنوعی

مثال ۲: ترکیب و ادغام چند عکس

نمونه پرامپت:

Make this two cat sit across each other and play a game of chess.

مثال ۳: ایجاد تصاویر تبلیغاتی

نمونه پرامپت:

Create a bold advertisement poster for the provided phone, emphasizing strength and resilience. Show the phone standing upright on a cracked stone surface, unscathed after impact. Use a dramatic overhead spotlight with dust and fine stone cracks to symbolize endurance. Keep the background dark and minimal, leaving space for branding and a durability tagline.

مثال ۴: ایجاد پرتره‌های استودیویی

نمونه پرامپت:

Using the provided portrait, recreate it as a professional studio photo with dramatic lighting. Change the background to a solid dark gray. Shine a strong key light from the right side of the face to cast deep shadows on the left side, giving the portrait depth and intensity.

مثال ۵: حذف اشیاء ناخواسته از تصویر

نمونه پرامپت:

Using the provided photo, remove all people and cars from the scene. Fill the cleared areas seamlessly so that the result looks completely natural with no visible edits.

مثال ۶: تغییر پوشش یا حالت چهره‌ی افراد

نمونه پرامپت:

Using the provided photo, change the man’s outfit. Replace his T-shirt with a classic white dress shirt and a navy-blue blazer. Make sure his face, hairstyle, background, and lighting remain unchanged. Make him wear sunglasses.

مثال ۷: بازسازی و رنگی کردن عکس‌های قدیمی

نمونه پرامپت:

Restore this old damaged photo by repairing all scratches, stains, and paper tears. Then colorize the photo with natural, realistic tones suitable for the 1940s era. Pay special attention to skin tones, clothing, and the background.

مثال ۸: تبدیل نقاشی به تصویر واقعی

نمونه پرامپت:

Transform this simple car sketch into a fully realistic photo. The car should be a bright red model, driving on a winding mountain road at sunset. Warm golden sunlight should reflect on the car’s glossy body, conveying speed and excitement. The road should appear wet, as if it has just rained.

گوگل با عرضه‌ی نانو بنانا (Gemini 2.5 Flash Image) گامی مهم در مسیر هوشمندسازی ویرایش تصویر برداشته است. این مدل با تکیه بر معماری چندوجهی خود، از یک ابزار ساده برای خلق تصویر فراتر رفته و به یک دستیار خلاق تبدیل شده است که می‌تواند زمینه‌ی بصری و متنی را درک کرده و ویرایش‌های پیچیده و مفهومی را با دقتی بی‌سابقه اجرا کند.

شما از این فناوری چه استفاده‌ای خواهید کرد؟ دیدگاه‌ها و ایده‌های خود را با ما در میان بگذارید.

منبع : زومیت

مشاهده بیشتر
دانلود نرم افزار

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا