آموزش کامل ساخت و ویرایش عکس با هوش مصنوعی نانو بنانای گوگل
آموزش کامل ساخت و ویرایش عکس با هوش مصنوعی نانو بنانای گوگل
تصور کنید بتوانید بدون نیاز به فتوشاپ و تنها با نوشتن چند کلمه، دوست خود را در یک عکس به فضانورد تبدیل کنید یا یک خودرو را از وسط خیابان حذف کنید. مدل جدید هوش مصنوعی گوگل، موسوم به «نانو بنانا»، دقیقاً برای همین کار طراحی شده است.
این مقاله به شما نشان میدهد که چگونه از این ابزار قدرتمند برای ویرایش حرفهای تصاویر خود استفاده کنید.
نانو بنانا چیست و چه چیزی آن را متمایز میکند؟
نانو بنانا، با نام رسمی Gemini 2.5 Flash Image، نسل جدید ابزارهای هوش مصنوعی گوگل برای ویرایش تصویر است. برگ برندهی این مدل، معماری ذاتی چندوجهی (Natively Multimodal) آن است؛ یعنی برخلاف مدلهای قدیمی، از پایه برای درک یکپارچهی متن و تصویر طراحی شده است. این ویژگی به نانو بنانا اجازه میدهد تا بهجای تولید سادهی عکس از متن، بر ویرایش عمیق و مفهومی تصاویر تمرکز کند و دستورات پیچیده را با دقت بالایی اجرا نماید.
این معماری پیشرفته، قابلیتهای منحصربهفردی را در اختیار کاربر قرار میدهد:
- حفظ هویت سوژه (Character Consistency): توانایی حفظ ظاهر یک شخص یا شیء در سناریوهای مختلف.
- ترکیب و ویرایش چند عکس (Multi-Image Fusion & Style Transfer): ترکیب هوشمندانهی چند تصویر یا انتقال سبک هنری از یک عکس به دیگری.
- ویرایش موضعی با زبان طبیعی (Prompt-based Inpainting): حذف یا اضافهکردن عناصر به بخشی از تصویر فقط با دستورات متنی.
- ویرایش محاورهای (Iterative Refinement): اصلاح تدریجی تصویر در یک گفتگوی ادامهدار با هوش مصنوعی.
- استدلال بصری (Visual Reasoning): درک و تحلیل محتوای تصاویر با تکیه بر دانش جهانی مدل جمینای.
- رندر دقیق متن انگلیسی (High-Fidelity Text Rendering): تولید متنهای خوانا و خوشفرم انگلیسی روی تصاویر (این مدل فعلاً توانایی ایجاد درست متون فارسی را ندارد).
لازم به ذکر است که تمام تصاویر خروجی دارای واترمارک نامرئی SynthID هستند و مدل برای بهترین عملکرد به پرامپتهای انگلیسی نیاز دارد (هرچند پرامپتهای فارسی نیز قابل استفاده هستند).
چگونه به نانو بنانا دسترسی پیدا کنیم؟
گوگل دسترسی به این مدل را از طریق دو بستر اصلی فراهم کرده است که هرکدام برای گروه خاصی از کاربران با نیازهای متفاوت طراحی شدهاند.
گوگل مدل ویرایش تصویر Gemini 2.5 Flash Image را در چتبات هوش مصنوعی جمنای خود به کار برده است.
کاربران میتوانند برای دسترسی به مدل ویرایش تصویر جدید گوگل، از اپلیکیشن یا وبسایت Gemini استفاده کنند. بااینحال، گاهی اوقات فیلترهای ایمنی این پلتفرم سختگیرانهتر از پلتفرم AI Studio عمل میکنند.
پتلفرم Google AI Studio
کاربران حرفهای و توسعهدهندگان میتوانند به سراغ Google AI Studio بروند. این بستر پیشرفته امکانات بیشتری مانند تنظیم دقیق پارامترهای مدل و تغییر حساسیت فیلترهای ایمنی را فراهم میکند. از ویژگیهای کلیدی دسترسی به مدل نانو بنانا از طریق این پلتفرم میتوان به موارد زیر اشاره کرد:
- کنترل دقیق پارامترها: امکان تنظیم پارامتر Temperature برای کنترل میزان خلاقیت مدل.
- تنظیمات ایمنی قابلتغییر: کاربران میتوانند با کلیک روی Edit در بخش Safety settings، حساسیت فیلترها را کاهش دهند و با انتخاب Block none، آزادی عمل بیشتری در تولید محتوا داشته باشند.
نحوهی دسترسی به مدل نانو بنانا در Google AI Studio:
- به وبسایت aistudio.google.com مراجعه کنید.
- از منوی سمت چپ، گزینهی Chat را انتخاب کنید.
- در پنل تنظیمات سمت راست (Run settings)، مدل Nano Banana را برگزینید.
هر دو پلتفرم جمنای و Google AI Studio در بیشتر مواقع به درخواستهای ایجاد تصاویر از افراد واقعی و مخصوصاً کودکان عمل نمیکنند. این محدودیتها جزوی از سیستمهای حفاظتی گوگل هستند و راهی برای دور زدن آنها نیست.
راهنمای پرامپتنویسی برای مدل نانو بنانا
کیفیت خروجی مدلهای هوش مصنوعی مولد تصویر، ارتباطی مستقیم با کیفیت دستورات ورودی شما (پرامپت) دارد. هرچه دستورات دقیقتر و توصیفیتر باشند، نتیجه به واقعیت ذهن شما نزدیکتر خواهد بود. در ساخت تصاویر جدید از متن و ویرایش تصاویر ابتدا به موارد زیر دقت کنید:
ساخت تصاویر جدید از متن
اگر به دنبال یک صحنهی واقعگرایانه (Photorealistic) هستید، از اصطلاحات تخصصی عکاسی، بهویژه در مورد نورپردازی استفاده کنید. اما اگر به دنبال تصاویر هنری و گرافیکی هستید، سبک موردنظر را صراحتاً بیان کنید (مانند «استیکر به سبک کاوایی» یا «نقاشی دیجیتال»). این رویکرد برای موکاپ محصول و عکاسی تبلیغاتی نیز کاربرد دارد.
ویرایش یک تصویر موجود
در این سناریو باید به مدل بگویید چه چیزی را تغییر دهد و مهمتر از آن، چه چیزهایی را تغییر ندهد. برای افزودن یا حذف عناصر، دستور شما باید صریح و دقیق باشد. اگر قصد ترکیب چند تصویر را دارید، نقش هر عکس را مشخص کنید تا مدل دچار سردرگمی نشود. در نهایت، برای حفظ جزئیات حساس مانند چهره یا لوگو، روی ثابت ماندن آنها تأکید کنید.
اصول بنیادین پرامپتنویسی برای مدل نانو بنانا
علاوه بر موارد ذکر شده، برای دستیابی به بهترین نتایج با مدل ویرایش تصویر جدید گوگل، به نکتههای زیر نیز توجه کنید:
- بهصورت محاورهای ویرایش کنید: پس از دریافت خروجی اولیه، از ماهیت گفتگومحور مدل برای اصلاح تدریجی تصویر بهره ببرید. با دستورات کوچک و تدریجی مانند «میتوانی نورپردازی را کمی گرمتر کنی؟» آن را اصلاح کنید.
- دوربین را کنترل کنید: از زبان عکاسی و سینمایی برای کنترل ترکیببندی، زاویه دید و نوع لنز استفاده کنید. اصطلاحاتی مانند «نمای واید (Wide Shot)»، «کلوزآپ (Close-up)»، «زاویهی دید از پایین (Low-Angle View)» و «عمق میدان کم (Shallow Depth of Field)» به شما اجازه میدهند ترکیببندی را بهدقت مدیریت کنید.
- مرحلهبهمرحله دستور دهید: برای خلق صحنههای پیچیده، بهتر است دستورات خود را به مراحل کوچکتر و قابل فهم تقسیم کنید. برای مثال: «ابتدا، پسزمینهای از یک جنگل مهآلود ایجاد کن. سپس، در پیشزمینه، یک محراب سنگی پوشیده از خزه اضافه کن. در نهایت، یک شمشیر درخشان روی محراب قرار بده.»
- از پرامپتهای منفی هوشمند استفاده کنید: بهجای گفتن اینکه چه چیزی «نباشد»، صحنهی مطلوب را بهصورت مثبت و کامل توصیف کنید. به جای «ماشین نباشد»، بگویید: «یک خیابان خلوت و خالی از هرگونه ترافیک در سپیدهدم.»
- از نام بردن افراد مشهور بپرهیزید: سیستمهای ایمنی معمولاً پرامپتهای حاوی نام افراد مشهور را مسدود میکنند. راهکار بهتر این است که تصویر شخص موردنظر را آپلود کرده و در پرامپت خود با عناوینی کلی مانند «این شخص» به او ارجاع دهید.
برای مطالعهی راهنماییهای تکمیلی و مشاهدهی مثالهای بیشتر، میتوانید به مستندات رسمی گوگل دربارهی نانو بنانا مراجعه کنید.
نمونههای کاربردی: قدرت نانو بنانا در عمل
در ادامه چند مثال عملی از تواناییهای این مدل را بررسی میکنیم.
مثال ۱: حفظ هویت سوژه در سناریوهای گوناگون
نمونه پرامپت:
Put the person in the provided photo behind the steering wheel of an Italian sports car. keep his appearance and facial expression unchanged as much as possible.
مثال ۲: ترکیب و ادغام چند عکس
نمونه پرامپت:
Make this two cat sit across each other and play a game of chess.
مثال ۳: ایجاد تصاویر تبلیغاتی
نمونه پرامپت:
Create a bold advertisement poster for the provided phone, emphasizing strength and resilience. Show the phone standing upright on a cracked stone surface, unscathed after impact. Use a dramatic overhead spotlight with dust and fine stone cracks to symbolize endurance. Keep the background dark and minimal, leaving space for branding and a durability tagline.
مثال ۴: ایجاد پرترههای استودیویی
نمونه پرامپت:
Using the provided portrait, recreate it as a professional studio photo with dramatic lighting. Change the background to a solid dark gray. Shine a strong key light from the right side of the face to cast deep shadows on the left side, giving the portrait depth and intensity.
مثال ۵: حذف اشیاء ناخواسته از تصویر
نمونه پرامپت:
Using the provided photo, remove all people and cars from the scene. Fill the cleared areas seamlessly so that the result looks completely natural with no visible edits.
مثال ۶: تغییر پوشش یا حالت چهرهی افراد
نمونه پرامپت:
Using the provided photo, change the man’s outfit. Replace his T-shirt with a classic white dress shirt and a navy-blue blazer. Make sure his face, hairstyle, background, and lighting remain unchanged. Make him wear sunglasses.
مثال ۷: بازسازی و رنگی کردن عکسهای قدیمی
نمونه پرامپت:
Restore this old damaged photo by repairing all scratches, stains, and paper tears. Then colorize the photo with natural, realistic tones suitable for the 1940s era. Pay special attention to skin tones, clothing, and the background.
مثال ۸: تبدیل نقاشی به تصویر واقعی
نمونه پرامپت:
Transform this simple car sketch into a fully realistic photo. The car should be a bright red model, driving on a winding mountain road at sunset. Warm golden sunlight should reflect on the car’s glossy body, conveying speed and excitement. The road should appear wet, as if it has just rained.
گوگل با عرضهی نانو بنانا (Gemini 2.5 Flash Image) گامی مهم در مسیر هوشمندسازی ویرایش تصویر برداشته است. این مدل با تکیه بر معماری چندوجهی خود، از یک ابزار ساده برای خلق تصویر فراتر رفته و به یک دستیار خلاق تبدیل شده است که میتواند زمینهی بصری و متنی را درک کرده و ویرایشهای پیچیده و مفهومی را با دقتی بیسابقه اجرا کند.
شما از این فناوری چه استفادهای خواهید کرد؟ دیدگاهها و ایدههای خود را با ما در میان بگذارید.
منبع : زومیت