یافتههای پژوهش درباره ژنراتورهای تصویر هوش مصنوعی
بر اساس مطالعهای که در مجله Patterns منتشر شده، ژنراتورهای تصویر هوش مصنوعی مانند Stable Diffusion XL و LLaVA با وجود دسترسی به مجموعههای عظیم داده بصری، در نهایت به تعداد محدودی سبک تصویری تکراری بازمیگردند. پژوهشگران این روند را «موسیقی آسانسوری بصری» نامیدهاند؛ تصاویری کلیشهای که بیشتر شبیه تابلوهای هتل هستند تا آثار خلاقانه.
آزمایش تلفن تصویری با هوش مصنوعی
در این تحقیق، محققان بازی «تلفن تصویری» را با دو مدل هوش مصنوعی اجرا کردند. ابتدا Stable Diffusion XL با یک متن کوتاه تصویری تولید کرد. سپس LLaVA آن تصویر را توصیف کرد و دوباره همان توصیف به Stable Diffusion داده شد تا تصویر جدیدی ساخته شود. این چرخه تا ۱۰۰ بار تکرار شد. نتیجه نشان داد که پس از چندین دور، تصاویر بهتدریج یا ناگهانی به یکی از ۱۲ سبک غالب محدود میشوند.

سبکهای غالب در خروجی هوش مصنوعی
پژوهشگران دریافتند که بیشتر خروجیها در نهایت به چند الگوی تصویری مشخص ختم میشوند، از جمله:
- مناظر دریایی با فانوسهای دریایی
- فضاهای داخلی رسمی
- معماری روستیک و سنتی
- صحنههای شهری در شب
این روند حتی با تغییر مدلها نیز تکرار شد و نشان داد که محدودیت خلاقیت در الگوریتمها یک ویژگی مشترک است.
چرا هوش مصنوعی به سبکهای تکراری بازمیگردد؟
برخلاف بازی انسانی تلفن که تنوع و تغییرات زیادی ایجاد میکند، هوش مصنوعی به دلیل وابستگی به دادههای انسانی و الگوهای محبوب، به سمت سبکهای محدود و تکراری حرکت میکند. به بیان دیگر، کپیکردن سبکها برای هوش مصنوعی آسانتر از یادگیری سلیقه و خلاقیت واقعی است.
جمعبندی
این مطالعه نشان میدهد که ژنراتورهای تصویر هوش مصنوعی با وجود توانایی فنی بالا، در زمینه خلاقیت دچار محدودیت هستند و اغلب به ۱۲ سبک تصویری کلیشهای بازمیگردند. یافتهها میتواند برای توسعهدهندگان و هنرمندان دیجیتال هشداردهنده باشد؛ چرا که نشان میدهد برای دستیابی به تنوع واقعی، نیاز به بازنگری در الگوریتمها و دادههای آموزشی وجود دارد.