নাগরিকের কথা

নতুন ‘ইমেজেস ২.০’ মডেলে লেখা তৈরিতেও এগিয়েছে চ্যাটজিপিটি

আপডেট: এপ্রি ২২, ২০২৬ : ০৬:১৪ এএম

ছবির ভেতরে নির্ভুলভাবে লেখা তৈরি করার ক্ষেত্রে বড় ধরনের অগ্রগতি দেখিয়েছে OpenAI। প্রতিষ্ঠানটির ChatGPT–এর নতুন ‘ইমেজেস ২.০’ মডেল এখন এমন ছবি তৈরি করতে পারছে, যেখানে লেখাও প্রায় নিখুঁতভাবে উপস্থাপন করা যায়—যা আগে কৃত্রিম বুদ্ধিমত্তার জন্য বড় চ্যালেঞ্জ ছিল।

প্রযুক্তিবিষয়ক সাইট TechCrunch–এর এক প্রতিবেদনে বলা হয়েছে, নতুন এই মডেল দিয়ে তৈরি লেখা সরাসরি ব্যবহারযোগ্য মানের। উদাহরণ হিসেবে একটি রেস্টুরেন্টের মেনু তৈরি করে দেখা গেছে, সেটি বাস্তব মেনুর মতোই স্বাভাবিক ও পাঠযোগ্য।

এর আগে ছবি তৈরির এআই মডেলগুলোতে মূলত ‘ডিফিউশন’ পদ্ধতি ব্যবহার করা হতো। এতে এলোমেলো পিক্সেল থেকে ধাপে ধাপে ছবি তৈরি হয়। ফলে বড় অবজেক্ট ভালোভাবে তৈরি হলেও ছোট অংশ—বিশেষ করে লেখা—প্রায়ই বিকৃত হতো।

বিশেষজ্ঞদের মতে, ছবির তুলনায় লেখার অংশ খুব ছোট হওয়ায় মডেলগুলো সেটি সঠিকভাবে শিখতে পারত না। এ কারণে অদ্ভুত বানান বা বিকৃত শব্দ দেখা যেত।

তবে নতুন মডেলে এই সীমাবদ্ধতা অনেকটাই কমেছে। গবেষকেরা ‘অটোরিগ্রেসিভ’ ধরনের পদ্ধতির মতো প্রযুক্তি ব্যবহার করছেন, যা ভাষা মডেলের মতো কাজ করে। এতে ছবি তৈরির সময় সূক্ষ্ম উপাদান, বিশেষ করে লেখা, আরও নির্ভুলভাবে তৈরি করা সম্ভব হচ্ছে। যদিও ঠিক কোন প্রযুক্তি ব্যবহার করা হয়েছে, সে বিষয়ে বিস্তারিত জানায়নি OpenAI।

প্রতিষ্ঠানটি জানিয়েছে, ‘ইমেজেস ২.০’ মডেলে ‘থিংকিং ক্যাপাবিলিটি’ যুক্ত করা হয়েছে। ফলে এটি একটি নির্দেশনা থেকে একাধিক ছবি তৈরি করতে পারে, প্রয়োজনে তথ্য যাচাই করতে পারে এবং জটিল ডিজাইনও তৈরি করতে সক্ষম।

এই মডেল দিয়ে বিভিন্ন ধরনের মার্কেটিং ভিজ্যুয়াল, কমিক স্ট্রিপ কিংবা ইউআই ডিজাইন তৈরি করা সম্ভব। পাশাপাশি জাপানি, কোরিয়ান, হিন্দি ও বাংলার মতো নন-ল্যাটিন ভাষার লেখাও তুলনামূলকভাবে ভালোভাবে তৈরি করতে পারে।

তবে এর কিছু সীমাবদ্ধতাও রয়েছে। মডেলটির জ্ঞানভান্ডার ২০২৫ সালের ডিসেম্বর পর্যন্ত হালনাগাদ। ফলে সাম্প্রতিক তথ্য বা ঘটনার ক্ষেত্রে সব সময় নির্ভুল নাও হতে পারে।

OpenAI জানায়, নতুন মডেলটি আগের তুলনায় নির্দেশনা ভালোভাবে বুঝতে পারে এবং সূক্ষ্ম বিষয়গুলো আরও নিখুঁতভাবে ফুটিয়ে তুলতে সক্ষম। ছোট লেখা, আইকন বা জটিল কম্পোজিশন তৈরিতেও উন্নতি লক্ষ্য করা গেছে। সর্বোচ্চ টু-কে রেজোলিউশনের ছবি তৈরি করা সম্ভব।

তবে উন্নত মানের এই ছবি তৈরি করতে কিছুটা বেশি সময় লাগে। সাধারণ প্রশ্নের উত্তর দেওয়ার মতো দ্রুত না হলেও জটিল ছবি তৈরিতে কয়েক মিনিট সময় লাগতে পারে।

প্রতিষ্ঠানটি আরও জানিয়েছে, ChatGPT ও কোডেক্স ব্যবহারকারীরা ধাপে ধাপে এই ফিচার ব্যবহার করতে পারবেন। পেইড ব্যবহারকারীরা উন্নত মানের আউটপুট তৈরির সুযোগ পাবেন। পাশাপাশি ‘জিপিটি-ইমেজ-২’ নামে একটি এপিআইও উন্মুক্ত করা হবে, যার খরচ নির্ভর করবে ছবির মান ও রেজোলিউশনের ওপর।

বিশ্লেষকদের মতে, এই উন্নয়ন ডিজিটাল কনটেন্ট তৈরিতে বড় পরিবর্তন আনতে পারে। ডিজাইনার, বিপণনকর্মী ও সাধারণ ব্যবহারকারীদের জন্য দ্রুত ও কম খরচে মানসম্মত ভিজ্যুয়াল তৈরি করা আরও সহজ হবে। একই সঙ্গে এআই–তৈরি কনটেন্ট ও বাস্তব কনটেন্ট আলাদা করা আরও কঠিন হয়ে উঠতে পারে।

আরএস-রাসেল