প্রযুক্তি

নতুন ‘ইমেজেস ২.০’ মডেলে লেখা তৈরিতেও এগিয়েছে চ্যাটজিপিটি

আপডেট: এপ্রি ২২, ২০২৬ : ০৬:১৪ এএম
নতুন ‘ইমেজেস ২.০’ মডেলে লেখা তৈরিতেও এগিয়েছে চ্যাটজিপিটি

ছবির ভেতরে নির্ভুলভাবে লেখা তৈরি করার ক্ষেত্রে বড় ধরনের অগ্রগতি দেখিয়েছে OpenAI। প্রতিষ্ঠানটির ChatGPT–এর নতুন ‘ইমেজেস ২.০’ মডেল এখন এমন ছবি তৈরি করতে পারছে, যেখানে লেখাও প্রায় নিখুঁতভাবে উপস্থাপন করা যায়—যা আগে কৃত্রিম বুদ্ধিমত্তার জন্য বড় চ্যালেঞ্জ ছিল।

প্রযুক্তিবিষয়ক সাইট TechCrunch–এর এক প্রতিবেদনে বলা হয়েছে, নতুন এই মডেল দিয়ে তৈরি লেখা সরাসরি ব্যবহারযোগ্য মানের। উদাহরণ হিসেবে একটি রেস্টুরেন্টের মেনু তৈরি করে দেখা গেছে, সেটি বাস্তব মেনুর মতোই স্বাভাবিক ও পাঠযোগ্য।

এর আগে ছবি তৈরির এআই মডেলগুলোতে মূলত ‘ডিফিউশন’ পদ্ধতি ব্যবহার করা হতো। এতে এলোমেলো পিক্সেল থেকে ধাপে ধাপে ছবি তৈরি হয়। ফলে বড় অবজেক্ট ভালোভাবে তৈরি হলেও ছোট অংশ—বিশেষ করে লেখা—প্রায়ই বিকৃত হতো।

বিশেষজ্ঞদের মতে, ছবির তুলনায় লেখার অংশ খুব ছোট হওয়ায় মডেলগুলো সেটি সঠিকভাবে শিখতে পারত না। এ কারণে অদ্ভুত বানান বা বিকৃত শব্দ দেখা যেত।

তবে নতুন মডেলে এই সীমাবদ্ধতা অনেকটাই কমেছে। গবেষকেরা ‘অটোরিগ্রেসিভ’ ধরনের পদ্ধতির মতো প্রযুক্তি ব্যবহার করছেন, যা ভাষা মডেলের মতো কাজ করে। এতে ছবি তৈরির সময় সূক্ষ্ম উপাদান, বিশেষ করে লেখা, আরও নির্ভুলভাবে তৈরি করা সম্ভব হচ্ছে। যদিও ঠিক কোন প্রযুক্তি ব্যবহার করা হয়েছে, সে বিষয়ে বিস্তারিত জানায়নি OpenAI।

প্রতিষ্ঠানটি জানিয়েছে, ‘ইমেজেস ২.০’ মডেলে ‘থিংকিং ক্যাপাবিলিটি’ যুক্ত করা হয়েছে। ফলে এটি একটি নির্দেশনা থেকে একাধিক ছবি তৈরি করতে পারে, প্রয়োজনে তথ্য যাচাই করতে পারে এবং জটিল ডিজাইনও তৈরি করতে সক্ষম।

এই মডেল দিয়ে বিভিন্ন ধরনের মার্কেটিং ভিজ্যুয়াল, কমিক স্ট্রিপ কিংবা ইউআই ডিজাইন তৈরি করা সম্ভব। পাশাপাশি জাপানি, কোরিয়ান, হিন্দি ও বাংলার মতো নন-ল্যাটিন ভাষার লেখাও তুলনামূলকভাবে ভালোভাবে তৈরি করতে পারে।

তবে এর কিছু সীমাবদ্ধতাও রয়েছে। মডেলটির জ্ঞানভান্ডার ২০২৫ সালের ডিসেম্বর পর্যন্ত হালনাগাদ। ফলে সাম্প্রতিক তথ্য বা ঘটনার ক্ষেত্রে সব সময় নির্ভুল নাও হতে পারে।

OpenAI জানায়, নতুন মডেলটি আগের তুলনায় নির্দেশনা ভালোভাবে বুঝতে পারে এবং সূক্ষ্ম বিষয়গুলো আরও নিখুঁতভাবে ফুটিয়ে তুলতে সক্ষম। ছোট লেখা, আইকন বা জটিল কম্পোজিশন তৈরিতেও উন্নতি লক্ষ্য করা গেছে। সর্বোচ্চ টু-কে রেজোলিউশনের ছবি তৈরি করা সম্ভব।

তবে উন্নত মানের এই ছবি তৈরি করতে কিছুটা বেশি সময় লাগে। সাধারণ প্রশ্নের উত্তর দেওয়ার মতো দ্রুত না হলেও জটিল ছবি তৈরিতে কয়েক মিনিট সময় লাগতে পারে।

প্রতিষ্ঠানটি আরও জানিয়েছে, ChatGPT ও কোডেক্স ব্যবহারকারীরা ধাপে ধাপে এই ফিচার ব্যবহার করতে পারবেন। পেইড ব্যবহারকারীরা উন্নত মানের আউটপুট তৈরির সুযোগ পাবেন। পাশাপাশি ‘জিপিটি-ইমেজ-২’ নামে একটি এপিআইও উন্মুক্ত করা হবে, যার খরচ নির্ভর করবে ছবির মান ও রেজোলিউশনের ওপর।

বিশ্লেষকদের মতে, এই উন্নয়ন ডিজিটাল কনটেন্ট তৈরিতে বড় পরিবর্তন আনতে পারে। ডিজাইনার, বিপণনকর্মী ও সাধারণ ব্যবহারকারীদের জন্য দ্রুত ও কম খরচে মানসম্মত ভিজ্যুয়াল তৈরি করা আরও সহজ হবে। একই সঙ্গে এআই–তৈরি কনটেন্ট ও বাস্তব কনটেন্ট আলাদা করা আরও কঠিন হয়ে উঠতে পারে।

আরএস-রাসেল

০ মন্তব্য


No comments yet. Be the first to comment!