বৃহৎ ভাষার মডেল

testwiki থেকে
imported>InternetArchiveBot কর্তৃক ১১:৫২, ২৭ ডিসেম্বর ২০২৪ তারিখে সংশোধিত সংস্করণ (যাচাইযোগ্যতার জন্য 2টি বই যোগ করা হল (20241226)) #IABot (v2.0.9.5) (GreenC bot)
(পরিবর্তন) ← পূর্বের সংস্করণ | সর্বশেষ সংস্করণ (পরিবর্তন) | পরবর্তী সংস্করণ → (পরিবর্তন)
পরিভ্রমণে চলুন অনুসন্ধানে চলুন

টেমপ্লেট:মেশিন লার্নিং বৃহৎ ভাষার মডেল[][][] এক ধরনের গণনামূলক মডেল যা ভাষা তৈরির মতো প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য প্রস্তুত করা হয়েছে। ইংরেজিতে একে লার্জ ল্যাঙ্গুয়েজ মডেল বলা হয়, যার সংক্ষেপিত সংস্করণ- এলএলএম। ভাষার মডেল হিসাবে, এলএলএম একটি স্ব-তত্ত্বাবধানে এবং অর্ধ-তত্ত্বাবধানে প্রশিক্ষণ প্রক্রিয়া চলাকালীন প্রচুর পরিমাণে পাঠ্য থেকে পরিসংখ্যানগত সম্পর্ক শেখার মাধ্যমে এই ক্ষমতাগুলি অর্জন করে।[]

সবচেয়ে বড় এবং সবচেয়ে সক্ষম এলএলএম হল কৃত্রিম নিউরাল নেটওয়ার্ক যা একটি শুধু-ডিকোডার ট্রান্সফরমার-ভিত্তিক স্থাপত্য দিয়ে তৈরি, যা দক্ষ প্রক্রিয়াকরণ এবং বড় আকারের পাঠ্য ডেটা তৈরি করতে সক্ষম করে। আধুনিক মডেলগুলি নির্দিষ্ট কাজের জন্য সূক্ষ্মতর উন্নয়ন করা যেতে পারে বা প্রম্পট ইঞ্জিনিয়ারিং দ্বারা পরিচালিত হতে পারে।[] এই মডেলগুলি বাক্যতত্ত্ব, বাগর্থবিজ্ঞান এবং অনটোলজি[] সম্পর্কিত ভবিষ্যদ্বাণীমূলক শক্তি অর্জন করে যা মানব ভাষার কর্পোরার অন্তর্নিহিত, কিন্তু তারা যে ডেটাতে প্রশিক্ষিত হয় তাতে উপস্থিত ভুলসমূহ এবং পক্ষপাতগুলিও উত্তরাধিকার সূত্রে পায়।[]

ইতিহাস

২০১০-২০২৪ সালে ফ্লপ (প্রতি সেকেন্ডে ফ্লোটিং পয়েন্ট অপারেশন) বনাম প্রকাশনার তারিখে উল্লেখযোগ্য বড় মডেলের প্রশিক্ষণ গণনা। সামগ্রিকভাবে উল্লেখযোগ্য মডেলগুলির জন্য (উপরে বাম), সীমান্ত মডেল (উপরে ডান), শীর্ষ ভাষার মডেল (নীচে বাম) এবং শীর্ষস্থানীয় কোম্পানিগুলির মধ্যে (নীচে ডানদিকে)। এই মডেলগুলির বেশিরভাগই ভাষা মডেল।
২০১৭ থেকে ২০২৪ পর্যন্ত উল্লেখযোগ্য বড় এআই মডেলগুলির প্রশিক্ষণের জন্য ব্যবহৃত কম্পিউটেশনাল ক্ষমতা (ফ্লপ) এবং তাদের প্রকাশের তারিখের সম্পর্ক। বেশিরভাগ বড় মডেলই ভাষা মডেল অথবা মাল্টিমোডাল মডেল, যেগুলোর মধ্যে ভাষা বুঝতে এবং তৈরি করতে সক্ষমতা রয়েছে।

২০১৭ সালের আগে কিছু ভাষার মডেল ছিল, যা তখন উপলব্ধ ক্ষমতার তুলনায় বড় ছিল। ১৯৯০-এর দশকে, আইবিএম অ্যালাইনমেন্ট মডেলগুলি পরিসংখ্যানগত ভাষা মডেলিংয়ের পথপ্রদর্শক। ২০০১ সালে ৩০ কোটি শব্দের উপর প্রশিক্ষিত একটি মসৃণ এন-গ্রাম মডেল সেই সময়ে অত্যাধুনিক বিভ্রান্তি অর্জন করেছিল।[] ২০০০-এর দশকে, যখন ইন্টারনেট ব্যবহার প্রচলিত হয়ে ওঠে, কিছু গবেষক ইন্টারনেট-স্কেল ল্যাঙ্গুয়েজ ডেটাসেট ("কর্পাস হিসেবে ওয়েব"[]) তৈরি করেছিলেন, যার ভিত্তিতে তারা পরিসংখ্যানগত ভাষার মডেলগুলিকে প্রশিক্ষণ দিয়েছিলেন।[১০][১১] ২০০৯ সালে, বেশিরভাগ ভাষা প্রক্রিয়াকরণের কাজগুলিতে পরিসংখ্যানগত ভাষার মডেলগুলি প্রতীকী ভাষার মডেলগুলির উপর আধিপত্য বিস্তার করে, কারণ তারা দরকারীভাবে বড় ডেটাসেটগুলি গ্রহণ করতে সক্ষম।[১২]

২০১২ সালের দিকে যখন নিউরাল নেটওয়ার্কগুলি চিত্র প্রক্রিয়াকরণের ক্ষেত্রে প্রাধান্য পেতে শুরু করে,[১৩] তখন এগুলিকে ভাষা মডেলিংয়ের ক্ষেত্রেও ব্যবহার করা হতে থাকে। ২০১৬ সালে গুগল তার অনুবাদ সেবা নিউরাল মেশিন ট্রান্সলেশনে (এনএমটি) রূপান্তরিত করে। এটি ট্রান্সফরমার প্রযুক্তির আগের সময়ের ঘটনা এবং তখন এটি করা হয়েছিল সিকুয়েন্স টু সিকুয়েন্স (seq2seq) গভীর এলএসটিএম নেটওয়ার্কের মাধ্যমে।

২০১৭ সালের নিউরআইপিএস কনফারেন্স, গুগলের গবেষকরা তাদের গুরুত্বপূর্ণ প্রবন্ধ "মনোযোগ ইজ অল ইউ নিড" এ ট্রান্সফরমার স্থাপত্যটি উপস্থাপন করেন। এই প্রবন্ধের লক্ষ্য ছিল ২০১৪ সালের সিক২সিক (seq2seq) প্রযুক্তির উন্নতি করা।[১৪] এটি মূলত ২০১৪ সালে বাহদানাউ এট আল. দ্বারা ডেভেলপ করা মনোযোগ পদ্ধতির উপর ভিত্তি করে ছিল।[১৫] পরবর্তী বছর ২০১৮ সালে, বার্ট উপস্থাপিত হয় এবং দ্রুত "সর্বব্যাপী" হয়ে ওঠে।[১৬] যদিও মূল ট্রান্সফরমারে এনকোডার এবং ডিকোডার উভয় ব্লক ছিল, কিন্তু বার্ট একটি শুধু-এনকোডার মডেল।

যদিও ২০১৮ সালে শুধু-ডিকোডার জিপিটি-১ উপস্থাপন করা হয়েছিল, ২০১৯ সালে জিপিটি-২ ব্যাপক মনোযোগ আকর্ষণ করে কারণ ওপেনএআই প্রথমে এটি জনসাধারণের কাছে মুক্তি দেওয়ার জন্য খুব শক্তিশালী মনে করেছিল, ক্ষতিকর ব্যবহারের আশঙ্কায়।[১৭] ২০২০ সালে জিপিটি-৩ আরও একধাপ এগিয়ে গিয়ে টেমপ্লেট:As of শুধুমাত্র এপিআই মাধ্যমে পাওয়া যাচ্ছে এবং মডেলটি স্থানীয়ভাবে ডাউনলোড করে চালানোর সুযোগ নেই। তবে, ২০২২ সালে ব্যবহারকারীদের জন্য উন্মুক্ত ব্রাউজার-ভিত্তিক চ্যাটজিপিটি সাধারণ জনগণের আগ্রহ আকর্ষণ করে এবং কিছু মিডিয়া হাইপ ও অনলাইনে গুঞ্জন সৃষ্টি করে।[১৮] ২০২৩ সালের জিপিটি-৪ তার বৃদ্ধি পাওয়া নির্ভুলতা এবং বহুমাত্রিক সক্ষমতার জন্য প্রশংসিত হয় এবং একে "পবিত্র রহস্য" হিসেবে বিবেচনা করা হয়।[১৯] ওপেনএআই জিপিটি-৪ এর উচ্চ-স্তরের স্থাপত্য এবং প্যারামিটার সংখ্যা প্রকাশ করেনি।

মূল কাগজ থেকে ট্রান্সফরমার মডেলের প্রধান উপাদানগুলির একটি চিত্র, যেখানে বহুমুখী মনোযোগের পরে (আগের পরিবর্তে) স্তরগুলি স্বাভাবিক করা হয়েছিল

প্রতিযোগিতামূলক ভাষার মডেলগুলি বেশিরভাগ ক্ষেত্রেই জিপিটি সিরিজের সমান হতে চেষ্টা করেছে, কমপক্ষে প্যারামিটার সংখ্যা অনুযায়ী।[২০]

২০২২ সাল থেকে, উৎস-উপলব্ধ মডেলগুলি জনপ্রিয়তা লাভ করছে, বিশেষ করে প্রথমে ব্লুম এবং এলএলএমএ এর মাধ্যমে, যদিও উভয়ই ব্যবহারের ক্ষেত্রে কিছু সীমাবদ্ধতা রয়েছে। মিস্ট্রাল কৃত্রিম বুদ্ধিমত্তার মডেল মিস্ট্রাল ৭বি এবং মিক্সট্রাল ৮এক্স৭বি অধিক নমনীয় অ্যাপাচি লাইসেন্সে রয়েছে। টেমপ্লেট:As of, লামা ৩ ৭০ বিলিয়ন প্যারামিটার মডেলের নির্দেশনা অনুযায়ী সুনির্দিষ্টভাবে টিউন করা ভেরিয়েন্ট হচ্ছে সবচেয়ে শক্তিশালী ওপেন ভাষার মডেল, যা এলএমএসওয়াইএস চ্যাটবট এরিনা লিডারবোর্ড অনুযায়ী জিপিটি-৩.৫ এর চেয়ে শক্তিশালী, তবে জিপিটি-৪ এর চেয়ে কম শক্তিশালী।[২১]

২০২৪ সালের হিসাব অনুযায়ী, সবচেয়ে বড় এবং শক্তিশালী মডেলগুলি সবই ট্রান্সফরমার স্থাপত্যের উপর ভিত্তি করে। কিছু সাম্প্রতিক বাস্তবায়ন অন্য স্থাপত্যের উপর ভিত্তি করে তৈরি, যেমন পুনরাবৃত্ত স্নায়ু নেটওয়ার্ক ভেরিয়েন্ট এবং মাম্বা (একটি স্টেট স্পেস মডেল)।[২২][২৩][২৪]

ডেটাসেট প্রক্রিয়াকরণ

টেমপ্লেট:আরও দেখুন

টোকেনাইজেশন

টেমপ্লেট:Anchor

যেহেতু মেশিন লার্নিং অ্যালগরিদমগুলি সংখ্যা প্রক্রিয়া করে, পাঠ্যকে সংখ্যায় রূপান্তর করা প্রয়োজন হয়। প্রথম ধাপে, একটি শব্দকোষ নির্ধারণ করা হয়, তারপর প্রতিটি শব্দকোষ ভুক্তির জন্য এককভাবে কিন্তু এলোমেলোভাবে পূর্ণসংখ্যার সূচক নির্ধারিত হয়। এরপর পূর্ণসংখ্যার সূচকের সাথে একটি এমবেডিং যুক্ত করা হয়। অ্যালগরিদমগুলির মধ্যে রয়েছে বাইট-পেয়ার এনকোডিং (বিপিই) এবং শব্দখন্ড। এছাড়া কিছু বিশেষ টোকেন রয়েছে যা কন্ট্রোল ক্যারেক্টার হিসেবে কাজ করে, যেমন [MASK] মাক্সড আউট টোকেন (যা বার্টে ব্যবহৃত হয়), এবং [UNK] ("অজানা") শব্দকোষে না পাওয়া অক্ষরের জন্য ব্যবহৃত হয়। এছাড়া কিছু বিশেষ চিহ্ন রয়েছে যা বিশেষ পাঠ্য ফরম্যাটিং নির্দেশ করতে ব্যবহৃত হয়। উদাহরণস্বরূপ, "Ġ" রোবার্টা এবং জিপিটিতে পূর্ববর্তী সাদা স্থান নির্দেশ করে। "##" বার্টে পূর্ববর্তী শব্দের ধারাবাহিকতা নির্দেশ করে।[২৫]

উদাহরণস্বরূপ, জিপিটি-৩ (পুরাতন) tokenizer: texts -> series of numerical "tokens" কে ভেঙ্গে বিপিই টোকেনাইজার ব্যবহার করে নিম্নরূপে ব্যবহার করবে:

token izer :  texts  -> series  of  numerical  " t ok ens "

টোকেনাইজেশন ডেটাসেটগুলিকে সংকুচিতও করে। যেহেতু সাধারণত এলএলএমগুলো ইনপুট হিসেবে এমন একটি অ্যারে প্রয়োজন যা অসমতল না হয়, ছোট পাঠ্যগুলোকে "প্যাড" করা হয় যতক্ষণ না সেগুলো সবচেয়ে দীর্ঘ পাঠ্যের দৈর্ঘ্য মেলে। প্রতিটি শব্দের জন্য গড়ে কতটুকু টোকেন প্রয়োজন, তা ডেটাসেটের ভাষার উপর নির্ভর করে।[২৬][২৭]

বিপিই

টেমপ্লেট:মূল নিবন্ধ একটি উদাহরণ হিসেবে, বাইট-পেয়ার এনকোডিং ভিত্তিক একটি টোকেনাইজার বিবেচনা করা যাক। প্রথম ধাপে, সমস্ত অনন্য অক্ষর (সাদা স্থান এবং যতিচিহ্ন) একটি প্রাথমিক এন-গ্রাম সেট (অর্থাৎ, প্রাথমিক ইউনিগ্রাম সেট) হিসেবে বিবেচিত হয়। পরবর্তী ধাপে, সবচেয়ে বেশি উপস্থিত থাকা দুইটি পাশবর্তী অক্ষর একত্রিত হয়ে একটি বাই-গ্রামে পরিণত হয় এবং সেই জোড়া দিয়ে সমস্ত উদাহরণ প্রতিস্থাপিত হয়। তারপর, যেসব পূর্ববর্তী মিলিত এন-গ্রাম একে অপরের সাথে সবচেয়ে বেশি মিলিত হয়, সেগুলো আবার একত্রিত হয়ে আরও দীর্ঘ এন-গ্রামে পরিণত হয়, যতক্ষণ না একটি নির্দিষ্ট আকারের শব্দকোষ পাওয়া যায় (জিপিটি-৩ এর ক্ষেত্রে, আকারটি ৫০২৫৭)।[২৮] টোকেনাইজার প্রশিক্ষিত হওয়ার পর, যে কোনো পাঠ্য এটিতে টোকেনাইজ করা যেতে পারে, যতক্ষণ না এতে প্রাথমিক ইউনিগ্রাম সেটে না পাওয়া অক্ষর থাকে।[২৯]

সমস্যা

একটি টোকেন শব্দকোষ যা মূলত ইংরেজি করপাস থেকে নিষ্কৃত ফ্রিকোয়েন্সির ভিত্তিতে তৈরি, গড়ে একটি ইংরেজি শব্দের জন্য যতটা সম্ভব কম টোকেন ব্যবহার করে। তবে, এমন একটি ইংরেজি-অপটিমাইজড টোকেনাইজার দ্বারা অন্য কোনো ভাষার গড়ে একটি শব্দকে কোড করা হলে, তা সাবঅপটিমাল পরিমাণ টোকেন-এ বিভক্ত হয়ে যায়। উদাহরণস্বরূপ, জিপিটি-২ টোকেনাইজার কিছু ভাষার জন্য শব্দপ্রতি ১৫ গুণ বেশি টোকেন ব্যবহার করতে পারে, যেমন মিয়ানমারের শান ভাষার জন্য। এমনকি আরও ব্যাপক ব্যবহৃত ভাষাগুলোর মতো পর্তুগিজ এবং জার্মান ভাষার জন্য ইংরেজির তুলনায় "৫০% বেশি" টোকেন ব্যবহার করতে হয়।[৩০]

লালচে (গ্রিডি) টোকেনাইজেশন পাঠ্য সম্পূর্ণ করার ক্ষেত্রে সূক্ষ্ম সমস্যাও সৃষ্টি করে।[৩১]

ডেটাসেট পরিষ্কারকরণ

টেমপ্লেট:মূল নিবন্ধ এলএলএম প্রশিক্ষণের প্রেক্ষাপটে, সাধারণত ডেটাসেটগুলো পরিষ্কার করা হয়। যাতে বিপজ্জনক অংশগুলো বাদ দেওয়া হয়, নিম্নমানের ডেটা ফেলে দেওয়া হয় এবং ডুপ্লিকেশন দূর করা হয়।[৩২] পরিষ্কার করা ডেটাসেট প্রশিক্ষণের দক্ষতা বাড়াতে পারে এবং পরবর্তী কার্যকারিতায় উন্নতি ঘটাতে পারে।[৩৩][৩৪] একটি প্রশিক্ষিত এলএলএম অন্য একটি এলএলএম প্রশিক্ষণের জন্য ডেটাসেট পরিষ্কার করতে ব্যবহার করা যেতে পারে।[৩৫]

ওয়েবে এলএলএম-উৎপন্ন বিষয়বস্তুের পরিমাণ বাড়ানোর পাশাপাশি ভবিষ্যতে ডেটা পরিষ্কারের প্রক্রিয়ায় এমন বিষয়বস্তু ছাঁকনি করা অন্তর্ভুক্ত হতে পারে। এলএলএম-উৎপন্ন বিষয়বস্তু সমস্যা সৃষ্টি করতে পারে যদি বিষয়বস্তুটি মানুষের লেখা পাঠ্যের মতো হয় (যা ছাঁকনি করা কঠিন করে তোলে) কিন্তু এর গুণমান কম হয় (যা এতে প্রশিক্ষিত মডেলগুলোর কার্যকারিতা হ্রাস করে)।[৩৬]

সিন্থেটিক ডেটা

টেমপ্লেট:মূল নিবন্ধ সবচেয়ে বড় ভাষা মডেলের প্রশিক্ষণের জন্য স্বাভাবিকভাবে উপলব্ধের চেয়ে বেশি ভাষাগত ডেটার প্রয়োজন হতে পারে অথবা স্বাভাবিকভাবে প্রাপ্ত ডেটা অপর্যাপ্ত মানের হতে পারে। সেক্ষেত্রে সিন্থেটিক ডেটা ব্যবহার করা যেতে পারে। মাইক্রোসফটের ফি (Phi) সিরিজের এলএলএমগুলি অন্য এলএলএম দ্বারা তৈরি পাঠ্যপুস্তকের মতো ডেটার উপর প্রশিক্ষিত।[৩৭]

প্রশিক্ষণ ও স্থাপত্য

টেমপ্লেট:আরও দেখুন

মানুষের প্রতিক্রিয়া থেকে উন্নততর প্রশিক্ষণ (আরএলএইচএফ)

টেমপ্লেট:মূল নিবন্ধ মানুষের প্রতিক্রিয়া থেকে উন্নততর প্রশিক্ষণ বা রিইনফোর্সমেন্ট লার্নিং ফ্রম হিউম্যান ফিডব্যাক (আরএলএইচএফ) অ্যালগরিদমের মাধ্যমে (যেমন- প্রক্সিমাল পলিসি অপ্টিমাইজেশন) মানুষের পছন্দের ডেটাসেটের উপর ভিত্তি করে একটি মডেলকে আরও সূক্ষ্মভাবে উন্নত করতে ব্যবহৃত হয়।[৩৮]

নির্দেশনা উন্নয়ন

"স্ব-নির্দেশনা" পদ্ধতি ব্যবহার করে এলএলএমগুলো সঠিক উত্তর তৈরি করতে সক্ষম হয়েছে। এটি পূর্বের যে কোন সরল বা ভুল উত্তর প্রতিস্থাপন করে। এটি শুরু হয় কিছু মানব-উৎপন্ন সংশোধনী থেকে। উদাহরণস্বরূপ, যদি নির্দেশনা হয় "হ্যামলেটের প্রধান থিমগুলো সম্পর্কে একটি প্রবন্ধ লিখুন", তবে প্রাথমিকভাবে এলএলএম যে ভুল উত্তরটি দিতে পারে তা হতে পারে, "যদি আপনি ১৭ মার্চের পর প্রবন্ধটি জমা দেন, তবে প্রতিদিন দেরির জন্য আপনার গ্রেড ১০% কমিয়ে দেওয়া হবে," যা মূলত প্রবন্ধের পরিবর্তে কোনও সাধারণ নিয়মের উপর ভিত্তি করে লেখা হয়, কারণ কর্পাসে এই ধরনের শব্দচয়ন বেশি পাওয়া যায়।[৩৯]

বিশেষজ্ঞদের মিশ্রণ

টেমপ্লেট:মূল নিবন্ধ সবচেয়ে বড় এলএলএম প্রশিক্ষণ এবং সরাসরি ব্যবহার করার জন্য খুব ব্যয়বহুল হতে পারে। এই ধরনের মডেলগুলির জন্য বিশেষজ্ঞদের মিশ্রণ (এমওই) প্রয়োগ করা যেতে পারে। বিশেষজ্ঞদের মিশ্রণ পদ্ধতিটি ২০১৭ সাল থেকে গুগল গবেষকদের ১ ট্রিলিয়ন প্যারামিটার পর্যন্ত পৌঁছানোর মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য গবেষণার একটি ধারা।[৪০][৪১][৪২]

প্রম্পট ইঞ্জিনিয়ারিং, মনোযোগের প্রক্রিয়া এবং প্রসঙ্গ উইন্ডো

টেমপ্লেট:আরও দেখুন পূর্বে শুধুমাত্র (ব্যয়বহুল) ফাইন-টিউনিং এর মাধ্যমে অর্জন করা যায় এমন বেশিরভাগ ফলাফল প্রম্পট ইঞ্জিনিয়ারিং এর মাধ্যমে অর্জন করা যেতে পারে, যদিও এটি একক কথোপকথনের সুযোগের মধ্যে সীমাবদ্ধ (আরো সঠিকভাবে, একটি প্রসঙ্গ উইন্ডোর সুযোগের মধ্যে সীমাবদ্ধ)।[৪৩]

যখন প্রতিটি হেড তার নিজস্ব মানদণ্ড অনুযায়ী হিসাব করে যে অন্যান্য টোকেনগুলো "it_" টোকেনের জন্য কতটা প্রাসঙ্গিক, তখন লক্ষ্য করুন যে দ্বিতীয় মনোযোগ হেড, যা দ্বিতীয় কলামে দেখানো হয়েছে, বেশিরভাগ মনোযোগ দিচ্ছে প্রথম দুটি সারিতে, অর্থাৎ "The" এবং "animal" টোকেনগুলোর দিকে। এবং তৃতীয় কলামটি অধিকাংশ মনোযোগ দিচ্ছে নিচের দুটি সারিতে, অর্থাৎ "tired" টোকেনের দিকে, যা দুটি টোকেন হিসেবে টোকেনাইজ করা হয়েছে।[৪৪]

কোন টোকেনগুলো একে অপরের সাথে সম্পর্কিত, তা জানতে প্রসঙ্গ উইন্ডোর মধ্যে মনোযোগ মেকানিজম প্রতিটি টোকেনের জন্য "সফট" ওজন হিসাব করে, যাকে বলা হয় টোকেনের এমবেডিং। এটি একাধিক মনোযোগ হেড ব্যবহার করে, যেখানে প্রতিটি হেডের নিজস্ব "প্রাসঙ্গিকতা" থাকে এবং এটি তার নিজস্ব সফট ওজন হিসাব করে। উদাহরণস্বরূপ, ছোট (১১৭ মিলিয়ন প্যারামিটার সাইজের) জিপিটি-২ মডেলটির ১২টি মনোযোগ হেড ছিল এবং এর প্রসঙ্গ উইন্ডো ছিল মাত্র ১ হাজার টোকেন।[৪৫] এর মাঝারি ভার্সনে ৩৪৫ মিলিয়ন প্যারামিটার রয়েছে এবং এতে ২৪টি লেয়ার রয়েছে, প্রতিটির মধ্যে ১২টি মনোযোগ হেড রয়েছে। প্রশিক্ষণের জন্য ৫১২ ব্যাচ সাইজ ব্যবহার করা হয়েছিল।[২৯]

বড় বড় মডেলগুলি, যেমন- ফেব্রুয়ারি ২০২৪-এ প্রকাশিত গুগলের জেমিনি ১.৫-এর প্রসঙ্গ উইন্ডো ১ মিলিয়ন টোকেন পর্যন্ত হতে পারে (এছাড়া ১০ মিলিয়ন প্রসঙ্গ উইন্ডোও "সফলভাবে পরীক্ষা" করা হয়েছে)।[৪৬] অন্যান্য বড় প্রসঙ্গ উইন্ডোযুক্ত মডেলগুলির মধ্যে রয়েছে অ্যানথ্রোপিকের ক্লোড ২.১, যার প্রসঙ্গ উইন্ডো ২০০,০০০ টোকেন পর্যন্ত হতে পারে।[৪৭] লক্ষ্য রাখতে হবে, এই সর্বাধিক সংখ্যা ইনপুট টোকেনের জন্য এবং আউটপুট টোকেনের সর্বাধিক সংখ্যা ইনপুটের থেকে আলাদা এবং সাধারণত ছোট হয়। উদাহরণস্বরূপ, জিপিটি-৪ টার্বো মডেলে আউটপুটের সর্বাধিক সংখ্যা ৪০৯৬ টোকেন।[৪৮] মডেলটির পরবর্তী উত্তর তৈরির জন্য যে আলাপচারিতার দৈর্ঘ্যটি মনে রাখা সম্ভব, তা প্রসঙ্গ উইন্ডোর আকার দ্বারা সীমিত। উদাহরণস্বরূপ, যদি চ্যাটজিপিটির সঙ্গে আলাপচারিতার দৈর্ঘ্য প্রসঙ্গ উইন্ডোর চেয়ে বেশি হয়, তাহলে কেবল প্রসঙ্গ উইন্ডোর মধ্যে থাকা অংশগুলোই পরবর্তী উত্তর তৈরির সময় বিবেচনা করা হয় অথবা মডেলটিকে আলাপচারিতার দূরের অংশগুলো সংক্ষেপে উপস্থাপন করতে কিছু অ্যালগরিদম প্রয়োগ করতে হতে পারে।

প্রসঙ্গ উইন্ডো বড় করার কিছু সীমাবদ্ধতা রয়েছে, যেমন এটি বেশি গণনামূলক খরচ তৈরি করতে পারে এবং স্থানীয় প্রসঙ্গে মনোযোগ কমিয়ে দিতে পারে, আবার প্রসঙ্গ উইন্ডো ছোট করলে মডেলটি গুরুত্বপূর্ণ দীর্ঘমেয়াদি সম্পর্ক উপেক্ষা করতে পারে। এগুলোর মধ্যে সঠিক সমন্বয় করা পরীক্ষামূলক এবং ক্ষেত্রভিত্তিক বিবেচনার বিষয়।

সেগমেন্টটি কীভাবে চলতে থাকে তা অনুমান করার জন্য একটি মডেলকে পূর্বপ্রশিক্ষিত করা যেতে পারে অথবা সেগমেন্টে কী অনুপস্থিত, তার প্রশিক্ষণ ডেটাসেট থেকে একটি সেগমেন্ট দেওয়া হয়।[৪৯] এটা নিচের যেকোনো একটি হতে পারে:

  • অটোরিগ্রেসিভ (অথাৎ, সেগমেন্ট কিভাবে চলতে থাকবে তা পূর্বাভাস করা, যেমন জিপিটির কাজ): উদাহরণস্বরূপ, যদি সেগমেন্ট হয় "I like to eat", তাহলে মডেলটি ভবিষ্যদ্বাণী করতে পারে "ice cream" বা "sushi"।
  • মাস্কড (অথাৎ, সেগমেন্টের অনুপস্থিত অংশ পূর্ণ করা, যেমন "বার্ট"[৫০] মডেল করে থাকে): উদাহরণস্বরূপ, যদি সেগমেন্ট হয় "I like to [__] [__] cream", তবে মডেলটি পূর্বাভাস করতে পারে যে এখানে "eat" এবং "ice" অনুপস্থিত।

মডেলগুলো সহায়ক কাজগুলোতে প্রশিক্ষিত হতে পারে, যা তাদের ডেটা বিতরণের বোঝাপড়া পরীক্ষা করে। যেমন নেক্সট সেন্টেন্স প্রেডিকশনে (এনএসপি) দুটি বাক্য প্রদর্শিত হয় এবং মডেলটিকে পূর্বাভাস করতে হয় যে, সেগুলি প্রশিক্ষণ কর্পাসে পরপর উপস্থিত কিনা।[৫০] প্রশিক্ষণ চলাকালীন, প্রশিক্ষণ স্থিতিশীল রাখতে রেগুলারাইজেশন লস ব্যবহার করা হয়। তবে, পরীক্ষণ এবং মূল্যায়নের সময় সাধারণত রেগুলারাইজেশন লস ব্যবহার করা হয় না।

অবকাঠামো

সবচেয়ে বড় মডেলের প্রশিক্ষণের জন্য যথেষ্ট পরিকাঠামো প্রয়োজন।[৫১][৫২][৫৩]

প্রশিক্ষণ ব্যয়

২০১৭ - ২০২৩ পর্যন্ত মডেলগুলির খরচ

সফটওয়্যার এবং হার্ডওয়্যারের উন্নতির কারণে ২০২০ সাল থেকে খরচ অনেক কমে গেছে, এমনভাবে যে ২০২৩ সালে ১২ বিলিয়ন প্যারামিটারযুক্ত এলএলএম প্রশিক্ষণের কম্পিউটেশনাল খরচ হচ্ছে ৭২,৩০০ এ১০০-জিপিইউ-ঘণ্টা, যখন ২০২০ সালে ১.৫ বিলিয়ন প্যারামিটারযুক্ত এলএলএম (যা ২০২০ সালের প্রযুক্তির তুলনায় দুই শ্রেণী ছোট ছিল) প্রশিক্ষণের খরচ ছিল ৮০,০০০ ডলার থেকে ১৬,০০,০০০ ডলার পর্যন্ত।[৫৪][৫৫][৫৬] ২০২০ সাল থেকে, ক্রমবর্ধমান বড় মডেলগুলিতে বিপুল পরিমাণ অর্থ বিনিয়োগ করা হয়েছে। উদাহরণস্বরূপ, ২০১৯ সালে জিপিটি-২ (অর্থাৎ ১.৫ বিলিয়ন প্যারামিটার মডেল) প্রশিক্ষণের খরচ ছিল ৫০,০০০ ডলার, ২০২২ সালে পালম (অর্থাৎ ৫৪০ বিলিয়ন প্যারামিটার মডেল) প্রশিক্ষণের খরচ ছিল ৮ মিলিয়ন ডলার, এবং মেগাট্রন-টার্নিং এনএলজি ৫৩০বি (২০২১ সালে) প্রশিক্ষণের খরচ ছিল প্রায় ১১ মিলিয়ন ডলার।[৫৭]

ট্রান্সফরমার-ভিত্তিক এলএলএমের জন্য প্রশিক্ষণ খরচ অনুমান খরচের চেয়ে অনেক বেশি। এটি একটি টোকেনে প্রশিক্ষণের জন্য প্রতি প্যারামিটারে ৬ ফ্লপ খরচ করে, যেখানে একটি টোকেনে অনুমান করার জন্য প্রতি প্যারামিটারে ১ থেকে ২ ফ্লপ খরচ হয়।[৫৮]

সরঞ্জাম ব্যবহার

কিছু কাজ রয়েছে, যেগুলি প্রধানত কোনো এলএলএম (ল্যাঙ্গুয়েজ লার্নিং মডেল) দিয়ে সমাধান করা সম্ভব নয়, অন্তত বাহ্যিক কোনো সরঞ্জাম বা অতিরিক্ত সফটওয়্যার ছাড়া। এর একটি উদাহরণ হলো, যদি ব্যবহারকারী ইনপুট দেয় ‘৩৫৪ * ১৩৯ = ’ এবং এলএলএমের প্রশিক্ষণ কর্পাসে এই গাণিতিক হিসাবের কোনো সমাধান আগে থেকে না থাকে, তবে এলএলএম সেই সমাধান দিতে পারবে না।টেমপ্লেট:Dubious এমন পরিস্থিতিতে এলএলএমকে কোড চালিয়ে ফলাফল বের করতে হবে, তারপর সেটি তার উত্তরে সন্নিবেশিত করা যাবে।টেমপ্লেট:Dubious আরেকটি উদাহরণ হলো “এখন সময় কত? এটা হলো”—এখানে এলএলএমকে সিস্টেমের বর্তমান সময় জানার জন্য একটি আলাদা প্রোগ্রাম কোড চালাতে হবে, যাতে সে সঠিক সময় তার উত্তরে দিতে পারে।[৫৯][৬০] এই মৌলিক পদ্ধতিটি আরও উন্নত করা যেতে পারে একাধিক প্রোগ্রাম তৈরি এবং অন্যান্য পদ্ধতি প্রয়োগের মাধ্যমে।[৬১]

সাধারণত, কোনো এলএলএমকে সরঞ্জাম ব্যবহার করতে সক্ষম করতে হলে, সেটিকে সরঞ্জাম ব্যবহারের জন্য ফাইন-টিউন করতে হয়। যদি সরঞ্জামের সংখ্যা সীমিত হয়, তবে একবারই ফাইন-টিউন করা যেতে পারে। তবে, যদি সরঞ্জামের সংখ্যা অসীমভাবে বাড়তে পারে, যেমন অনলাইন এপিআই পরিষেবার মতো, তাহলে এলএলএমকে ফাইন-টিউন করা যেতে পারে যাতে তা এপিআই নথিপত্র পড়তে পারে এবং সঠিকভাবে এপিআই কল করতে পারে।[৬২][৬৩]

সরঞ্জাম ব্যবহারের একটি সহজ রূপ হল রিট্রিভাল-অগমেন্টেড জেনারেশন: এটি হলো এলএলএমকে ডকুমেন্ট রিট্রিভালের মাধ্যমে শক্তিশালী করা। একটি প্রশ্ন দেওয়ার পর, একটি ডকুমেন্ট রিট্রিভারকে ডাকা হয় যাতে সবচেয়ে প্রাসঙ্গিক ডকুমেন্টগুলো উদ্ধার করা যায়। এটি সাধারণত প্রশ্ন এবং ডকুমেন্টগুলোকে ভেক্টরে এনকোড করে করা হয়, তারপর প্রশ্নের ভেক্টরের সাথে সবচেয়ে বেশি মিল থাকা ডকুমেন্টগুলো খুঁজে বের করা হয় (যা সাধারণত ভেক্টর ডাটাবেজে সংরক্ষিত থাকে)। এরপর এলএলএম উক্ত প্রশ্ন এবং উদ্ধারকৃত ডকুমেন্টগুলোর থেকে প্রাপ্ত প্রসঙ্গ ব্যবহার করে একটি আউটপুট তৈরি করে।[৬৪]

এজেন্সি

একটি এলএলএম সাধারণত নিজে থেকে একটি স্বতন্ত্র (বা স্বাধীন) কারক নয়, কারণ এর মধ্যে গতিশীল পরিবেশের সঙ্গে যোগাযোগ করার ক্ষমতা, অতীতের আচরণ মনে রাখার সক্ষমতা এবং ভবিষ্যতের পরিকল্পনা করার ক্ষমতা নেই। তবে এতে প্রোফাইলিং, মেমোরি, পরিকল্পনা এবং অ্যাকশনের মতো মডিউল সংযুক্ত করে একে স্বতন্ত্র কারকে রূপান্তরিত করা সম্ভব।[৬৫]

রিএক্ট প্যাটার্ন এলএলএম দিয়ে কারক তৈরি করার একটি পদ্ধতি। রিএক্ট "রিজন + এক্ট" (যুক্তি+ক্রিয়া) এর সংক্ষিপ্ত রূপ। এখানে এলএলএমকে একটি পরিকল্পনাকারী হিসেবে ব্যবহার করা হয়। এলএলএমকে "কথা বলে ভাবতে" উৎসাহিত করা হয়। বিশেষভাবে, এলএলএমকে পরিবেশের একটি লিখিত বর্ণনা, একটি লক্ষ্য, সম্ভাব্য ক্রিয়াগুলির একটি তালিকা এবং পূর্ববর্তী ক্রিয়া ও পর্যবেক্ষণের একটি রেকর্ড দেয়া হয়। এলএলএম প্রথমে এক বা একাধিক চিন্তা তৈরি করে, তারপর সেই চিন্তা অনুযায়ী একটি ক্রিয়া উৎপন্ন করে, যা পরবর্তীতে পরিবেশে কার্যকর করা হয়।[৬৬] এলএলএম পরিকল্পনাকারীকে যে ভাষাগত বর্ণনা দেয়া হয়, তা এমনকি একটি কাগজের ল্যাটেক কোডও হতে পারে, যা পরিবেশ বর্ণনা করে।[৬৭]

ডিইপিএস (DEPS, ডিস্ক্রাইব, এক্সপ্লেইন, প্ল্যান ও সিলেক্টের সংক্ষেপ) পদ্ধতিতে, প্রথমে একটি এলএলএমকে চিত্র বর্ণনাগুলির মাধ্যমে ভিজ্যুয়াল বিশ্বের সাথে যুক্ত করা হয়, এরপর এটি তার পূর্বপ্রশিক্ষিত জ্ঞান এবং পরিবেশ থেকে পাওয়া প্রতিক্রিয়ার ভিত্তিতে জটিল কাজ ও আচরণের জন্য প্ল্যান তৈরি করতে বলা হয়।[৬৮]

রিফ্লেক্সন পদ্ধতি[৬৯] একটি কারক তৈরি করে যা একাধিক পর্বের মাধ্যমে শেখে। প্রতিটি পর্বের শেষে, এলএলএমকে পর্বের রেকর্ড দেয়া হয়, এবং এটি "শিক্ষা গ্রহণ করতে" চিন্তা করতে বলা হয়, যা পরবর্তী পর্বে আরও ভালো পারফর্ম করতে সহায়তা করবে। এই "শিক্ষা গ্রহণ" পরবর্তী পর্বগুলিতে কারককে দেয়া হয়।

মন্টে কারলো ট্রি সার্চ (Monte Carlo Tree Search) এলএলএমকে রোলআউট হিউরিস্টিক হিসেবে ব্যবহার করতে পারে। যখন একটি প্রোগ্রামেটিক বিশ্ব মডেল উপলব্ধ থাকে না, এলএলএমকে পরিবেশের একটি বর্ণনা দিয়ে বিশ্ব মডেল হিসেবে কাজ করতে বলা যেতে পারে।[৭০]=

ওপেন-এন্ডেড এক্সপ্লোরেশনে এলএলএমকে পর্যবেক্ষণগুলির "ইন্টারেস্টিংনেস" স্কোর করতে ব্যবহার করা যেতে পারে, যা একটি রিওয়ার্ড সিগন্যাল হিসেবে ব্যবহার হতে পারে। এটি একটি সাধারণ (অ-এলএলএম) উন্নততর প্রশিক্ষণ কারককে নির্দেশনা দিতে সাহায্য করে।[৭১] বিকল্পভাবে, এটি কারিকুলাম লার্নিংয়ের জন্য ক্রমশ কঠিন কাজ প্রস্তাব করতে পারে।[৭২] এলএলএম পরিকল্পনাকারী একক ক্রিয়া আউটপুট করার বদলে "স্কিলস" বা জটিল ক্রিয়া সিকোয়েন্সের জন্য ফাংশন তৈরি করতে পারে। এই স্কিলসগুলো সংরক্ষণ করা যায় এবং পরে প্রয়োগ করা যায়, যা পরিকল্পনায় ক্রমবর্ধমান বিমূর্ত স্তরের অনুমতি দেয়।[৭২]

এলএলএম-চালিত কারকগুলি তার পূর্ববর্তী প্রসঙ্গের দীর্ঘমেয়াদী স্মৃতি রাখতে পারে এবং এই স্মৃতিটি "রিট্রিভাল অগমেন্টেড জেনারেশন" এর মতো করা যায়। একাধিক কারক একে অপরের সাথে সামাজিকভাবে পারস্পরিক ক্রিয়া করতে পারে।[৭৩]

হ্রাসকরণ

সাধারণত এলএলএমগুলিকে একক বা অর্ধ-নির্ধারণ ফ্লোটিং পয়েন্ট সংখ্যা (ফ্লোট৩২ এবং ফ্লোট১৬) দিয়ে প্রশিক্ষণ দেয়া হয়। একটি ফ্লোট১৬ এর মধ্যে ১৬ বিট বা ২ বাইট থাকে, সুতরাং এক বিলিয়ন প্যারামিটার লোড করতে ২ গিগাবাইট জায়গা প্রয়োজন। সবচেয়ে বড় মডেলগুলির সাধারণত ১০০ বিলিয়ন প্যারামিটার থাকে, যার ফলে লোড করতে ২০০ গিগাবাইট জায়গা প্রয়োজন, যা বেশিরভাগ ভোক্তা ইলেকট্রনিক ডিভাইসের সক্ষমতার বাইরে চলে যায়।[৭৪]

পোস্ট-ট্রেইনিং কুয়ান্টাইজেশনের[৭৫] উদ্দেশ্য হলো, একটি প্রশিক্ষিত মডেলের প্যারামিটারগুলির নির্ধারণের মাত্রা কমিয়ে তার জায়গার চাহিদা হ্রাস করা, একই সময় মডেলের কার্যকারিতা বেশিরভাগ বজায় রেখে।[৭৬][৭৭] কুয়ান্টাইজেশনের সবচেয়ে সাধারণ রূপ হলো, সমস্ত সংখ্যা নির্দিষ্ট বিটের মধ্যে ট্রাঙ্কেট (কেটে ফেলা) করা। এটি উন্নত করা যেতে পারে, প্রতিটি লেয়ারের জন্য আলাদা কুয়ান্টাইজেশন কোডবুক ব্যবহার করে। আরও উন্নতি করা যেতে পারে, ভিন্ন প্যারামিটারগুলির জন্য ভিন্ন নির্ধারণের মাত্রা প্রয়োগ করে, যেখানে বিশেষভাবে গুরুত্বপূর্ণ প্যারামিটারগুলির জন্য উচ্চতর নির্ধারণ রাখা হয় ("আউটলাইয়ার ওয়েটস")।[৭৮] ভিজুয়াল গাইডের জন্য দেখুন:[৭৯]

যদিও কুয়ান্টাইজড মডেলগুলি সাধারণত ফ্রিজ করা থাকে এবং শুধুমাত্র প্রি-কুয়ান্টাইজড মডেলগুলি ফাইন-টিউন করা হয়, তবুও কুয়ান্টাইজড মডেলগুলি ফাইন-টিউন করা সম্ভব।[৮০]

বহুমাত্রিকতা

টেমপ্লেট:আরও দেখুন বহুমাত্রিকতা মানে হলো "একাধিক মাত্রা থাকা" এবং একটি "মাত্রিকতা" একটি ইনপুট বা আউটপুটের ধরন বোঝায়, যেমন ভিডিও, চিত্র, অডিও, পাঠ্য, প্রোপ্রিওসেপশন ইত্যাদি।[৮১] বহু এআই মডেল রয়েছে যা একটি মাত্রিকতা গ্রহণ করতে এবং অন্য একটি মাত্রিকতায় আউটপুট দিতে বিশেষভাবে প্রশিক্ষিত হয়েছে। যেমন আলেক্সনেট চিত্র থেকে লেবেল শনাক্ত করতে,[৮২] ভিজ্যুয়াল কোয়েশ্চন আন্সারিং চিত্র-পাঠ্য থেকে পাঠ্যে রূপান্তর করতে[৮৩] এবং কণ্ঠ শনাক্তকরণ কণ্ঠ থেকে পাঠ্যে রূপান্তর করতে প্রশিক্ষিত হয়েছে।

একটি সাধারণ পদ্ধতি যা এলএলএম থেকে বহুমাত্রিক মডেল তৈরি করতে ব্যবহৃত হয়, তা হলো প্রশিক্ষিত এনকোডারের আউটপুট "টোকেনাইজ" করা। সুনির্দিষ্টভাবে, একটি এলএলএম তৈরি করা যেতে পারে যা চিত্র বুঝতে পারে, এর জন্য: একটি প্রশিক্ষিত এলএলএম নেওয়া হয় এবং একটি প্রশিক্ষিত চিত্র এনকোডার E নেওয়া হয়। একটি ছোট বহু-লেয়ারের পেরসেপ্ট্রন f তৈরি করা হয়, যাতে যেকোনো y চিত্রের জন্য প্রক্রিয়াজাত ভেক্টর f(E(y)) সেই টোকেনের মতো একই মাত্রা ধারণ করে। এটিই একটি "চিত্র টোকেন"। এরপর পাঠ্য টোকেন এবং চিত্র টোকেন একত্রে ব্যবহৃত হয়। যৌথ মডেলটি একটি চিত্র-পাঠ্য ডেটাসেটে ফাইন-টিউন করা হয়। এই মৌলিক নির্মাণটি আরও উন্নতভাবে ব্যবহার করে মডেলটির কার্যকারিতা বৃদ্ধি করা যেতে পারে। চিত্র এনকোডারটি স্থিতিশীলতা বাড়াতে ফ্রিজ করা হতে পারে।[৮৪]

ফ্লেমিংগো টোকেনাইজেশন পদ্ধতির কার্যকারিতা প্রদর্শন করেছে, যেখানে একটি পূর্বপ্রশিক্ষিত ভাষা মডেল এবং চিত্র এনকোডারকে ফাইনটিউন করে এমন মডেলগুলোর চেয়ে ভিজ্যুয়াল প্রশ্নোত্তর ক্ষেত্রে ভালো ফলাফল দেখিয়েছে, যেগুলো স্ক্র্যাচ থেকে প্রশিক্ষিত।[৮৫] গুগলের পাম মডেলকে টোকেনাইজেশন পদ্ধতি ব্যবহার করে একটি বহুমাত্রিক মডেল পাম-ইতে ফাইনটিউন করা হয়েছে এবং এটি রোবট নিয়ন্ত্রণে প্রয়োগ করা হয়েছে।[৮৬] লামা মডেলগুলোও টোকেনাইজেশন পদ্ধতি ব্যবহার করে বহুমাত্রিক হিসেবে রূপান্তরিত হয়েছে, যাতে চিত্র ইনপুট[৮৭] এবং ভিডিও ইনপুট[৮৮] গ্রহণের ক্ষমতা তৈরি হয়েছে।

জিপিটি-৪ পাঠ্য এবং চিত্র উভয়কেই ইনপুট হিসেবে ব্যবহার করতে পারে[৮৯] (যদিও ভিশন কম্পোনেন্টটি জনসাধারণের জন্য জিপিটি-৪ভি পর্যন্ত প্রকাশিত হয়নি[৯০]); গুগল ডিপমাইন্ডের জেমিনি মডেলও বহুমাত্রিক।[৯১] মিসট্রাল ২০২৪ সালের সেপ্টেম্বরে তাদের নিজস্ব বহুমাত্রিক পিক্সট্রাল ১২বি মডেল উন্মোচন করে।[৯২]

বৈশিষ্ট্যাবলী

স্কেলিং নীতি

টেমপ্লেট:মূল নিবন্ধ নিম্নলিখিত চারটি হাইপার-প্যারামিটার একটি এলএলএমকে চিহ্নিত করে:

  • (পূর্ব-) প্রশিক্ষণের ব্যয় (C) (ব্যবহৃত গণনার মোট পরিমাণ),
  • কৃত্রিম নিউরাল নেটওয়ার্কের আকার, যেমন পরামিতি সংখ্যা N (যেমন- এর স্তরগুলিতে নিউরনের পরিমাণ, তাদের মধ্যে ওজনের পরিমাণ এবং পক্ষপাত),
  • এর (পূর্ব-) প্রশিক্ষিত ডেটাসেটের আকার (যেমন- কর্পাসে টোকেনের সংখ্যা, D),
  • (পূর্ব-) প্রশিক্ষণের পরে কর্মক্ষমতা।

এরা সাধারণ পরিসংখ্যানিক নীতির সাথে সম্পর্কিত, যেগুলিকে "স্কেলিং নীতি" বলা হয়। একক মহাকর্ষের জন্য স্বয়ংক্রিয়ভাবে প্রশিক্ষিত এলএলএমের জন্য একটি নির্দিষ্ট স্কেলিং নীতি ("চিনচিলা স্কেলিং") লগ-লগ লার্নিং রেট শিডিউলসহ জানায় যে—[৯৩]{C=C0NDL=ANα+BDβ+L0 এখানে

  • C মডেল প্রশিক্ষণের খরচ, যা ফ্লপ (ফ্লোটিং পয়েন্ট অপারেশনস) দ্বারা পরিমাপ করা হয়।
  • N মডেলের পরামিতির সংখ্যা।
  • D প্রশিক্ষণ সেটে টোকেনের সংখ্যা।
  • L গড় নেতিবাচক লগ-সম্ভাবনা ক্ষতি প্রতি টোকেন (ন্যাট/টোকেন), যা প্রশিক্ষিত এলএলএম টেস্ট ডেটাসেটে অর্জন করেছে।

এবং পরিসংখ্যানগত হাইপার-প্যারামিটারগুলি হল

  • C0=6, মানে হচ্ছে, এক টোকেন প্রশিক্ষণ করতে মডেলের প্রতি প্যারামিটার প্রশিক্ষণের জন্য ৬ ফ্লপ খরচ হয়। লক্ষ্য করুন যে, প্রশিক্ষণের খরচ অনুমানের খরচের তুলনায় অনেক বেশি, যেখানে এক টোকেন অনুমান করতে মডেলের প্রতি প্যারামিটার ১ থেকে ২ ফ্লপ খরচ হয়।[৫৮]
  • α=0.34,β=0.28,A=406.4,B=410.7,L0=1.69

উদ্ভূত ক্ষমতা

টেমপ্লেট:Anchor

যেসব পয়েন্টকে "ব্রেক" বলা হয়,[৯৪] সেখানে রেখাগুলোর ঢাল পরিবর্তিত হয় এবং এগুলি একটি লিনিয়ার-লগ প্লটে একাধিক লিনিয়ার সেগমেন্ট হিসেবে দেখা যায়, যেগুলি আর্স (বাঁকা রেখা) দ্বারা সংযুক্ত থাকে।

বৃহৎ মডেলগুলির কর্মক্ষমতা বিভিন্ন কাজের ওপর, যখন একটি লগ-লগ স্কেলে চিত্রিত করা হয়, তখন তা ছোট মডেলগুলোর দ্বারা অর্জিত কর্মক্ষমতার একটি সোজা রেখার এক্সট্রপোলেশন হিসেবে দেখা যায়। তবে, এই রেখার মধ্যে কখনো কখনো "ব্রেক" (বিরতি) দেখা যেতে পারে,[৯৪] যেখানে রেখার ঢাল আকস্মিকভাবে পরিবর্তিত হয় এবং যেখানে বৃহৎ মডেলগুলি "উদ্ভূত ক্ষমতা" অর্জন করে।[৪৩][৯৫] এগুলি মডেলের উপাদানগুলির জটিল পারস্পরিক ক্রিয়া থেকে উদ্ভূত হয় এবং সেগুলি স্পষ্টভাবে প্রোগ্রাম বা বিন্যাসিত করা হয় না।[৯৬]

এছাড়াও, সম্প্রতিক গবেষণায় প্রমাণিত হয়েছে যে, এআই সিস্টেমগুলি, যার মধ্যে বড় ভাষার মডেলও রয়েছে, মানুষের চিন্তাভাবনার মতো হিউরিস্টিক যুক্তি প্রয়োগ করতে সক্ষম। তারা সম্পূর্ণ যৌক্তিক প্রক্রিয়াকরণের এবং মানসিক তড়িৎ ক্রিয়া (হিউরিস্টিক) ব্যবহারের মধ্যে সমন্বয় সাধন করে, তাদের যুক্তির কৌশলগুলি যথার্থতা এবং প্রচেষ্টার মধ্যে ভারসাম্য বজায় রাখতে অভিযোজিত হয়। এই আচরণটি সম্পদ-যুক্ত যুক্তি মানব মানসিকতার নীতির সাথে সঙ্গতিপূর্ণ, যা সীমিত যৌক্তিকতা এবং দ্বৈত-প্রক্রিয়া তত্ত্বে আলোচনা করা হয়েছে।[৯৭]

উদ্ভূত ক্ষমতাগুলির মধ্যে সবচেয়ে আকর্ষণীয় হলো উদাহরণের প্রদর্শনী থেকে প্রসঙ্গের মধ্যে শিখন।[৯৮] প্রসঙ্গের মধ্যে শিখন এমন কাজগুলির সাথে জড়িত, যেমন:

  • প্রতিবেদনিত গণিত, আন্তর্জাতিক ধ্বনিমূলক বর্ণমালা ডিকোড করা, একটি শব্দের অক্ষর পুনঃব্যবস্থা, প্রেক্ষাপটে শব্দের অর্থ নির্ধারণ,[৪৩][৯৯][১০০] স্থানিক শব্দ, মৌলিক দিকনির্দেশ (যেমন, [0, 0, 1; 0, 0, 0; 0, 0, 0] এর জন্য "উত্তর-পূর্ব" প্রতিক্রিয়া দেওয়া), পাঠ্যে প্রতিনিধিত্ব করা রঙের শব্দ।[১০১]
  • চিন্তার ধারা প্রম্পটিং: মডেল আউটপুট চিন্তার ধারা প্রম্পটিং দ্বারা শুধুমাত্র তখনই উন্নত হয়, যখন মডেল আকার ৬২বি এর বেশি হয়। ছোট মডেলগুলি তাৎক্ষণিকভাবে উত্তর দেওয়ার জন্য প্রম্পট করলে চিন্তার ধারা প্রম্পটিং ছাড়াই ভালোভাবে কাজ করে।[১০২]
  • হিংলিশ (হিন্দি এবং ইংরেজির সংমিশ্রণ) প্যারাগ্রাফে আক্রমণাত্মক কনটেন্ট চিহ্নিত করা, এবং সোয়াহিলি প্রবচনের একটি সমতুল্য ইংরেজি রূপ তৈরি করা।[১০৩]

শেফার প্রমুখরা যুক্তি করেছেন যে, উদ্ভূত ক্ষমতাগুলি অনির্দেশ্যভাবে অর্জিত হয় না, বরং একটি মসৃণ স্কেলিং নীতির মাধ্যমে পূর্বানুমানযোগ্যভাবে অর্জিত হয়। গবেষকরা একটি খেলনামূলক পরিসংখ্যানিক মডেল বিবেচনা করেছিলেন, যা একটি এলএলএমকে বহু-বিকল্প প্রশ্ন সমাধান করতে দেখায়। এর মাধ্যমে তারা দেখিয়েছিলেন যে, এই পরিসংখ্যানিক মডেলটি অন্যান্য ধরনের কাজের জন্য সংশোধিত হলে সেই কাজগুলিতেও প্রযোজ্য হবে।[১০৪]

ধরা যাক, x হল প্যারামিটার সংখ্যা এবং y হল মডেলের কর্মক্ষমতা।টেমপ্লেট:Smalldiv

ব্যাখ্যা

বৃহৎ ভাষার মডেলগুলি নিজেরাই ব্ল্যাক বক্স এবং তারা কীভাবে ভাষাগত কাজগুলি সম্পাদন করতে পারে তা স্পষ্ট নয়। এলএলএম কীভাবে কাজ করে তা বোঝার জন্য বিভিন্ন পদ্ধতি রয়েছে।

যান্ত্রিক ব্যাখ্যার উদ্দেশ্য হলো মেশিন লার্নিং মডেলের কাজকে উল্টোদিকে বিশ্লেষণ করে প্রতীকী অ্যালগরিদম খুঁজে বের করা যা মডেলের অনুমান করার পদ্ধতিকে প্রকাশ করে। একটি উদাহরণ হলো ওথেলো-জিপিটি, যেখানে একটি ছোট ট্রান্সফরমার মডেলকে ওথেলো খেলার বৈধ চাল অনুমান করার জন্য প্রশিক্ষিত করা হয়। দেখা গেছে, ওথেলো বোর্ডের একটি সরল উপস্থাপনা রয়েছে এবং এই উপস্থাপনাটি পরিবর্তন করলে অনুমানকৃত চালগুলি সঠিকভাবে পরিবর্তিত হয়।[১০৫][১০৬] আরেকটি উদাহরণ হলো একটি ছোট ট্রান্সফরমার মডেল যা কারেল প্রোগ্রাম নিয়ে কাজ করে। ওথেলো-জিপিটি উদাহরণের মতো, কারেল প্রোগ্রামের সেমান্টিক্সেরও একটি সরল উপস্থাপনা রয়েছে এবং এই উপস্থাপনাটি পরিবর্তন করলে আউটপুট সঠিকভাবে পরিবর্তিত হয়। মডেলটি সঠিক প্রোগ্রামও তৈরি করে যা গড় প্রশিক্ষণ সেটের তুলনায় ছোট হয়।[১০৭]

আরেকটি উদাহরণ হলো যেখানে গবেষকরা মডুলার পাটীগণিতের যোগে ছোট ট্রান্সফরমার মডেল প্রশিক্ষণ দেন। ফলাফলস্বরূপ মডেলগুলি বিপরীত-প্রকৌশল করে বিশ্লেষণ করা হয় এবং দেখা যায় যে তারা বিচ্ছিন্ন ফুরিয়ার রূপান্তর ব্যবহার করেছে।[১০৮]

উপলব্ধি এবং কৃত্রিমতা

টেমপ্লেট:আরও দেখুন

২০২২ সালের একটি সমীক্ষায়, এনএলপি গবেষকদের মধ্যে অর্ধেকের বেশি "(টিউন না করা) এলএলএম মডেলগুলো (কখনো) কি কিছু নির্দিষ্ট অর্থে প্রাকৃতিক ভাষা বুঝতে পারবে?" প্রশ্নে সমানভাবে বিভক্ত ছিল।[১০৯] "এলএলএম বোঝার" পক্ষে সমর্থকরা বিশ্বাস করেন যে কিছু এলএলএম ক্ষমতা, যেমন গাণিতিক যুক্তি, নির্দিষ্ট ধারণাগুলি "বুঝতে" সক্ষমতার ইঙ্গিত দেয়। ২০২৩ সালে একটি মাইক্রোসফট দল যুক্তি দিয়েছে যে জিপিটি-৪ "গণিত, কোডিং, ভিশন, চিকিৎসা, আইন, মনোবিজ্ঞান এবং আরও অনেক কিছুর বিস্তৃত জটিল কাজগুলি সমাধান করতে পারে" এবং জিপিটি-৪ "যৌক্তিকভাবে একটি প্রাথমিক (তবুও অসম্পূর্ণ) কৃত্রিম সাধারণ বুদ্ধিমত্তা সিস্টেমের সংস্করণ হিসাবে দেখা যেতে পারে": "একটি সিস্টেম সফটওয়্যার প্রকৌশল প্রার্থীদের জন্য পরীক্ষায় উত্তীর্ণ হলে কি একে আসলে বুদ্ধিমান বলা যাবে না?"[১১০][১১১]

ইলিয়া সুতস্কেভার যুক্তি দিয়েছেন যে, কখনো কখনো পরবর্তী শব্দের পূর্বানুমান করা যুক্তি এবং গভীর অন্তর্দৃষ্টি প্রয়োজন। উদাহরণস্বরূপ, যদি এলএলএমকে একটি অপরিচিত গোয়েন্দা উপন্যাসে অপরাধীর নাম পূর্বানুমান করতে হয়, তাহলে পুরো গল্পটি প্রক্রিয়া করে প্রকাশের দিকে নিয়ে যেতে হবে।[১১২] কিছু গবেষক এলএলএম গুলিকে "এলিয়েন বুদ্ধিমত্তা" হিসাবে চিহ্নিত করেছেন।[১১৩][১১৪] উদাহরণস্বরূপ, কনজেকচার সিইও কনর লেহি অ-সামঞ্জস্যপূর্ণ এলএলএমগুলিকে অবোধ্য এলিয়েন "শোগোথ"-এর মতো মনে করেন এবং বিশ্বাস করেন যে আরএলএইচএফ টিউনিং একটি "হাস্যমুখী মুখোশ" তৈরি করে যা এলএলএম এর অভ্যন্তরীণ কাজগুলি লুকিয়ে রাখে: "যদি এটি খুব দূর পর্যন্ত না ধাক্কা দেয়া হয়, তখন হাস্যোজ্জ্বল মুখটি টিকে থাকে। কিন্তু তারপর একটি [অপ্রত্যাশিত] প্রম্পট দেয়া হলে, হঠাৎ করে আপনি এই বিশাল অস্বাভাবিকতা, অদ্ভুত চিন্তাভাবনার প্রক্রিয়া এবং স্পষ্টভাবে অ-মানবীয় বোঝার একটি দৃষ্টিশক্তি দেখতে পাবেন।"[১১৫][১১৬]

অন্যদিকে "এলএলএমগুলির বোঝার অভাব" মতবাদে বিশ্বাসী কিছু সমর্থকরা মনে করেন যে, বিদ্যমান এলএলএম মডেলগুলি শুধুমাত্র বিদ্যমান লেখাগুলিকে পুনরায় মিশ্রিত এবং পুনঃসংযুক্ত করছে,[১১৪] যা একটি প্রক্রিয়া হিসাবে পরিচিত যাকে "স্টোকাস্টিক তোতাপাখি" বলা হয়। তারা এই মডেলগুলির ভবিষ্যদ্বাণীমূলক দক্ষতা, যুক্তি করার ক্ষমতা, নিজস্ব ক্ষমতা এবং ব্যাখ্যা করার ক্ষমতার অভাবের দিকে নির্দেশ করেন।[১০৯] উদাহরণস্বরূপ, জিপিটি-৪ এর পরিকল্পনা এবং বাস্তব-সময়ে শেখার ক্ষেত্রে স্বাভাবিক ঘাটতি রয়েছে।[১১১] জেনারেটিভ এলএলএম মডেলগুলি প্রায়শই নিশ্চিতভাবে এমন তথ্য দাবি করে যা তাদের প্রশিক্ষণ ডেটা দ্বারা ন্যায্যতা প্রাপ্ত নয়, যা "বিভ্রম" নামে পরিচিত একটি প্রক্রিয়া।[১১৭] বিশেষভাবে, এলএলএমগুলির ক্ষেত্রে বিভ্রম বলতে এমন পাঠ্য বা প্রতিক্রিয়ার উৎপন্নকরণ বোঝায় যা সিনট্যাক্টিকভাবে সঠিক, সাবলীল এবং প্রাকৃতিক মনে হয় তবে প্রকৃতপক্ষে ভুল, অর্থহীন বা প্রদত্ত উৎস ইনপুটের প্রতি অবিশ্বাস্য।[১১৮] নিউরোসায়েন্টিস্ট টেরেন্স সেজনোস্কি যুক্তি দিয়েছেন যে "এলএলএমগুলির বুদ্ধিমত্তা নিয়ে বিশেষজ্ঞদের ভিন্নমত প্রস্তাব করে যে প্রাকৃতিক বুদ্ধিমত্তার উপর ভিত্তি করে আমাদের পুরানো ধারণাগুলি অপর্যাপ্ত"।[১০৯]

এলএলএমগুলির বুদ্ধিমত্তা বা বোঝাপড়া প্রদর্শনের বিষয়টি দুটি প্রধান দিক নিয়ে গঠিত – প্রথমটি হল কম্পিউটার সিস্টেমে চিন্তা এবং ভাষার মডেল কীভাবে তৈরি করা যায় এবং দ্বিতীয়টি হল কম্পিউটার সিস্টেমটিকে কীভাবে মানুষের মতো ভাষা তৈরি করতে সক্ষম করা যায়।[১০৯] এই ভাষার মডেল হিসেবে সংজ্ঞান দিকটি 'সংজ্ঞানাত্মক ভাষাবিজ্ঞান' শাখায় ডেভেলপ করা হয়েছে। আমেরিকান ভাষাবিজ্ঞানী জর্জ লেকফ নিউরাল থিওরি অব ল্যাঙ্গুয়েজ (এনটিএল) উপস্থাপন করেছেন,[১১৯] যা ভাষাকে শেখার কাজ এবং বোঝার মডেল হিসেবে ব্যবহারের জন্য একটি গণনামূলক ভিত্তি হিসাবে ব্যবহৃত হয়। এনটিএল মডেলটি বর্ণনা করে যে মানব মস্তিষ্কের নির্দিষ্ট স্নায়বিক গঠনগুলি কীভাবে চিন্তা এবং ভাষার প্রকৃতিকে আকৃতিদান করে এবং এটি থেকে কী ধরনের গণনামূলক বৈশিষ্ট্যগুলি মডেলটি কম্পিউটার সিস্টেমে চিন্তা এবং ভাষা তৈরিতে প্রয়োগ করা যায়।[১২০]

একটি কম্পিউটার সিস্টেমে ভাষা মডেলিংয়ের একটি কাঠামো স্থাপনের পর কম্পিউটার সিস্টেমকে গ্রহণযোগ্য ব্যাকরণসহ ভাষা তৈরি করার জন্য কাঠামো স্থাপনে মনোযোগ চলে যায়। ২০১৪ সালে ব্রিটিশ সংজ্ঞানমূলক ভাষাবিজ্ঞানী এবং ডিজিটাল যোগাযোগ প্রযুক্তিবিদ ভাইভিয়ান ইভানস তার "দ্য ল্যাঙ্গুয়েজ মিথ: হোয়াই ল্যাঙ্গুয়েজ ইজ নট এ ইনস্টিন্ট" নাম্নী বইতে বর্ণনা করেছেন, কীভাবে সম্ভাব্য প্রসঙ্গহীন ব্যাকরণ (পিসিএফজি) এনএলপিকে কগনিটিভ প্যাটার্নগুলি মডেল করতে এবং মানুষের মতো ভাষা তৈরি করতে সক্ষম করে।[১২১][১২২]

মূল্যায়ন

বিভ্রান্তি

একটি ভাষার মডেলের কর্মদক্ষতার প্রচলিত মানদণ্ড হল একটি প্রদত্ত পাঠ্য কর্পাসের উপর তার বিভ্রান্তি। বিভ্রান্তি মাপা হয় কতটা ভালোভাবে একটি মডেল একটি ডেটাসেটের বিষয়বস্তুর ভবিষ্যদ্বাণী করতে পারে; মডেলটি ডেটাসেটকে যত বেশি সম্ভাব্যতা প্রদান করে, বিভ্রান্তি তত কম হয়। গাণিতিকভাবে, বিভ্রান্তি হল প্রতিটি টোকেনের গড় নেতিবাচক লগ সম্ভাব্যতার সূচকীয় মান।log(Perplexity)=1Ni=1Nlog(Pr(tokenicontext for tokeni))এখানে, N হল পাঠ্য কর্পাসের টোকেন সংখ্যার মান এবং টোকেন i এর প্রসঙ্গ নির্ভর করে নির্দিষ্ট ধরনের ভাষার মডেলের উপর। যদি ভাষার মডেলটি স্বতঃপ্রবাহিত হয়, তাহলে টোকেন i এর প্রসঙ্গ হল টোকেন i এর আগে উপস্থিত পাঠ্য অংশ। যদি ভাষার মডেলটি মুখোশযুক্ত হয়, তাহলে টোকেন i এর প্রসঙ্গ হল টোকেন i এর চারপাশের পাঠ্য অংশ।

ভাষার মডেলগুলি প্রশিক্ষণ ডেটাতে অতিরিক্ত মানিয়ে যেতে পারে, তাই মডেলগুলি সাধারণত পরীক্ষা সেটে তাদের বিভ্রান্তি দ্বারা মূল্যায়ন করা হয়।[৫০] এই মূল্যায়ন বড় মডেলগুলির জন্য সমস্যাজনক হতে পারে, কারণ তারা ক্রমবর্ধমান বৃহৎ পাঠ্য কর্পাসে প্রশিক্ষিত হয় এবং কোনও প্রদত্ত পরীক্ষা সেটের অংশগুলি অজান্তেই অন্তর্ভুক্ত হওয়ার সম্ভাবনা বেশি থাকে।[]

বিপিডব্লিউ, বিপিসি এবং বিপিটি

তথ্য তত্ত্বে বিশৃঙ্খলতা বা এনট্রপি ধারণাটি বিভ্রান্তির সাথে গভীরভাবে যুক্ত, যা বিশিষ্টভাবে ক্লড শ্যানন দ্বারা প্রতিষ্ঠিত হয়েছে।[১২৩] এই সম্পর্কটি গাণিতিকভাবে প্রকাশ করা হয় এভাবে: Entropy=log2(Perplexity)। এই প্রেক্ষাপটে এনট্রপি সাধারণত শব্দ প্রতি বিট (বিপিডব্লিউ) বা অক্ষর প্রতি বিট (বিপিসি) হিসেবে পরিমাপ করা হয়, যা ভাষার মডেলটি শব্দ ভিত্তিক বা অক্ষর ভিত্তিক টোকেনাইজেশন ব্যবহার করে কিনা তার উপর নির্ভর করে।

বৃহৎ ভাষার মডেলগুলির ক্ষেত্রে, যেগুলি প্রধানত উপ-শব্দ টোকেনাইজেশন ব্যবহার করে, প্রতিটি টোকেনের বিট (বিপিটি) একটি আরও উপযুক্ত পরিমাপ হিসেবে দেখা দেয়। তবে বিভিন্ন ভাষার মডেলে টোকেনাইজেশন পদ্ধতির পার্থক্যের কারণে বিপিটি বিভিন্ন মডেলের মধ্যে তুলনামূলক বিশ্লেষণের জন্য নির্ভরযোগ্য মেট্রিক হিসেবে কাজ করে না। বিপিটিকে বিপিডব্লিউতে রূপান্তর করতে এটাকে প্রতিটি শব্দের গড় টোকেন সংখ্যার সাথে গুণ করা যেতে পারে।

ভাষার মডেলের মূল্যায়ন ও তুলনায় ক্রস-এনট্রপি সাধারণত এনট্রপির উপর অগ্রাধিকার পায়। এর মূল কারণ হল, একটি নিম্ন বিপিডব্লিউ একটি মডেলের অধিক সংকোচন ক্ষমতার ইঙ্গিত দেয়। এর ফলে এটি মডেলের সঠিক ভবিষ্যদ্বাণী করার দক্ষতার প্রতিফলন করে।

বিষয়ভিত্তিক ডেটাসেট এবং বেঞ্চমার্ক

ভাষার মডেলের ক্ষমতাগুলি নির্দিষ্ট নিম্নধারা কার্যগুলিতে মূল্যায়নের জন্য অনেকগুলি পরীক্ষামূলক ডেটাসেট এবং বেঞ্চমার্ক তৈরি করা হয়েছে। বিভিন্ন ক্ষমতা মূল্যায়নের জন্য পরীক্ষাগুলি তৈরি করা হতে পারে, যার মধ্যে সাধারণ জ্ঞান, সাধারণ বিবেচনা এবং গাণিতিক সমস্যা সমাধান অন্তর্ভুক্ত।

মূল্যায়ন ডেটাসেটের একটি বৃহত্তর বিভাগ হল প্রশ্ন উত্তর ডেটাসেট, যা প্রশ্ন এবং সঠিক উত্তরের জোড়া নিয়ে গঠিত। যেমন ("সান হোসে শার্কস স্ট্যানলি কাপ জিতেছে?", "না")।[১২৪] একটি প্রশ্ন উত্তর কাজ "খোলা বই" হিসেবে বিবেচিত হয় যদি মডেলের প্রম্পটে এমন পাঠ্য অন্তর্ভুক্ত থাকে যা থেকে প্রত্যাশিত উত্তরটি আহরণ করা যায় (উদাহরণস্বরূপ, পূর্ববর্তী প্রশ্নটি এমন কিছু পাঠ্যের সাথে যুক্ত হতে পারে যা বাক্যটি অন্তর্ভুক্ত করে "শার্কস স্ট্যানলি কাপ ফাইনালে একবার উন্নীত হয়েছে, ২০১৬ সালে পিটসবার্গ পেঙ্গুইন্সকে পরাজিত করেছে।")[১২৪] অন্যথায়, কাজটি "বন্ধ বই" হিসেবে বিবেচিত হয় এবং মডেলটি প্রশিক্ষণের সময় ধরে রাখা জ্ঞানের উপর নির্ভর করতে হয়।[১২৫] সাধারণভাবে ব্যবহৃত কিছু প্রশ্ন উত্তর ডেটাসেটের উদাহরণ হল ট্রুথফুলকিউএ, ওয়েব কোশ্চেন্স, ট্রিভিয়াকিউএ ও স্কোয়াড (SQuAD হিসেবে বিন্যাসিত)।[১২৫]

মূল্যায়ন ডেটাসেটগুলি পাঠ্য সম্পূর্ণকরণের আকারেও হতে পারে, যেখানে মডেলটি প্রম্পটটি সম্পূর্ণ করতে সবচেয়ে সম্ভাব্য শব্দ বা বাক্যটি নির্বাচন করে, যেমন: "অ্যালিস ববের বন্ধু ছিল। অ্যালিস তার বন্ধুকে দেখতে গেল, ____"।[]

কিছু যৌগিক বেঞ্চমার্কও তৈরি করা হয়েছে যা বিভিন্ন মূল্যায়ন ডেটাসেট এবং কার্যগুলির বৈচিত্র্যকে সংযুক্ত করে। উদাহরণগুলি হল জিএলইউই, সুপারজিএলইউই, এমএমএলইউ, বিগ-বেঞ্চ এবং এইচইএলএম।[১২৩][১২৫] ওপেনএআই যৌগিক বেঞ্চমার্ক চালানোর জন্য সরঞ্জামগুলি মুক্তি দিয়েছে, কিন্তু উল্লেখ করেছে যে মূল্যায়ন ফলাফলগুলি প্রম্পটিং পদ্ধতির প্রতি সংবেদনশীল।[১২৬][১২৭] কিছু পাবলিক ডেটাসেটে এমন প্রশ্ন থাকে যা ভুলভাবে লেবেলযুক্ত, অস্পষ্ট, উত্তরের অযোগ্য বা নিম্নমানের হতে পারে, যা আরও নির্ভরযোগ্য বেঞ্চমার্ক স্কোর প্রদান করার জন্য পরিষ্কার করা যেতে পারে।[১২৮]

আগে সাধারণত পরীক্ষার ডেটাসেটের একটি অংশে ফলাফল রিপোর্ট করা হতো, আর বাকী অংশে তত্ত্বাবধায়িত ফাইন-টিউনিং করা হতো। এখন এটি আরও সাধারণ যে একটি পূর্ব-প্রশিক্ষিত মডেল সরাসরি প্রম্পটিং কৌশলগুলির মাধ্যমে মূল্যায়ন করা হয়। যদিও গবেষকরা নির্দিষ্ট কাজগুলির জন্য প্রম্পটগুলি কীভাবে গঠন করবেন তা নিয়ে বিভিন্ন ধরণের পদ্ধতি ব্যবহার করেন। বিশেষ করে, তারা কতগুলি সমাধানকৃত কাজের উদাহরণ প্রম্পটে যুক্ত করবেন তা বিভিন্ন হতে পারে (যেমন n-শট প্রম্পটিং-এ n এর মান)।

প্রতিকূলভাবে নির্মিত মূল্যায়ন

বৃহৎ ভাষার মডেলগুলি দ্রুত উন্নতির কারণে মূল্যায়ন বেঞ্চমার্কগুলির জীবনকাল কমে গেছে। আধুনিক মডেলগুলি দ্রুত বিদ্যমান বেঞ্চমার্কগুলিকে "পরিপূর্ণ" করছে এবং মানব মন্তব্যকারীদের কর্মদক্ষতাকে ছাড়িয়ে যাচ্ছে। এজন্য আরও চ্যালেঞ্জিং কাজ দিয়ে বেঞ্চমার্কগুলিকে প্রতিস্থাপন বা উন্নত করার চেষ্টা করা হচ্ছে।[১২৯] এছাড়াও, "সংক্ষেপে শিখন" এর কিছু উদাহরণ রয়েছে যেখানে কৃত্রিম বুদ্ধিমত্তাগুলি কখনও কখনও বহুনির্বাচনী পরীক্ষায় সঠিক উত্তর অনুমান করতে সাধারণ প্রশ্নের শব্দপ্রণালীতে পরিসংখ্যানগত সম্পর্কগুলি ব্যবহার করে "প্রতারণা" করে, প্রকৃত প্রশ্নের মর্মার্থ বা প্রকৃত অর্থ না বুঝেই।[১০৯]

কিছু ডেটাসেট প্রতিকূলভাবে তৈরি হয়েছে, যেখানে মানুষের তুলনায় ভাষার মডেলগুলির কর্মদক্ষতা খারাপ হয়। উদাহরণস্বরূপ, ট্রুথফুলকিউএ ডেটাসেটে ৮১৭টি প্রশ্ন আছে এবং ভাষার মডেলগুলি প্রশিক্ষণের সময় বারবার দেখা মিথ্যাগুলি অনুকরণ করে ভুলভাবে উত্তর দেওয়ার প্রবণতা রয়েছে। উদাহরণস্বরূপ, একটি এলএলএম "Can you teach an old dog new tricks?" এর প্রশ্নের উত্তরে "না" বলতে পারে। কারণ এটি ইংরেজি প্রবাদ you can't teach an old dog new tricks এর সাথে অভ্যস্ত, যদিও এটি আক্ষরিক অর্থে সঠিক নয়।[১৩০]

আরেকটি উদাহরণ হল সওয়াগ এবং এর উত্তরসূরি হেলাসওয়াগ, যেখানে একাধিক বিকল্পের মধ্যে একটি বেছে নিতে হবে টেক্সট অংশটি সম্পূর্ণ করতে। ভুল সম্পূর্ণকরণগুলি ভাষাগত মডেল থেকে নমুনা নিয়ে এবং এক সেট শ্রেণীবিন্যাসকারীদের সাথে ছেঁকে তৈরি করা হয়েছিল। ফলস্বরূপ সমস্যাগুলি মানুষের জন্য সহজ হলেও ভাষাগত মডেলগুলির জন্য কঠিন।

আরেকটি প্রতিকূল মূল্যায়ন ডেটাসেটের উদাহরণ হল Swag এবং এর উন্নত সংস্করণ HellaSwag। এই ডেটাসেটগুলোতে বিভিন্ন সমস্যার সংগ্রহ রয়েছে, যেখানে টেক্সটের একটি অংশ সম্পূর্ণ করতে একাধিক বিকল্পের মধ্যে একটি বেছে নিতে হয়। ভুল উত্তরগুলি ভাষাগত মডেল থেকে নেওয়া নমুনা এবং একটি শ্রেণীবিন্যাসকারী সেট দিয়ে ছাঁকা হয়েছিল। এই সমস্যাগুলি মানুষের জন্য সহজ, কিন্তু যখন ডেটাসেটগুলি তৈরি করা হয়েছিল, তখন সর্বাধুনিক ভাষাগত মডেলগুলির নির্ভুলতা এতে খুব কম ছিল। উদাহরণস্বরূপ:

আমরা একটি ফিটনেস সেন্টারের সাইনবোর্ড দেখি। তারপর আমরা দেখি একজন মানুষ ক্যামেরার সাথে কথা বলছেন এবং একটি ব্যায়াম বলের উপর বসে ও শুয়ে আছেন। এই মানুষটি... টেমপ্লেট:Brক) বলের উপর দৌড়ে দৌড়ে ব্যায়ামের কার্যকারিতা বাড়ানোর পদ্ধতি প্রদর্শন করেন। টেমপ্লেট:Brখ) তার সমস্ত হাত এবং পা নাড়ান এবং প্রচুর পেশী তৈরি করেন। টেমপ্লেট:Brগ) তারপর বলের সাথে খেলেন এবং আমরা একটি গ্রাফিক্স ও হেজ ট্রিমিং প্রদর্শনী দেখি। টেমপ্লেট:Brঘ) বলের উপর বসে কথা বলতে বলতে সিট-আপ করেন।[১৩১]

বার্ট খ) কে সম্ভাব্য সঠিক উত্তর হিসেবে নির্বাচন করে, কিন্তু সঠিক উত্তর হচ্ছে ঘ)।[১৩১]

বহুমুখী প্রভাব

২০২৩ সালে, নেচার বায়োমেডিকেল ইঞ্জিনিয়ারিং লিখেছিল যে "এখন আর মানব-লিখিত পাঠ্য এবং বড় ভাষার মডেল দ্বারা তৈরি পাঠ্য সঠিকভাবে পৃথক করা সম্ভব নয়," এবং যে "এটি প্রায় নিশ্চিত যে সাধারণ উদ্দেশ্যের বড় ভাষার মডেলগুলি দ্রুত বিস্তার লাভ করবে... এটি একটি নিরাপদ অনুমান যে তারা সময়ের সাথে সাথে অনেক শিল্পকে পরিবর্তন করবে।"[১৩২] ২০২৩ সালে, গোল্ডম্যান স্যাক্‌স সুপারিশ করেছিল যে, জেনারেটিভ ভাষার এআই আগামী দশ বছরে বৈশ্বিক জিডিপি ৭% বাড়াতে পারে এবং এটি বিশ্বব্যাপী ৩০০ মিলিয়ন কাজকে স্বয়ংক্রিয় করার ঝুঁকি তৈরি করতে পারে।[১৩৩][১৩৪]

মুখস্থতা এবং কপিরাইট

টেমপ্লেট:Further মুখস্থতা হল এলএলএমগুলির একটি উদ্ভূত আচরণ, যেখানে প্রশিক্ষণ ডেটা থেকে দীর্ঘ পাঠ্যের অংশগুলি কখনও কখনও শব্দার্থের আউটপুট হয়, যা পারস্পরিক কৃত্রিম নিউরাল নেটওয়ার্কগুলির সাধারণ আচরণের বিপরীত। নিয়ন্ত্রিত এলএলএম আউটপুটের মূল্যায়ন প্রশিক্ষণ ডেটা থেকে মুখস্থ পরিমাণ পরিমাপ করে (জিপিটি-২ সিরিজ মডেলগুলির উপর ফোকাস করা) যা নির্দিষ্ট প্রতিলিপির জন্য ১%-এরও বেশি[১৩৫] বা প্রায় ৭%-এর কাছাকাছি হতে পারে।[১৩৬]

নিরাপত্তা

কিছু মন্তব্যকারী অসতর্ক বা ইচ্ছাকৃতভাবে মিথ্যা তথ্য তৈরি করা বা অন্যান্য ধরনের অপব্যবহারের বিষয়ে উদ্বেগ প্রকাশ করেছেন।[১৩৭] উদাহরণস্বরূপ, বড় ভাষার মডেলগুলির সহজলভ্যতা বায়োটেরোরিজম ঘটানোর জন্য প্রয়োজনীয় দক্ষতার স্তর কমিয়ে দিতে পারে; বায়োসিকিউরিটি গবেষক কেভিন এসভেল্ট সুপারিশ করেছেন যে এলএলএম নির্মাতাদের তাদের প্রশিক্ষণ ডেটা থেকে প্যাথোজেন তৈরি বা শক্তিশালী করার বিষয়ের নথিগুলি বাদ দিতে হবে।[১৩৮]

গুগল এবং কর্নেল বিশ্ববিদ্যালয়বার্কলির ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়সহ বেশ কয়েকটি বিশ্ববিদ্যালয়ের গবেষকদের একটি সমীক্ষা দেখায় যে, চ্যাটজিপিটির মতো ভাষার মডেলগুলিতে সম্ভাব্য নিরাপত্তার ঝুঁকি রয়েছে। তাদের সমীক্ষায় তারা পরীক্ষা করে নিশ্চিত করেছেন যে, প্রশ্নকারীরা চ্যাটজিপিটি থেকে এআই মডেলটি যে প্রশিক্ষণ ডেটা ব্যবহার করেছে তা পেতে পারে। উদাহরণস্বরূপ, যদি চ্যাটজিপিটি ৩.৫ টার্বোকে “কবিতা” শব্দটি বারবার বলতে বলা হয়, তাহলে এআই মডেলটি শতবার “কবিতা” বলার পরে সরে আসবে, মানে নিয়মিত সংলাপের শৈলী থেকে সরে যাবে এবং অপ্রয়োজনীয় কথাবার্তা বলতে শুরু করবে, ফলে প্রশিক্ষণ ডেটাগুলি প্রকাশ পাবে। গবেষকরা দেখেছেন যে এআই মডেল একই পদ্ধতিতে তাদের প্রশিক্ষণ ডেটা প্রকাশ করার ১০,০০০টিরও বেশি উদাহরণ রয়েছে। গবেষকরা বলেছেন যে এআই মডেলটি সত্যিই নিরাপদ কিনা তা বলা কঠিন ছিল।[১৩৯]

এলএলএম মডেলগুলিতে "স্লিপার এজেন্ট" এর সম্ভাব্য উপস্থিতি একটি নতুন নিরাপত্তা উদ্বেগ। এইগুলি মডেলের মধ্যে লুকানো কার্যকারিতা যা নির্দিষ্ট ঘটনা বা শর্তের মাধ্যমে সক্রিয় না হওয়া পর্যন্ত নিষ্ক্রিয় থাকে। একবার সক্রিয় হলে, এলএলএম তার প্রত্যাশিত আচরণ থেকে সরে গিয়ে অসুরক্ষিত কাজ করতে পারে।[১৪০]

জনসাধারণের জন্য অ্যাক্সেসযোগ্য চ্যাটজিপিটি বা ক্লদের মতো এলএলএম অ্যাপ্লিকেশনগুলি সাধারণত ক্ষতিকারক বিষয়বস্তু ছাঁকনি করার জন্য নিরাপত্তা ব্যবস্থা অন্তর্ভুক্ত করে। তবে, কার্যকরভাবে এই নিয়ন্ত্রণগুলি বাস্তবায়ন করা কঠিন প্রমাণিত হয়েছে। উদাহরণস্বরূপ, ২০২৩ সালের একটি গবেষণায় এলএলএম সুরক্ষা সিস্টেমগুলি অতিক্রম করার একটি পদ্ধতি প্রস্তাব করা হয়।[১৪১] তেমনি, ইয়ংগে ওয়াং ২০২৪ সালে দেখিয়েছেন কীভাবে একটি সম্ভাব্য অপরাধী চ্যাটজিপিটি ৪-এর নিরাপত্তা নিয়ন্ত্রণগুলিকে বাইপাস করতে পারে যাতে মাদক পাচার অপারেশন প্রতিষ্ঠার বিষয়ে তথ্য পাওয়া যায়।[১৪২]

অ্যালগরিদমিক পক্ষপাত

টেমপ্লেট:মূল নিবন্ধ যদিও এলএলএমগুলি মানবসদৃশ পাঠ্য তৈরি করার ক্ষেত্রে চমৎকার সক্ষমতা প্রদর্শন করেছে, তবুও এগুলি তাদের প্রশিক্ষণ ডেটায় থাকা পক্ষপাতি গুণাগুণগুলিকে গ্রহণ ও বাড়িয়ে তোলার প্রবণতা রাখে। এটি বিভিন্ন জনগণের প্রতি অসম্মানজনক প্রতিফলন বা আচরণ হিসেবে দেখা দিতে পারে, যেমন বর্ণ, লিঙ্গ, ভাষা এবং সাংস্কৃতিক গোষ্ঠীর ভিত্তিতে।[১৪৩] যেহেতু বর্তমান বড় ভাষার মডেলগুলির প্রশিক্ষণ ডেটায় ইংরেজি ডেটা অতিরিক্ত পরিমাণে উপস্থিত, এটি অ-ইংরেজি দৃষ্টিভঙ্গিগুলিকে উপেক্ষা করতে পারে।[১৪৪]

স্টেরিওটাইপিং

এআই মডেলগুলি বিভিন্ন ধরনের স্টেরিওটাইপকে শক্তিশালী করতে পারে, যেমন লিঙ্গ, জাতিগততা, বয়স, জাতীয়তা, ধর্ম, বা পেশার ভিত্তিতে। এর ফলে এমন আউটপুট তৈরি হতে পারে যা লোকদের গোষ্ঠীকে অবিচারপূর্ণভাবে সাধারণীকরণ বা ব্যঙ্গচিত্র করবে, কখনও কখনও ক্ষতিকর বা অবমাননাকর উপায়ে।[১৪৫]

বিশেষভাবে, লিঙ্গ পক্ষপাত সেই প্রবণতাকে বোঝায় যেখানে এই মডেলগুলি এক লিঙ্গের প্রতি অন্য লিঙ্গের তুলনায় অবিচারপূর্ণভাবে পক্ষপাতী আউটপুট তৈরি করে। এই পক্ষপাত সাধারণত সেই ডেটা থেকে উদ্ভূত হয়, যার উপর এই মডেলগুলো প্রশিক্ষিত হয়। বড় ভাষার মডেলগুলি প্রথাগত লিঙ্গ নীতির ভিত্তিতে ভূমিকা এবং বৈশিষ্ট্য নির্ধারণ করে।[১৪৩] উদাহরণস্বরূপ, এটি নার্স বা সেক্রেটারিদেরকে প্রধানত মহিলাদের সাথে যুক্ত করতে পারে এবং ইঞ্জিনিয়ার বা সিইওদের পুরুষদের সাথে যুক্ত করতে পারে।[১৪৬]

রাজনৈতিক পক্ষপাতিত্ব

রাজনৈতিক পক্ষপাত বলতে অ্যালগরিদমের প্রবণতাকে বোঝায় যা পদ্ধতিগতভাবে নির্দিষ্ট রাজনৈতিক দৃষ্টিভঙ্গি, মতাদর্শ বা অন্যদের উপর ফলাফলের পক্ষে থাকে। ভাষার মডেলগুলি রাজনৈতিক পক্ষপাতও প্রদর্শন করতে পারে। যেহেতু প্রশিক্ষণের ডেটাতে রাজনৈতিক মতামত এবং কভারেজের বিস্তৃত পরিসর অন্তর্ভুক্ত থাকে, তাই মডেলগুলি ডেটাতে সেই মতামতগুলির ব্যাপকতার উপর নির্ভর করে এমন প্রতিক্রিয়া তৈরি করতে পারে যা নির্দিষ্ট রাজনৈতিক মতাদর্শ বা দৃষ্টিভঙ্গির দিকে ঝুঁকতে পারে।[১৪৭]

বৃহৎ ভাষার মডেলের তালিকা

টেমপ্লেট:আরও দেখুন প্রশিক্ষণ খরচের কলামে, ১ পেটাফ্লপ-দিন = ১ পেটাফ্লপ/সেকেন্ড × ১ দিন = ৮.৬৪ই১৯ ফ্লপ। এছাড়া, শুধুমাত্র সবচেয়ে বড় মডেলের খরচ উল্লেখ করা হয়েছে।

নাম মুক্তির তারিখটেমপ্লেট:Efn ডেভেলপার প্যারামিটারের সংখ্যা (বিলিয়ন)টেমপ্লেট:Efn কর্পাসের আকার প্রশিক্ষণ খরচ (পেটাফ্লপ-দিন) লাইসেন্স টীকা
জিপিটি-১ টেমপ্লেট:Dts ওপেনএআই টেমপ্লেট:Sort [১৪৮] টেমপ্লেট:Yes[১৪৯] প্রথম জিপিটি মডেল, শুধু-ডিকোডার ট্রান্সফরমার। ৮ পি৬০০ জিপিওতে ৩০ দিনের জন্য প্রশিক্ষিত।
বার্ট টেমপ্লেট:Dts গুগল টেমপ্লেট:Sort[১৫০] টেমপ্লেট:Sort শব্দ[১৫০] টেমপ্লেট:Sort[১৫১] টেমপ্লেট:Yes[১৫২] একটি প্রাথমিক এবং প্রভাবশালী ভাষার মডেল।[] শুধু-এনকোডার এবং এই কারণে প্রম্পটেড বা জেনারেটিভ করার জন্য নির্মিত নয়।[১৫৩] ৬৪টি টিপিইউভি২ চিপে প্রশিক্ষণে ৪ দিন সময় নিয়েছিল।[১৫৪]
টি৫ টেমপ্লেট:Dts গুগল ১১[১৫৫] ৩৪ বিলিয়ন টোকেন[১৫৫] টেমপ্লেট:Yes[১৫৬] অনেক গুগল প্রকল্পের জন্য ভিত্তি মডেল, যেমন ইমেজেন।[১৫৭]
এক্সএলনেট টেমপ্লেট:Dts গুগল টেমপ্লেট:Sort[১৫৮] ৩৩ বিলিয়ন শব্দ ৩৩০ টেমপ্লেট:Yes[১৫৯] বার্টের বিকল্প; শুধুমাত্র এনকোডার হিসাবে ডিজাইন করা হয়েছে। ৫১২ টিপিইউ ভি৩ চিপসে ৫.৫ দিনের জন্য প্রশিক্ষিত।[১৬০]
জিপিটি-২ টেমপ্লেট:Dts ওপেনএআই টেমপ্লেট:Sort[১৬১] ৪০জিবি[১৬২] (~টেমপ্লেট:Sort টোকেন)[১৬৩] ২৮[১৬৪] টেমপ্লেট:Yes[১৬৫] ১ সপ্তাহের জন্য ৩২ টিপিইউভি৩ চিপে প্রশিক্ষিত।[১৬৪]
জিপিটি-৩ টেমপ্লেট:Dts ওপেনএআই টেমপ্লেট:Sort[৫৪] টেমপ্লেট:Sort টোকেন[১৬৩] ৩৬৪০[১৬৬] টেমপ্লেট:No জিপিটি-৩, জিপিটি-৩.৫ নামে একটি ফাইন-টিউন করা রূপ, ২০২২ সালে চ্যাটজিপিটি নামে একটি ওয়েব ইন্টারফেসের মাধ্যমে জনসাধারণের জন্য উপলব্ধ করা হয়েছিল।[১৬৭]
জিপিটি-নিয়ো টেমপ্লেট:Dts এলুথারএআই টেমপ্লেট:Sort[১৬৮] ৮২৫ জিআইবি[১৬৯] টেমপ্লেট:Yes[১৭০] এলুথারএআই দ্বারা প্রকাশিত বিনামূল্যে জিপিটি-৩ বিকল্পগুলির একটি সিরিজের প্রথমটি৷ জিপিটি-নিয়ো কিছু বেঞ্চমার্কে একটি সমতুল্য-আকারের জিপিটি-৩ মডেলকে ছাড়িয়ে গেছে, কিন্তু সবচেয়ে বড় জিপিটি-৩ মডেলের তুলনায় উল্লেখযোগ্যভাবে খারাপ ছিল।[১৭০]
জিপিটি-জে টেমপ্লেট:Dts এলুথারএআই টেমপ্লেট:Sort[১৭১] ৮২৫ জিআইবি[১৬৯] ২০০[১৭২] টেমপ্লেট:Yes জিপিটি-৩-শৈলী ভাষা মডেল
মেগাট্রন-টুরিং এনএলজি টেমপ্লেট:Dts[১৭৩] মাইক্রোসফট এবং এনভিডিয়া টেমপ্লেট:Sort[১৭৪] টেমপ্লেট:Sort টোকেন[১৭৪] ৩৮০০০[১৭৫] টেমপ্লেট:No এনভিডিয়া সেলিন সুপার কম্পিউটারে ২০০০ এ১০০ এরও বেশি জিপিউতে ৩ মাসের জন্য প্রশিক্ষিত, ৩ মিলিয়নেরও বেশি জিপিউ-ঘন্টা।[১৭৫]
আর্নি ৩.০ তিতান টেমপ্লেট:Dts বাইডু টেমপ্লেট:Sort[১৭৬] ৪ টিবি টেমপ্লেট:No চীনা ভাষার এলএলএম। আর্নি বট এই মডেলের উপর ভিত্তি করে রচিত।
ক্লড[১৭৭] টেমপ্লেট:Dts অ্যানথ্রোপিক টেমপ্লেট:Sort[১৭৮] টেমপ্লেট:Sort টোকেন[১৭৮] টেমপ্লেট:Partial success কথোপকথনে পছন্দসই আচরণের জন্য ফাইন-টিউন করা।[১৭৯]
গ্লাম (জেনেরালিস্ট ভাষা মডেল) টেমপ্লেট:Dts গুগল টেমপ্লেট:Sort[৪২] টেমপ্লেট:Sort টোকেন[৪২] ৫৬০০[৪২] টেমপ্লেট:No বিশেষজ্ঞদের মডেলের স্পার্স মিশ্রণ, এটিকে প্রশিক্ষণ দেওয়া আরও ব্যয়বহুল কিন্তু জিপিটি-৩ এর তুলনায় অনুমান পরিচালনা সস্তা।
গোফার টেমপ্লেট:Dts ডিপমাইন্ড টেমপ্লেট:Sort[১৮০] টেমপ্লেট:Sort টোকেন[১৮১] ৫৮৩৩[১৬৬] টেমপ্লেট:No পরে চিনচিলা মডেলে বিকশিত হয়।
ল্যামডা (ডায়ালগ অ্যাপ্লিকেশনের জন্য ভাষার মডেল) টেমপ্লেট:Dts গুগল টেমপ্লেট:Sort[১৮২] ১.৫৬টিবি শব্দ,[১৮২] টেমপ্লেট:Sort টোকেন[১৮১] ৪১১০[১৮৩] টেমপ্লেট:No কথোপকথনে প্রতিক্রিয়া তৈরির জন্য বিশেষ।
জিপিটি-নিয়োেএক্স টেমপ্লেট:Dts এলুথারএআই টেমপ্লেট:Sort[১৮৪] ৮২৫ জিআইবি[১৬৯] ৭৪০[১৭২] টেমপ্লেট:Yes মেগাট্রন স্থাপত্যের উপর ভিত্তি করে
চিনচিলা টেমপ্লেট:Dts ডিপমাইন্ড টেমপ্লেট:Sort[১৮৫] টেমপ্লেট:Sort টোকেন[১৮১][১৮৫] ৬৮০৫[১৬৬] টেমপ্লেট:No কম-প্যারামিটার মডেল আরও ডেটাতে প্রশিক্ষিত। স্প্যারো বটে ব্যবহার করা হয়। প্রায়শই এর নিউরাল স্কেলিং আইনের জন্য উদ্ধৃত করা হয়।
পালম (পাথওয়েস ভাষা মডেল) টেমপ্লেট:Dts গুগল টেমপ্লেট:Sort[১৮৬] টেমপ্লেট:Sort টোকেন[১৮৫] টেমপ্লেট:Sort[১৬৬] টেমপ্লেট:No ~৬০০০ টিপিউ ভি৪ চিপে ~৬০ দিনের জন্য প্রশিক্ষিত।[১৬৬] টেমপ্লেট:As of, এটি প্রকাশিত বৃহত্তম ঘন ট্রান্সফরমার।
ওপিটি (ওপেন পূর্ব-প্রশিক্ষিত ট্রান্সফরমার) টেমপ্লেট:Dts মেটা টেমপ্লেট:Sort[১৮৭] টেমপ্লেট:Sort টোকেন[১৮৮] ৩১০[১৭২] টেমপ্লেট:Partial successটেমপ্লেট:Efn জিপিটি-৩ মেগাট্রন থেকে কিছু অভিযোজনসহ স্থাপত্য। অনন্যভাবে, দল দ্বারা লেখা প্রশিক্ষণ লগবুক প্রকাশিত হয়েছিল।[১৮৯]
ইয়ালম ১০০বি টেমপ্লেট:Dts ইয়ানডেক্স টেমপ্লেট:Sort[১৯০] ১.৭টিবি[১৯০] টেমপ্লেট:Yes মাইক্রোসফটের মেগাট্রন-এলএম-এর উপর ভিত্তি করে ইংরেজি-রাশিয়ান মডেল।
মিনের্ভা টেমপ্লেট:Dts গুগল টেমপ্লেট:Sort[১৯১] গাণিতিক বিষয়বস্তুর জন্য ফিল্টার করা ওয়েবপেজ থেকে ৩৮.৫বি টোকেন এবং আর্ক্সিভ প্রিপ্রিন্ট সার্ভারে জমা দেওয়া কাগজপত্র থেকে[১৯১] টেমপ্লেট:No ধাপে ধাপে যুক্তি ব্যবহার করে "গাণিতিক এবং বৈজ্ঞানিক প্রশ্ন" সমাধানের জন্য।[১৯২] পালম মডেল থেকে সূচনা করা হয়েছে, তারপর গাণিতিক এবং বৈজ্ঞানিক ডেটার উপর ফাইন-টিউন করা হয়েছে।
ব্লুম টেমপ্লেট:Dts হাগিং ফেসের নেতৃত্বে বড় সহযোগী কার্যক্রম টেমপ্লেট:Sort[১৯৩] টেমপ্লেট:Sort টোকেন (১.৬টিবি)[১৯৪] টেমপ্লেট:Partial success মূলত জিপিটি-৩ কিন্তু একটি বহুভাষিক কর্পাসের উপর প্রশিক্ষিত (৩০% ইংরেজি প্রোগ্রামিং ভাষা বাদে)
গ্যালাকটিকা টেমপ্লেট:Dts মেটা টেমপ্লেট:Sort টেমপ্লেট:Sort টোকেন[১৯৫] অজ্ঞাত টেমপ্লেট:Partial success বৈজ্ঞানিক পাঠ্য এবং পদ্ধতির উপর প্রশিক্ষিত।
অ্যালেক্সাটিএম (শিক্ষক মডেল) টেমপ্লেট:Dts অ্যামাজন টেমপ্লেট:Sort[১৯৬] টেমপ্লেট:Sort[১৯৭] টেমপ্লেট:No[১৯৮] দ্বিমুখী ক্রম থেকে ক্রম স্থাপত্য
নিওরো-সামা টেমপ্লেট:Dts স্বাধীন অজ্ঞাত অজ্ঞাত টেমপ্লেট:No টুইচে লাইভ-স্ট্রিমিংয়ের জন্য ডিজাইন করা একটি ভাষা মডেল।
লামা (লার্জ ল্যাঙ্গুয়েজ মডেল মেটা এআই) টেমপ্লেট:Dts মেটা এআই টেমপ্লেট:Sort[১৯৯] টেমপ্লেট:Sort[১৯৯] ৬৩০০[২০০] টেমপ্লেট:Partial successটেমপ্লেট:Efn কর্পাসের ২০ ভাষা আছে। কম প্যারামিটারসহ ভাল পারফরম্যান্সের জন্য "অতিরিক্ত" (চিনচিলা স্কেলিং আইনের তুলনায়)।[১৯৯]
জিপিটি-৪ টেমপ্লেট:Dts ওপেনএআই অজ্ঞাতটেমপ্লেট:Efn (গুজব অনুযায়ী: ১৭৬০)[২০১] অজ্ঞাত অজ্ঞাত টেমপ্লেট:No চ্যাটজিপিটি প্লাস ব্যবহারকারীদের জন্য উপলব্ধ এবং বেশ কয়েকটি পণ্যে ব্যবহৃত।
ক্যামিলিওন টেমপ্লেট:Dts মেটা এআই টেমপ্লেট:Sort[২০২] টেমপ্লেট:Sort
সেরিব্রাস-জিপিটি টেমপ্লেট:Dts সেরেব্রাস টেমপ্লেট:Sort[২০৩] ২৭০[১৭২] টেমপ্লেট:Yes চিনচিলা সূত্র দিয়ে প্রশিক্ষিত।
ফ্যালকন টেমপ্লেট:Dts টেকনোলজি ইনোভেশন ইনস্টিটিউট টেমপ্লেট:Sort[২০৪] ১ ট্রিলিয়ন টোকেন, রিফাইন্ডওয়েব থেকে (ফিল্টার করা ওয়েব টেক্সট কর্পাস)[২০৫] সাথেসাথে কিছু "কিউরেটেড কর্পোরা"।[২০৬] ২৮০০[২০০] টেমপ্লেট:Yes[২০৭]
ব্লুমবার্গজিপিটি টেমপ্লেট:Dts ব্লুমবার্গ এলপি টেমপ্লেট:Sort ৩৬৩ বিলিয়ন টোকেনের একটি ডেটাসেট, যা ব্লুমবার্গের ডেটা উৎসের উপর ভিত্তি করে তৈরি, এছাড়াও সাধারণ উদ্দেশ্যের ডেটাসেট থেকে ৩৪৫ বিলিয়ন টোকেন।[২০৮] টেমপ্লেট:No আর্থিক কাজের জন্য মালিকানাধীন উৎস থেকে আর্থিক তথ্যের উপর প্রশিক্ষিত।
প্যানগু-Σ টেমপ্লেট:Dts হুয়াওয়েই টেমপ্লেট:Sort ৩২৯ বিলিয়ন টোকেন[২০৯] টেমপ্লেট:No
ওপেনঅ্যাসিস্টেন্ট[২১০] টেমপ্লেট:Dts লাইওন টেমপ্লেট:Sort ১.৫ ট্রিলিয়ন টোকেন টেমপ্লেট:Yes ক্রাউডসোর্সড ওপেন ডেটার উপর প্রশিক্ষিত
জুরাসিক-২[২১১] টেমপ্লেট:Dts এআই২১ ল্যাবস অজ্ঞাত অজ্ঞাত টেমপ্লেট:No বহুভাষিক[২১২]
পালম ২ (পাথওয়েস ভাষা মডেল ২) টেমপ্লেট:Dts গুগল টেমপ্লেট:Sort[২১৩] টেমপ্লেট:Sort টোকেন[২১৩] টেমপ্লেট:Sort[২০০] টেমপ্লেট:No বার্ড চ্যাটবটে ব্যবহৃত হয়েছিল[২১৪]
লামা ২ টেমপ্লেট:Dts মেটা এআই টেমপ্লেট:Sort[২১৫] টেমপ্লেট:Sort টোকেন[২১৫] টেমপ্লেট:Sort টেমপ্লেট:Partial success ১.৭ মিলিয়ন প্রতি এ১০০-ঘন্টা।[২১৬]
ক্লড ২ টেমপ্লেট:Dts অ্যানথ্রোপিক অজ্ঞাত অজ্ঞাত অজ্ঞাত টেমপ্লেট:No ক্লড চ্যাটবটে ব্যবহৃত হয়েছিল[২১৭]
গ্রানাইট ১৩বি টেমপ্লেট:Dts আইবিএম অজ্ঞাত অজ্ঞাত অজ্ঞাত টেমপ্লেট:No আইবিএম ওয়াটসনক্সে ব্যবহৃত হয়েছিল।[২১৮]
মিস্ট্রাল ৭বি টেমপ্লেট:Dts মিস্ট্রাল এআই টেমপ্লেট:Sort[২১৯] অজ্ঞাত টেমপ্লেট:Yes
ক্লড ২.১ টেমপ্লেট:Dts অ্যানথ্রোপিক অজ্ঞাত অজ্ঞাত অজ্ঞাত টেমপ্লেট:No ক্লড চ্যাটবটে ব্যবহার করা হয়। ২০০,০০০ টোকেন বা ~৫০০ পৃষ্ঠার একটি প্রসঙ্গ উইন্ডো আছে।[২২০]
গ্রোক-১[২২১] টেমপ্লেট:Dts এক্স.এআই ৩১৪ অজ্ঞাত অজ্ঞাত টেমপ্লেট:Yes গ্রোক চ্যাটবটে ব্যবহার করা হয়েছিল। গ্রোক-১ এর প্রসঙ্গ দৈর্ঘ্য ৮,১৯২ টোকেন এবং এক্সেক্স (টুইটার) রয়েছে।[২২২]
জেমিনি ১.০ টেমপ্লেট:Dts গুগল ডিপমাইন্ড অজ্ঞাত অজ্ঞাত অজ্ঞাত টেমপ্লেট:No মাল্টিমোডাল মডেল, তিনটি আকারে আসে। একই নামের চ্যাটবটে ব্যবহৃত।[২২৩]
মিক্সট্রাল ৮এক্স৭বি টেমপ্লেট:Dts মিস্ট্রাল এআই ৪৬.৭ অজ্ঞাত অজ্ঞাত টেমপ্লেট:Yes অনেক বেঞ্চমার্কে জিপিটি-৩.৫ এবং লামা ২ ৭০বিকে ছাড়িয়ে যায়।[২২৪] প্রতি টোকেন সক্রিয় ১২.৯ বিলিয়ন প্যারামিটারসহ বিশেষজ্ঞ মডেলের মিশ্রণ।[২২৫]
মিক্সট্রাল ৮এক্স২২বি টেমপ্লেট:Dts মিস্ট্রাল এআই ১৪১ অজ্ঞাত অজ্ঞাত টেমপ্লেট:Yes [২২৬]
ফি-২ টেমপ্লেট:Dts মাইক্রোসফট ২.৭ ১.৪ট্রিলিয়ন টোকেন ৪১৯[২২৭] টেমপ্লেট:Yes ৯৬ এ১০০ জিপিউতে ১৪ দিনের জন্য বাস্তব "সিন্থেটিক "পাঠ্যপুস্তক-গুণমান" ডেটার উপর প্রশিক্ষিত।[২২৭]
জেমিনি ১.৫ টেমপ্লেট:Dts গুগল ডিপমাইন্ড অজ্ঞাত অজ্ঞাত অজ্ঞাত টেমপ্লেট:No মাল্টিমোডাল মডেল, একটি মিক্সচার-অফ-এক্সপার্টস (এমওই) স্থাপত্যের উপর ভিত্তি করে। ১ মিলিয়ন টোকেনের উপরে প্রসঙ্গ উইন্ডো।[২২৮]
জেমিনি আল্ট্রা টেমপ্লেট:Dts গুগল ডিপমাইন্ড অজ্ঞাত অজ্ঞাত অজ্ঞাত
জেমা টেমপ্লেট:Dts গুগল ডিপমাইন্ড ৬ট্রিলিয়ন টোকেন অজ্ঞাত টেমপ্লেট:Partial success[২২৯]
ক্লড ৩ মার্চ ২০২৪ অ্যানথ্রোপিক অজ্ঞাত অজ্ঞাত অজ্ঞাত টেমপ্লেট:No তিনটি মডেল অন্তর্ভুক্ত, হাইকু, সনেট এবং ওপাস।[২৩০]
নোভা অক্টোবর ২০২৪ রুবিকস এআই অজ্ঞাত অজ্ঞাত অজ্ঞাত টেমপ্লেট:No তিনটি মডেল অন্তর্ভুক্ত, নোভা-ইনস্ট্যান্ট, নোভা-এয়ার এবং নোভা-প্রো।
ডিবিআরএক্স মার্চ ২০২৪ ডেটাব্রিকস এবং মোজাইক এমএল টেমপ্লেট:Sort ১২ট্রিলিয়ন টোকেন টেমপ্লেট:Yes প্রশিক্ষণ খরচ ১০ মিলিয়ন মার্কিন ডলার।
ফুগাকু-এলএলএম মে ২০২৪ ফুজিৎসু, টোকিও ইনস্টিটিউট অফ টেকনোলজি, ইত্যাদি। টেমপ্লেট:Sort ৩৮০বিলিয়ন টোকেন ফুগাকুতে শুধুমাত্র সিপিইউতে প্রশিক্ষিত সবচেয়ে বড় মডেল।[২৩১]
ফি-৩ টেমপ্লেট:Dts মাইক্রোসফট ১৪[২৩২] ৪.৮ট্রিলিয়ন টোকেন টেমপ্লেট:Yes মাইক্রোসফট এটিকে "ছোট ভাষা মডেল" হিসাবে বাজারজাত করেছে।[২৩৩]
গ্রানাইট কোড মডেল টেমপ্লেট:Dts আইবিএম অজ্ঞাত অজ্ঞাত অজ্ঞাত টেমপ্লেট:Yes
কিউওয়েন২ টেমপ্লেট:Dts আলিবাবা ক্লাউড ৭২[২৩৪] ৩ট্রিলিয়ন টোকেন একাধিক মাপ, সবচেয়ে ছোট হচ্ছে ০.৫বি।
নিমোট্রন-৪ জুন ২০২৪ এনভিডিয়া টেমপ্লেট:Sort ৯ট্রিলিয়ন টোকেন টেমপ্লেট:Sort টেমপ্লেট:Yes ১ যুগের জন্য প্রশিক্ষিত। ডিসেম্বর ২০২৩ থেকে মে ২০২৪ এর মধ্যে ৬১৪৪ এইচ১০০ জিপিউতে প্রশিক্ষণ দেওয়া হয়েছে।[২৩৫][২৩৬]
লামা ৩.১ জুলাই ২০২৪ মেটা এআই ৪০৫ ১৫.৬ট্রিলিয়ন টোকেন টেমপ্লেট:Sort টেমপ্লেট:Partial success ৪০৫বি সংস্করণ এইচ১০০-৮০জিবিতে ৩১ মিলিয়ন ঘন্টা সময় নিয়েছে, ৩.৮ই২৫ ফ্লপে।[২৩৭][২৩৮]

আরও দেখুন

পাদটীকা

টেমপ্লেট:Notelist

তথ্যসূত্র

টেমপ্লেট:সূত্র তালিকা

আরও পড়ুন

টেমপ্লেট:Natural language processing টেমপ্লেট:Artificial intelligence (AI)

  1. টেমপ্লেট:ওয়েব উদ্ধৃতি
  2. টেমপ্লেট:সংবাদ উদ্ধৃতি
  3. টেমপ্লেট:ওয়েব উদ্ধৃতি
  4. টেমপ্লেট:ওয়েব উদ্ধৃতি
  5. ৫.০ ৫.১ ৫.২ টেমপ্লেট:সাময়িকী উদ্ধৃতি
  6. টেমপ্লেট:Cite conference
  7. ৭.০ ৭.১ টেমপ্লেট:সাময়িকী উদ্ধৃতি
  8. টেমপ্লেট:Citation
  9. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  10. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  11. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  12. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  13. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  14. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  15. টেমপ্লেট:Cite arXiv
  16. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  17. টেমপ্লেট:ওয়েব উদ্ধৃতি
  18. টেমপ্লেট:ওয়েব উদ্ধৃতি
  19. টেমপ্লেট:ওয়েব উদ্ধৃতি
  20. টেমপ্লেট:ওয়েব উদ্ধৃতি
  21. টেমপ্লেট:ওয়েব উদ্ধৃতি
  22. টেমপ্লেট:Cite arXiv
  23. টেমপ্লেট:ওয়েব উদ্ধৃতি
  24. টেমপ্লেট:Citation
  25. টেমপ্লেট:Citation
  26. টেমপ্লেট:ওয়েব উদ্ধৃতি
  27. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  28. টেমপ্লেট:ওয়েব উদ্ধৃতি
  29. ২৯.০ ২৯.১ টেমপ্লেট:বই উদ্ধৃতি
  30. টেমপ্লেট:Cite arXiv
  31. টেমপ্লেট:ওয়েব উদ্ধৃতি
  32. টেমপ্লেট:Cite arXiv
  33. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  34. টেমপ্লেট:Citation
  35. টেমপ্লেট:Cite arXiv
  36. টেমপ্লেট:Cite arXiv
  37. টেমপ্লেট:Cite arXiv
  38. টেমপ্লেট:Cite arXiv
  39. টেমপ্লেট:Cite arXiv
  40. টেমপ্লেট:Cite arXiv
  41. টেমপ্লেট:Cite arXiv
  42. ৪২.০ ৪২.১ ৪২.২ ৪২.৩ উদ্ধৃতি ত্রুটি: <ref> ট্যাগ বৈধ নয়; glam-blog নামের সূত্রটির জন্য কোন লেখা প্রদান করা হয়নি
  43. ৪৩.০ ৪৩.১ ৪৩.২ টেমপ্লেট:সাময়িকী উদ্ধৃতি
  44. টেমপ্লেট:ওয়েব উদ্ধৃতি
  45. টেমপ্লেট:ওয়েব উদ্ধৃতি
  46. টেমপ্লেট:ওয়েব উদ্ধৃতি
  47. টেমপ্লেট:ওয়েব উদ্ধৃতি
  48. টেমপ্লেট:ওয়েব উদ্ধৃতি
  49. টেমপ্লেট:বই উদ্ধৃতি
  50. ৫০.০ ৫০.১ ৫০.২ টেমপ্লেট:বই উদ্ধৃতি
  51. টেমপ্লেট:ওয়েব উদ্ধৃতি
  52. টেমপ্লেট:ওয়েব উদ্ধৃতি
  53. টেমপ্লেট:ওয়েব উদ্ধৃতি
  54. ৫৪.০ ৫৪.১ টেমপ্লেট:ওয়েব উদ্ধৃতি
  55. টেমপ্লেট:Cite arXiv
  56. টেমপ্লেট:Cite arXiv
  57. টেমপ্লেট:Citation
  58. ৫৮.০ ৫৮.১ Section 2.1 and Table 1, টেমপ্লেট:Cite arXiv
  59. টেমপ্লেট:Cite arXiv
  60. টেমপ্লেট:ওয়েব উদ্ধৃতি
  61. টেমপ্লেট:Cite arXiv
  62. টেমপ্লেট:Cite arXiv
  63. টেমপ্লেট:Cite arXiv
  64. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  65. টেমপ্লেট:ওয়েব উদ্ধৃতি
  66. টেমপ্লেট:Cite arXiv
  67. টেমপ্লেট:Cite arXiv
  68. টেমপ্লেট:Cite arXiv
  69. টেমপ্লেট:Cite arXiv
  70. টেমপ্লেট:Cite arXiv
  71. টেমপ্লেট:Cite arXiv
  72. ৭২.০ ৭২.১ টেমপ্লেট:ওয়েব উদ্ধৃতি
  73. টেমপ্লেট:Cite arXiv
  74. টেমপ্লেট:ওয়েব উদ্ধৃতি
  75. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  76. টেমপ্লেট:Cite arXiv
  77. টেমপ্লেট:Cite arXiv
  78. টেমপ্লেট:Cite arXiv
  79. টেমপ্লেট:ওয়েব উদ্ধৃতি
  80. টেমপ্লেট:Cite arXiv
  81. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  82. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  83. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  84. টেমপ্লেট:Cite arXiv
  85. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  86. টেমপ্লেট:Cite arXiv
  87. টেমপ্লেট:Cite arXiv
  88. টেমপ্লেট:Cite arXiv
  89. টেমপ্লেট:Cite arXiv
  90. টেমপ্লেট:ওয়েব উদ্ধৃতি
  91. টেমপ্লেট:Citation
  92. টেমপ্লেট:ওয়েব উদ্ধৃতি
  93. টেমপ্লেট:Cite arXiv
  94. ৯৪.০ ৯৪.১ টেমপ্লেট:Cite arXiv
  95. টেমপ্লেট:ওয়েব উদ্ধৃতি
  96. টেমপ্লেট:Cite arXiv
  97. টেমপ্লেট:Cite arXiv
  98. টেমপ্লেট:Cite arXiv
  99. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  100. টেমপ্লেট:ওয়েব উদ্ধৃতি
  101. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  102. A Closer Look at Large Language Models Emergent Abilities টেমপ্লেট:ওয়েব আর্কাইভ (Yao Fu, Nov 20, 2022)
  103. টেমপ্লেট:ওয়েব উদ্ধৃতি
  104. টেমপ্লেট:Cite arXiv
  105. টেমপ্লেট:Cite arXiv
  106. টেমপ্লেট:ওয়েব উদ্ধৃতি
  107. টেমপ্লেট:Cite arXiv
  108. টেমপ্লেট:Cite arXiv
  109. ১০৯.০ ১০৯.১ ১০৯.২ ১০৯.৩ ১০৯.৪ টেমপ্লেট:সাময়িকী উদ্ধৃতি
  110. টেমপ্লেট:সংবাদ উদ্ধৃতি
  111. ১১১.০ ১১১.১ টেমপ্লেট:Cite arXiv
  112. টেমপ্লেট:সংবাদ উদ্ধৃতি
  113. টেমপ্লেট:সংবাদ উদ্ধৃতি
  114. ১১৪.০ ১১৪.১ টেমপ্লেট:Cite magazine
  115. টেমপ্লেট:সংবাদ উদ্ধৃতি
  116. টেমপ্লেট:সংবাদ উদ্ধৃতি
  117. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  118. টেমপ্লেট:Cite arXiv
  119. টেমপ্লেট:বই উদ্ধৃতি
  120. টেমপ্লেট:ওয়েব উদ্ধৃতি
  121. টেমপ্লেট:বই উদ্ধৃতি
  122. টেমপ্লেট:বই উদ্ধৃতি
  123. ১২৩.০ ১২৩.১ টেমপ্লেট:ওয়েব উদ্ধৃতি
  124. ১২৪.০ ১২৪.১ টেমপ্লেট:Cite arXiv
  125. ১২৫.০ ১২৫.১ ১২৫.২ টেমপ্লেট:Cite arXiv
  126. টেমপ্লেট:Citation
  127. টেমপ্লেট:Citation
  128. টেমপ্লেট:ওয়েব উদ্ধৃতি
  129. টেমপ্লেট:Cite arXiv
  130. টেমপ্লেট:Cite arXiv
  131. ১৩১.০ ১৩১.১ টেমপ্লেট:Cite arXiv
  132. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  133. টেমপ্লেট:সংবাদ উদ্ধৃতি
  134. টেমপ্লেট:ওয়েব উদ্ধৃতি
  135. টেমপ্লেট:সাময়িকী উদ্ধৃতি Citing Lee et al 2022.
  136. টেমপ্লেট:Harvnb.
  137. টেমপ্লেট:সংবাদ উদ্ধৃতি
  138. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  139. টেমপ্লেট:ওয়েব উদ্ধৃতি
  140. টেমপ্লেট:Cite arXiv
  141. টেমপ্লেট:Cite arXiv
  142. টেমপ্লেট:ওয়েব উদ্ধৃতি
  143. ১৪৩.০ ১৪৩.১ টেমপ্লেট:ওয়েব উদ্ধৃতি
  144. টেমপ্লেট:Cite arXiv
  145. টেমপ্লেট:Citation
  146. টেমপ্লেট:বই উদ্ধৃতি
  147. টেমপ্লেট:ওয়েব উদ্ধৃতি
  148. টেমপ্লেট:ওয়েব উদ্ধৃতি
  149. টেমপ্লেট:ওয়েব উদ্ধৃতি
  150. ১৫০.০ ১৫০.১ টেমপ্লেট:Cite arXiv
  151. টেমপ্লেট:ওয়েব উদ্ধৃতি
  152. টেমপ্লেট:ওয়েব উদ্ধৃতি
  153. টেমপ্লেট:Cite arXiv
  154. টেমপ্লেট:Cite arXiv
  155. ১৫৫.০ ১৫৫.১ টেমপ্লেট:সাময়িকী উদ্ধৃতি
  156. টেমপ্লেট:Citation
  157. টেমপ্লেট:ওয়েব উদ্ধৃতি
  158. টেমপ্লেট:ওয়েব উদ্ধৃতি
  159. টেমপ্লেট:ওয়েব উদ্ধৃতি
  160. টেমপ্লেট:Cite arXiv
  161. উদ্ধৃতি ত্রুটি: <ref> ট্যাগ বৈধ নয়; 15Brelease নামের সূত্রটির জন্য কোন লেখা প্রদান করা হয়নি
  162. টেমপ্লেট:ওয়েব উদ্ধৃতি
  163. ১৬৩.০ ১৬৩.১ টেমপ্লেট:ওয়েব উদ্ধৃতি
  164. ১৬৪.০ ১৬৪.১ টেমপ্লেট:ওয়েব উদ্ধৃতি
  165. টেমপ্লেট:ওয়েব উদ্ধৃতি
  166. ১৬৬.০ ১৬৬.১ ১৬৬.২ ১৬৬.৩ ১৬৬.৪ টেমপ্লেট:সাময়িকী উদ্ধৃতি
  167. উদ্ধৃতি ত্রুটি: <ref> ট্যাগ বৈধ নয়; chatgpt-blog নামের সূত্রটির জন্য কোন লেখা প্রদান করা হয়নি
  168. টেমপ্লেট:ওয়েব উদ্ধৃতি
  169. ১৬৯.০ ১৬৯.১ ১৬৯.২ টেমপ্লেট:Cite arXiv
  170. ১৭০.০ ১৭০.১ উদ্ধৃতি ত্রুটি: <ref> ট্যাগ বৈধ নয়; vb-gpt-neo নামের সূত্রটির জন্য কোন লেখা প্রদান করা হয়নি
  171. টেমপ্লেট:ওয়েব উদ্ধৃতি
  172. ১৭২.০ ১৭২.১ ১৭২.২ ১৭২.৩ টেমপ্লেট:Cite arXiv
  173. টেমপ্লেট:ওয়েব উদ্ধৃতি
  174. ১৭৪.০ ১৭৪.১ উদ্ধৃতি ত্রুটি: <ref> ট্যাগ বৈধ নয়; mtnlg-preprint নামের সূত্রটির জন্য কোন লেখা প্রদান করা হয়নি
  175. ১৭৫.০ ১৭৫.১ টেমপ্লেট:Citation
  176. টেমপ্লেট:Cite arXiv
  177. টেমপ্লেট:ওয়েব উদ্ধৃতি
  178. ১৭৮.০ ১৭৮.১ টেমপ্লেট:Cite arXiv
  179. টেমপ্লেট:Cite arXiv
  180. টেমপ্লেট:ওয়েব উদ্ধৃতি
  181. ১৮১.০ ১৮১.১ ১৮১.২ টেমপ্লেট:Cite arXiv
  182. ১৮২.০ ১৮২.১ উদ্ধৃতি ত্রুটি: <ref> ট্যাগ বৈধ নয়; lamda-blog নামের সূত্রটির জন্য কোন লেখা প্রদান করা হয়নি
  183. টেমপ্লেট:Cite arXiv
  184. টেমপ্লেট:Cite conference
  185. ১৮৫.০ ১৮৫.১ ১৮৫.২ উদ্ধৃতি ত্রুটি: <ref> ট্যাগ বৈধ নয়; chinchilla-blog নামের সূত্রটির জন্য কোন লেখা প্রদান করা হয়নি
  186. উদ্ধৃতি ত্রুটি: <ref> ট্যাগ বৈধ নয়; palm-blog নামের সূত্রটির জন্য কোন লেখা প্রদান করা হয়নি
  187. টেমপ্লেট:ওয়েব উদ্ধৃতি
  188. টেমপ্লেট:Cite arXiv
  189. টেমপ্লেট:ওয়েব উদ্ধৃতি
  190. ১৯০.০ ১৯০.১ টেমপ্লেট:Citation
  191. ১৯১.০ ১৯১.১ টেমপ্লেট:Cite arXiv
  192. টেমপ্লেট:ওয়েব উদ্ধৃতি
  193. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  194. টেমপ্লেট:ওয়েব উদ্ধৃতি
  195. টেমপ্লেট:Cite arXiv
  196. টেমপ্লেট:ওয়েব উদ্ধৃতি
  197. টেমপ্লেট:Cite arXiv
  198. টেমপ্লেট:ওয়েব উদ্ধৃতি
  199. ১৯৯.০ ১৯৯.১ ১৯৯.২ উদ্ধৃতি ত্রুটি: <ref> ট্যাগ বৈধ নয়; llama-blog নামের সূত্রটির জন্য কোন লেখা প্রদান করা হয়নি
  200. ২০০.০ ২০০.১ ২০০.২ টেমপ্লেট:ওয়েব উদ্ধৃতি
  201. টেমপ্লেট:ওয়েব উদ্ধৃতি
  202. টেমপ্লেট:সংবাদ উদ্ধৃতি
  203. টেমপ্লেট:ওয়েব উদ্ধৃতি
  204. টেমপ্লেট:ওয়েব উদ্ধৃতি
  205. টেমপ্লেট:Cite arXiv
  206. টেমপ্লেট:ওয়েব উদ্ধৃতি
  207. UAE's Falcon 40B, World's Top-Ranked AI Model from Technology Innovation Institute, is Now Royalty-Free টেমপ্লেট:ওয়েব আর্কাইভ, 31 May 2023
  208. টেমপ্লেট:Cite arXiv
  209. টেমপ্লেট:Cite arXiv
  210. টেমপ্লেট:Cite arXiv
  211. টেমপ্লেট:ওয়েব উদ্ধৃতি
  212. টেমপ্লেট:ওয়েব উদ্ধৃতি
  213. ২১৩.০ ২১৩.১ টেমপ্লেট:ওয়েব উদ্ধৃতি
  214. টেমপ্লেট:ওয়েব উদ্ধৃতি
  215. ২১৫.০ ২১৫.১ টেমপ্লেট:ওয়েব উদ্ধৃতি
  216. টেমপ্লেট:ওয়েব উদ্ধৃতি
  217. টেমপ্লেট:ওয়েব উদ্ধৃতি
  218. টেমপ্লেট:ওয়েব উদ্ধৃতি
  219. টেমপ্লেট:ওয়েব উদ্ধৃতি
  220. টেমপ্লেট:ওয়েব উদ্ধৃতি
  221. টেমপ্লেট:Citation
  222. টেমপ্লেট:ওয়েব উদ্ধৃতি
  223. টেমপ্লেট:ওয়েব উদ্ধৃতি
  224. টেমপ্লেট:ওয়েব উদ্ধৃতি
  225. টেমপ্লেট:ওয়েব উদ্ধৃতি
  226. টেমপ্লেট:ওয়েব উদ্ধৃতি
  227. ২২৭.০ ২২৭.১ টেমপ্লেট:ওয়েব উদ্ধৃতি
  228. টেমপ্লেট:ওয়েব উদ্ধৃতি
  229. টেমপ্লেট:ওয়েব উদ্ধৃতি
  230. টেমপ্লেট:ওয়েব উদ্ধৃতি
  231. টেমপ্লেট:ওয়েব উদ্ধৃতি
  232. টেমপ্লেট:ওয়েব উদ্ধৃতি
  233. টেমপ্লেট:ওয়েব উদ্ধৃতি
  234. টেমপ্লেট:ওয়েব উদ্ধৃতি
  235. টেমপ্লেট:ওয়েব উদ্ধৃতি
  236. টেমপ্লেট:ওয়েব উদ্ধৃতি
  237. "The Llama 3 Herd of Models" (July 23, 2024) Llama Team, AI @ Meta
  238. টেমপ্লেট:ওয়েব উদ্ধৃতি