ভাষার মডেল

testwiki থেকে
পরিভ্রমণে চলুন অনুসন্ধানে চলুন

একটি ভাষার মডেল প্রাকৃতিক ভাষার একটি সম্ভাব্য মডেল ।[] ১৯৮০ সালে প্রথম উল্লেখযোগ্য পরিসংখ্যানগত ভাষার মডেল প্রস্তাব করা হয়েছিল এবং একই দশকে আইবিএম 'শ্যানন-শৈলী' পরীক্ষা-নিরীক্ষা করে, যেখানে পাঠ্যের ভবিষ্যদ্বাণী বা সংশোধনে মানব বিষয়ের কর্মক্ষমতা পর্যবেক্ষণ ও বিশ্লেষণ করে ভাষার মডেলিং উন্নতির সম্ভাব্য উৎস চিহ্নিত করা হয়েছিল।[]

ভাষা মডেল বিভিন্ন কাজে উপযোগী, যার মধ্যে রয়েছে কণ্ঠ শনাক্তকরণ (যা কম সম্ভাবনাময়, যেমন অর্থহীন ক্রমের পূর্বাভাস ঠেকাতে সহায়ক), যন্ত্রানুবাদ,[] স্বাভাবিক ভাষা উৎপাদন (আরও মানবসদৃশ লেখা তৈরি করা), আলোকভিত্তিক অক্ষর শনাক্তকরণ, পথ নির্ধারণ,[] [হাতের লেখা শনাক্তকরণ,[] ব্যাকরণ আনয়ন এবং তথ্য পুনরুদ্ধার।[][]

বড় ডেটাসেট (প্রায়ই ইন্টারনেট থেকে স্ক্র্যাপ করা শব্দসমূহ), ফিডফরোয়ার্ড স্নায়ু নেটওয়ার্ক এবং ট্রান্সফরমারের সমন্বয়ে গঠিত বৃহৎ ভাষার মডেল বর্তমানে এটির সর্বাধিক উন্নত রূপ। এরা পুনরাবৃত্ত স্নায়ু নেটওয়ার্ক-ভিত্তিক মডেলের স্থান নিয়েছে, যা এর আগে বিশুদ্ধ পরিসংখ্যানভিত্তিক মডেল, যেমন শব্দ এন-গ্রাম ভাষা মডেলকে প্রতিস্থাপন করেছিল।

বিশুদ্ধ পরিসংখ্যান মডেল

শব্দ এন-গ্রামের উপর ভিত্তি করে মডেল

শব্দ এন-গ্রাম ভাষা মডেল একটি সম্পূর্ণ পরিসংখ্যানভিত্তিক ভাষার মডেল। এটি পুনরাবৃত্ত স্নায়ু নেটওয়ার্ক–ভিত্তিক মডেল দ্বারা প্রতিস্থাপিত হয়েছে, যা পরবর্তীতে বৃহৎ ভাষার মডেল দ্বারা প্রতিস্থাপিত হয়েছে।[] এই মডেল ধরে নেয় যে একটি ক্রমের পরবর্তী শব্দের সম্ভাব্যতা শুধুমাত্র একটি নির্দিষ্ট আকারের পূর্ববর্তী শব্দের উইন্ডোর উপর নির্ভরশীল। যদি মাত্র এক পূর্ববর্তী শব্দ বিবেচনা করা হয়, সেটি বিগ্রাম মডেল; দুই শব্দ হলে ট্রিগ্রাম মডেল; এবং এন−১ শব্দ হলে এন-গ্রাম মডেল।[] বাক্যের শুরু এবং শেষ নির্দেশ করতে বিশেষ টোকেন s এবং /s ব্যবহৃত হয়।

অদেখা শব্দের জন্য শূন্য সম্ভাবনা নির্ধারণ ঠেকাতে, প্রতিটি শব্দের সম্ভাবনা তার ফ্রিকোয়েন্সি কাউন্টের চেয়ে সামান্য কম রাখা হয়। এটি হিসাব করার জন্য বিভিন্ন পদ্ধতি ব্যবহৃত হয়েছে, যেমন সাদামাটা "অ্যাড-ওয়ান" স্মুথিং (অদেখা এন-গ্রামের জন্য ১ এর কাউন্ট নির্ধারণ করা, যা একটি অপ্রাসঙ্গিক প্রাকৃতিক অনুমান হিসেবে কাজ করে) থেকে আরও উন্নত মডেল, যেমন গুড-টারিং ডিসকাউন্টিং বা ব্যাক-অফ মডেল।

সূচকীয়

সর্বাধিক এনট্রপি ভাষার মডেল বৈশিষ্ট্য ফাংশন ব্যবহার করে একটি শব্দ এবং এন-গ্রাম ইতিহাসের মধ্যে সম্পর্ক এনকোড করে। সমীকরণ হল:

P(wmw1,,wm1)=1Z(w1,,wm1)exp(aTf(w1,,wm))

যেখানে Z(w1,,wm1) পার্টিশন ফাংশন হল, a পরামিতি ভেক্টর এবং f(w1,,wm) বৈশিষ্ট্য ফাংশন. সহজভাবে, বৈশিষ্ট্য ফাংশন একটি নির্দিষ্ট এন-গ্রাম উপস্থিতির একটি সূচক মাত্র। এটি একটি পূর্বে ব্যবহার সহায়ক a বা নিয়মিতকরণের কিছু রূপ।

লগ-বিলিনিয়ার মডেল একটি সূচকীয় ভাষা মডেলের আরেকটি উদাহরণ।

স্কিপ-গ্রাম মডেল

স্কিপ-গ্রাম ভাষা মডেল একটি প্রচেষ্টা যা পূর্ববর্তী মডেল (অর্থাৎ শব্দ এন-গ্রাম ভাষা মডেল) যে ডেটা সংকট সমস্যার সম্মুখীন হয়েছিল তা কাটিয়ে উঠতে সাহায্য করে। এম্বেডিং ভেক্টরে উপস্থাপিত শব্দগুলি আর নির্দিষ্টভাবে পরপর থাকত না, বরং মাঝে গ্যাপ থাকতে পারত যেগুলি স্কিপ করা হত।[১০]

আনুষ্ঠানিকভাবে, একটি টেমপ্লেট:Mvar-স্কিপ-টেমপ্লেট:Mvar-গ্রাম হলো একটি দৈর্ঘ্য-টেমপ্লেট:Mvar এর সাবসিকোয়েন্স, যেখানে উপাদানগুলো একে অপরের থেকে সর্বোচ্চ টেমপ্লেট:Mvar দূরত্বে থাকে।

উদাহরণস্বরূপ, ইনপুট পাঠ্যে:

the rain in Spain falls mainly on the plain

১-স্কিপ-২-গ্রামের সেটে সমস্ত বিগ্রাম (২-গ্রাম) এবং উপরন্তু পরবর্তীতে

the in, rain Spain, in falls, Spain mainly, falls on, mainly the, and on plain.

স্কিপ-গ্রাম মডেলে, শব্দগুলির মধ্যে অর্থনৈতিক সম্পর্কগুলি রৈখিক সংমিশ্রণের মাধ্যমে উপস্থাপিত হয়, যা কম্পোজিশনালিটির একটি রূপ ধারণ করে। উদাহরণস্বরূপ, কিছু মডেলে, যদি টেমপ্লেট:Mvar একটি ফাংশন হয় যা একটি শব্দ টেমপ্লেট:Mvar কে তার টেমপ্লেট:Mvar-ডি ভেক্টর উপস্থাপনায় রূপান্তরিত করে, তাহলেv(king)v(male)+v(female)v(queen)

যেখানে ≈ স্পষ্ট করা হয় এই শর্ত দিয়ে যে, এর ডানপাশের মানটি বামপাশের মানের কাছের প্রতিবেশী হতে হবে।[১১][১২]

স্নায়ু মডেল

পৌনঃপুনিক স্নায়ু নেটওয়ার্ক

ক্রমাগত উপস্থাপনা বা শব্দের এম্বেডিংগুলি পুনরাবৃত্ত স্নায়ু নেটওয়ার্ক-ভিত্তিক ভাষা মডেলগুলিতে উৎপাদিত হয় (যা ক্রমাগত স্পেস ল্যাঙ্গুয়েজ মডেল নামেও পরিচিত)।[১৩] এই ধরনের ক্রমাগত স্পেস এম্বেডিং মাত্রিকতার সমস্যা দূর করতে সাহায্য করে, যা শব্দভান্ডারের আকারের সাথে দ্রুতগতিতে শব্দের সম্ভাব্য ক্রম সংখ্যা বৃদ্ধির ফলস্বরূপ, ডেটা স্প্যার্সিটি সমস্যা সৃষ্টি করে। স্নায়ু নেটওয়ার্কগুলি একটি স্নায়ু জালে ওজনের অ-রৈখিক সংমিশ্রণ হিসাবে শব্দগুলিকে উপস্থাপন করে এই সমস্যাটি এড়ায়।[১৪]

বড় ভাষার মডেল

টেমপ্লেট:অনুচ্ছেদ উদ্ধৃতিযদিও কখনও কখনও মানুষের কর্মক্ষমতা মিলে যায়, তবে তারা যুক্তিযুক্ত জ্ঞানীয় মডেল কিনা তা স্পষ্ট নয়। অন্তত পুনরাবৃত্ত স্নায়ু নেটওয়ার্কগুলির জন্য, এটি দেখানো হয়েছে যে তারা কখনও কখনও এমন নিদর্শন শিখে যা মানুষ করে না, কিন্তু মানুষ সাধারণত যে নিদর্শনগুলি করে তা শিখতে ব্যর্থ হয়।[১৫]

মূল্যায়ন এবং মানদণ্ড

ভাষার মডেলের গুণমানের মূল্যায়ন বেশিরভাগই সাধারণ ভাষা-ভিত্তিক কাজ থেকে তৈরি মানুষের তৈরি নমুনা বেঞ্চমার্কের সাথে তুলনা করে করা হয়। অন্যদিকে (কম প্রতিষ্ঠিত পদ্ধতি) গুণমানের পরীক্ষাগুলি একটি ভাষা মডেলের অন্তর্নিহিত চরিত্র পরীক্ষা করে বা এই জাতীয় দুটি মডেলের তুলনা করে। যেহেতু ভাষার মডেলগুলি সাধারণত গতিশীল হতে এবং তারা যে ডেটা দেখে তা থেকে শেখার উদ্দেশ্যে করা হয়, তাই কিছু প্রস্তাবিত মডেল শেখার হারের তদন্ত করে। যেমন- শেখার বক্ররেখা পরিদর্শনের মাধ্যমে।[১৬]

ভাষা প্রক্রিয়াকরণ সিস্টেমের মূল্যায়নে ব্যবহারের জন্য বিভিন্ন ডেটাসেট তৈরি করা হয়েছে।[১৭] এর মধ্যে রয়েছে:

  • ভাষাগত গ্রহণযোগ্যতার কর্পাস[১৮]
  • আঠালো বেঞ্চমার্ক[১৯]
  • মাইক্রোসফট রিসার্চ প্যারাফ্রেজ কর্পাস[২০]
  • মাল্টি-জেনার ন্যাচারাল ল্যাঙ্গুয়েজ ইনফারেন্স
  • প্রশ্ন প্রাকৃতিক ভাষা ইনফারেন্স
  • কোরা প্রশ্ন পেয়ার[২১]
  • টেক্সচুয়াল এনটেইলমেন্ট স্বীকৃতি[২২]
  • শব্দার্থিক টেক্সচুয়াল সাদৃশ্য বেঞ্চমার্ক
  • স্কোয়াড প্রশ্নের উত্তর পরীক্ষা[২৩]
  • স্ট্যানফোর্ড সেন্টিমেন্ট ট্রিব্যাঙ্ক[২৪]
  • উইনোগ্রাড এনএলআই
  • বুলকিউ, পিআইকিউএ, এসআইকিউএ, হেলাসোয়াগ, উইনোগ্রান্ডে, এআরসি, ওপেনবুককিউএ, ন্যাচারালকুয়েশন্স, ট্রিভিয়াকিউএ, রেস, এমএমএলইউ (ম্যাসিভ মাল্টিটাস্ক ল্যাঙ্গুয়েজ আন্ডারস্ট্যান্ডিং), বিগ-বেঞ্চ হার্ড, জিএসএম৮ক, রিয়েলটক্সিসিটি প্রম্পটস, উইনোজেন্ডার্স,[২৫] (এলএলএমএ বেঞ্চমার্ক)।

আরও দেখুন

 

তথ্যসূত্র

টেমপ্লেট:সূত্র তালিকা

আরও পড়ুন

 টেমপ্লেট:Refbegin

টেমপ্লেট:Refendটেমপ্লেট:স্বাভাবিক ভাষা প্রক্রিয়াজাতকরণটেমপ্লেট:Artificial intelligence (AI)

  1. টেমপ্লেট:বই উদ্ধৃতি
  2. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  3. Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation" টেমপ্লেট:ওয়েব আর্কাইভ. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
  4. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  5. Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwriting recognition" টেমপ্লেট:ওয়েব উদ্ধৃতি. 14th International Conference on Frontiers in Handwriting Recognition. IEEE.
  6. টেমপ্লেট:সম্মেলন উদ্ধৃতি
  7. টেমপ্লেট:সম্মেলন উদ্ধৃতি
  8. টেমপ্লেট:সাময়িকী উদ্ধৃতি
  9. টেমপ্লেট:বই উদ্ধৃতি
  10. টেমপ্লেট:ওয়েব উদ্ধৃতি
  11. টেমপ্লেট:Cite arXiv
  12. টেমপ্লেট:Cite conference
  13. টেমপ্লেট:ওয়েব উদ্ধৃতি
  14. টেমপ্লেট:বিশ্বকোষ উদ্ধৃতি
  15. টেমপ্লেট:বই উদ্ধৃতি
  16. টেমপ্লেট:উদ্ধৃতি
  17. টেমপ্লেট:Cite arXiv
  18. টেমপ্লেট:ওয়েব উদ্ধৃতি
  19. টেমপ্লেট:ওয়েব উদ্ধৃতি
  20. টেমপ্লেট:ওয়েব উদ্ধৃতি
  21. টেমপ্লেট:উদ্ধৃতি
  22. টেমপ্লেট:ওয়েব উদ্ধৃতি
  23. টেমপ্লেট:ওয়েব উদ্ধৃতি
  24. টেমপ্লেট:ওয়েব উদ্ধৃতি
  25. টেমপ্লেট:উদ্ধৃতি