স্মার্ট তথ্য পুনরুদ্ধার ব্যবস্থা

testwiki থেকে
পরিভ্রমণে চলুন অনুসন্ধানে চলুন

SMART (System for the Mechanical Analysis and Retrieval of Text) তথ্য পুনরুদ্ধার সিস্টেম হল একটি তথ্য পুনরুদ্ধার সিস্টেম যা Cornell University-এ ১৯৬০-এর দশকে বিকশিত হয়।[] তথ্য পুনরুদ্ধারের অনেক গুরুত্বপূর্ণ ধারণা SMART সিস্টেমের গবেষণার অংশ হিসেবে বিকশিত হয়েছিল, যার মধ্যে ভেক্টর স্পেস মডেল, প্রাসঙ্গিক প্রতিক্রিয়া, এবং Rocchio শ্রেণীবিভাগ অন্তর্ভুক্ত।

Gerard Salton ছিলেন সেই দলটির নেতৃত্বদানকারী, যারা SMART সিস্টেমটি বিকশিত করেছিল। অন্যান্য অবদানকারীরা ছিলেন মাইক লেস্ক

SMART সিস্টেমটি বিভিন্ন বিষয় থেকে সংগৃহীত কিছু কর্পাস, প্রশ্ন এবং রেফারেন্স র্যাঙ্কিং সরবরাহ করে, যার মধ্যে উল্লেখযোগ্য:

  • ADI: তথ্য বিজ্ঞান পর্যালোচনার প্রকাশনা
  • কম্পিউটার বিজ্ঞান
  • Cranfield সংগ্রহ: বিমানবিদ্যুৎ পর্যালোচনার প্রকাশনা
  • Forensic science: গ্রন্থাগার বিজ্ঞান
  • MEDLARS সংগ্রহ: চিকিৎসা পর্যালোচনার প্রকাশনা
  • Time magazine সংগ্রহ: ১৯৬৩ সালের সাধারণ পর্যালোচনার আর্কাইভ

SMART সিস্টেমের ঐতিহ্য হল SMART ট্রিপল নোটেশন, একটি মেমোনিক স্কিম যা ভেক্টর স্পেস মডেলে tf-idf ওজনের বিভিন্নতা চিহ্নিত করে। যেকোনো ওজনের সমন্বয় চিহ্নিত করার জন্য মেমোনিকটি ddd.qqq আকারে থাকে, যেখানে প্রথম তিনটি অক্ষর সংগ্রহের ডকুমেন্ট ভেক্টরের জন্য এবং দ্বিতীয় তিনটি অক্ষর প্রশ্নের ডকুমেন্ট ভেক্টরের জন্য ওজনের প্রতিনিধিত্ব করে। উদাহরণস্বরূপ, ltc.lnn এর মানে হল যে ltc ওজনটি সংগ্রহের ডকুমেন্টে প্রয়োগ করা হয়েছে এবং lnn ওজনটি প্রশ্নের ডকুমেন্টে প্রয়োগ করা হয়েছে।

নিচের টেবিলটি SMART নোটেশন প্রতিষ্ঠিত করে:[]

Symbols and notation
Di={wi1,wi2,,wit} একটি ডকুমেন্ট ভেক্টরকে প্রতিনিধিত্ব করে, যেখানে wik হল Tk এর ওজন Di তে এবং t হল Di তে ইউনিক শব্দের সংখ্যা। ইতিবাচক বৈশিষ্ট্যগুলি চিহ্নিত করে যে শব্দগুলি ডকুমেন্টে উপস্থিত, এবং শূন্য ওজন ব্যবহার করা হয় যেসব শব্দ ডকুমেন্টে অনুপস্থিত।
fik ডকুমেন্ট Di তে শব্দ Tk এর সংঘটন ফ্রিকোয়েন্সি ui ডকুমেন্ট Di তে ইউনিক শব্দের সংখ্যা
N সংগ্রহের ডকুমেন্টের সংখ্যা avg(u) ডকুমেন্টে ইউনিক শব্দের গড় সংখ্যা
nk ডকুমেন্টগুলির সংখ্যা যেখানে শব্দ Tk উপস্থিত bt ডকুমেন্ট Di তে অক্ষরের সংখ্যা
max(fik) ডকুমেন্ট Di তে সবচেয়ে সাধারণ শব্দের সংঘটন ফ্রিকোয়েন্সি avg(b) ডকুমেন্টে গড় অক্ষরের সংখ্যা
avg(fik) ডকুমেন্ট Di তে শব্দের গড় সংঘটন ফ্রিকোয়েন্সি G বিশ্বব্যাপী সংগ্রহ পরিসংখ্যান
s পিভটেড ডকুমেন্ট দৈর্ঘ্য স্বাভাবিকীকরণের প্রেক্ষাপটে ঢাল[]
SMART শব্দ-ওজন ট্রিপল নোটেশন
শব্দ ফ্রিকোয়েন্সি tf(fik) ডকুমেন্ট ফ্রিকোয়েন্সি df(N,nk) ডকুমেন্ট দৈর্ঘ্য স্বাভাবিকীকরণ g(G,Di)
b 1 বাইনারি ওজন x n 1 সংগ্রহ ফ্রিকোয়েন্সি উপেক্ষা করে x n 1 কোনো ডকুমেন্ট দৈর্ঘ্য স্বাভাবিকীকরণ নেই
t n fik কাঁচা শব্দ ফ্রিকোয়েন্সি f log2(Nnk) অবতলন ফ্রিকোয়েন্সি c k=1twik2 কোসাইন স্বাভাবিকীকরণ
a 0.5+0.5fikmax(fik) অগমেন্টেড স্বাভাবিকীকৃত শব্দ ফ্রিকোয়েন্সি t log2(N+1nk) অবতলন ফ্রিকোয়েন্সি u 1s+suiavg(u) পিভটেড ইউনিক স্বাভাবিকীকরণ[]
l 1+log2fik লগারিদম p log2(Nnknk) সম্ভাব্য অবতলন ফ্রিকোয়েন্সি b 1s+sbiavg(b) পিভটেড চরিত্র দৈর্ঘ্য স্বাভাবিকীকরণ[]
L 1+log2(fik)1+log2(avg(fik)) গড়-শব্দ-ফ্রিকোয়েন্সি-ভিত্তিক স্বাভাবিকীকরণ[]
d 1+log2(1+log2(fik)) ডাবল লগারিদম

প্রথম, পঞ্চম, এবং নবম কলামের ধূসর অক্ষরগুলি সালটন এবং বাকলির ১৯৮৮ সালের কাগজে ব্যবহৃত স্কিম[]। দ্বিতীয়, ষষ্ঠ, এবং দশম কলামের মোটা অক্ষরগুলি পরবর্তী পরীক্ষায় ব্যবহৃত স্কিম।

রেফারেন্স

টেমপ্লেট:সূত্র তালিকা

বহিঃসংযোগ