স্মার্ট তথ্য পুনরুদ্ধার ব্যবস্থা
SMART (System for the Mechanical Analysis and Retrieval of Text) তথ্য পুনরুদ্ধার সিস্টেম হল একটি তথ্য পুনরুদ্ধার সিস্টেম যা Cornell University-এ ১৯৬০-এর দশকে বিকশিত হয়।[১] তথ্য পুনরুদ্ধারের অনেক গুরুত্বপূর্ণ ধারণা SMART সিস্টেমের গবেষণার অংশ হিসেবে বিকশিত হয়েছিল, যার মধ্যে ভেক্টর স্পেস মডেল, প্রাসঙ্গিক প্রতিক্রিয়া, এবং Rocchio শ্রেণীবিভাগ অন্তর্ভুক্ত।
Gerard Salton ছিলেন সেই দলটির নেতৃত্বদানকারী, যারা SMART সিস্টেমটি বিকশিত করেছিল। অন্যান্য অবদানকারীরা ছিলেন মাইক লেস্ক।
SMART সিস্টেমটি বিভিন্ন বিষয় থেকে সংগৃহীত কিছু কর্পাস, প্রশ্ন এবং রেফারেন্স র্যাঙ্কিং সরবরাহ করে, যার মধ্যে উল্লেখযোগ্য:
- ADI: তথ্য বিজ্ঞান পর্যালোচনার প্রকাশনা
- কম্পিউটার বিজ্ঞান
- Cranfield সংগ্রহ: বিমানবিদ্যুৎ পর্যালোচনার প্রকাশনা
- Forensic science: গ্রন্থাগার বিজ্ঞান
- MEDLARS সংগ্রহ: চিকিৎসা পর্যালোচনার প্রকাশনা
- Time magazine সংগ্রহ: ১৯৬৩ সালের সাধারণ পর্যালোচনার আর্কাইভ
SMART সিস্টেমের ঐতিহ্য হল SMART ট্রিপল নোটেশন, একটি মেমোনিক স্কিম যা ভেক্টর স্পেস মডেলে tf-idf ওজনের বিভিন্নতা চিহ্নিত করে। যেকোনো ওজনের সমন্বয় চিহ্নিত করার জন্য মেমোনিকটি ddd.qqq আকারে থাকে, যেখানে প্রথম তিনটি অক্ষর সংগ্রহের ডকুমেন্ট ভেক্টরের জন্য এবং দ্বিতীয় তিনটি অক্ষর প্রশ্নের ডকুমেন্ট ভেক্টরের জন্য ওজনের প্রতিনিধিত্ব করে। উদাহরণস্বরূপ, ltc.lnn এর মানে হল যে ltc ওজনটি সংগ্রহের ডকুমেন্টে প্রয়োগ করা হয়েছে এবং lnn ওজনটি প্রশ্নের ডকুমেন্টে প্রয়োগ করা হয়েছে।
নিচের টেবিলটি SMART নোটেশন প্রতিষ্ঠিত করে:[২]
| একটি ডকুমেন্ট ভেক্টরকে প্রতিনিধিত্ব করে, যেখানে হল এর ওজন তে এবং হল তে ইউনিক শব্দের সংখ্যা। ইতিবাচক বৈশিষ্ট্যগুলি চিহ্নিত করে যে শব্দগুলি ডকুমেন্টে উপস্থিত, এবং শূন্য ওজন ব্যবহার করা হয় যেসব শব্দ ডকুমেন্টে অনুপস্থিত। | |||
| ডকুমেন্ট তে শব্দ এর সংঘটন ফ্রিকোয়েন্সি | ডকুমেন্ট তে ইউনিক শব্দের সংখ্যা | ||
| সংগ্রহের ডকুমেন্টের সংখ্যা | ডকুমেন্টে ইউনিক শব্দের গড় সংখ্যা | ||
| ডকুমেন্টগুলির সংখ্যা যেখানে শব্দ উপস্থিত | ডকুমেন্ট তে অক্ষরের সংখ্যা | ||
| ডকুমেন্ট তে সবচেয়ে সাধারণ শব্দের সংঘটন ফ্রিকোয়েন্সি | ডকুমেন্টে গড় অক্ষরের সংখ্যা | ||
| ডকুমেন্ট তে শব্দের গড় সংঘটন ফ্রিকোয়েন্সি | বিশ্বব্যাপী সংগ্রহ পরিসংখ্যান | ||
| পিভটেড ডকুমেন্ট দৈর্ঘ্য স্বাভাবিকীকরণের প্রেক্ষাপটে ঢাল[৩] | |||
| শব্দ ফ্রিকোয়েন্সি | ডকুমেন্ট ফ্রিকোয়েন্সি | ডকুমেন্ট দৈর্ঘ্য স্বাভাবিকীকরণ | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
b
|
বাইনারি ওজন | x
|
n
|
সংগ্রহ ফ্রিকোয়েন্সি উপেক্ষা করে | x
|
n
|
কোনো ডকুমেন্ট দৈর্ঘ্য স্বাভাবিকীকরণ নেই | ||||
t
|
n
|
কাঁচা শব্দ ফ্রিকোয়েন্সি | f
|
অবতলন ফ্রিকোয়েন্সি | c
|
কোসাইন স্বাভাবিকীকরণ | |||||
a
|
অগমেন্টেড স্বাভাবিকীকৃত শব্দ ফ্রিকোয়েন্সি | t
|
অবতলন ফ্রিকোয়েন্সি | u
|
পিভটেড ইউনিক স্বাভাবিকীকরণ[৩] | ||||||
l
|
লগারিদম | p
|
সম্ভাব্য অবতলন ফ্রিকোয়েন্সি | b
|
পিভটেড চরিত্র দৈর্ঘ্য স্বাভাবিকীকরণ[৩] | ||||||
L
|
গড়-শব্দ-ফ্রিকোয়েন্সি-ভিত্তিক স্বাভাবিকীকরণ[৩] | ||||||||||
d
|
ডাবল লগারিদম | ||||||||||
প্রথম, পঞ্চম, এবং নবম কলামের ধূসর অক্ষরগুলি সালটন এবং বাকলির ১৯৮৮ সালের কাগজে ব্যবহৃত স্কিম[৪]। দ্বিতীয়, ষষ্ঠ, এবং দশম কলামের মোটা অক্ষরগুলি পরবর্তী পরীক্ষায় ব্যবহৃত স্কিম।
রেফারেন্স
বহিঃসংযোগ
- সফটওয়্যার এবং পরীক্ষার সংগ্রহটেমপ্লেট:Dead link (FTP at Cornell University)
- ইন্টারেক্টিভ SMART টিউটোরিয়াল
- ↑ টেমপ্লেট:সাময়িকী উদ্ধৃতি
- ↑ টেমপ্লেট:ওয়েব উদ্ধৃতি
- ↑ ৩.০ ৩.১ ৩.২ ৩.৩ Singhal, A., Buckley, C., & Mitra, M. (1996). Pivoted Document Length Normalization. SIGIR Forum, 51, 176-184.
- ↑ Salton, G., & Buckley, C. (1988). Term-Weighting Approaches in Automatic Text Retrieval. Inf. Process. Manage., 24, 513-523.