স্মার্ট তথ্য পুনরুদ্ধার ব্যবস্থা

SMART (System for the Mechanical Analysis and Retrieval of Text) তথ্য পুনরুদ্ধার সিস্টেম হল একটি তথ্য পুনরুদ্ধার সিস্টেম যা Cornell University-এ ১৯৬০-এর দশকে বিকশিত হয়।^[১] তথ্য পুনরুদ্ধারের অনেক গুরুত্বপূর্ণ ধারণা SMART সিস্টেমের গবেষণার অংশ হিসেবে বিকশিত হয়েছিল, যার মধ্যে ভেক্টর স্পেস মডেল, প্রাসঙ্গিক প্রতিক্রিয়া, এবং Rocchio শ্রেণীবিভাগ অন্তর্ভুক্ত।

Gerard Salton ছিলেন সেই দলটির নেতৃত্বদানকারী, যারা SMART সিস্টেমটি বিকশিত করেছিল। অন্যান্য অবদানকারীরা ছিলেন মাইক লেস্ক।

SMART সিস্টেমটি বিভিন্ন বিষয় থেকে সংগৃহীত কিছু কর্পাস, প্রশ্ন এবং রেফারেন্স র্যাঙ্কিং সরবরাহ করে, যার মধ্যে উল্লেখযোগ্য:

ADI: তথ্য বিজ্ঞান পর্যালোচনার প্রকাশনা
কম্পিউটার বিজ্ঞান
Cranfield সংগ্রহ: বিমানবিদ্যুৎ পর্যালোচনার প্রকাশনা
Forensic science: গ্রন্থাগার বিজ্ঞান
MEDLARS সংগ্রহ: চিকিৎসা পর্যালোচনার প্রকাশনা
Time magazine সংগ্রহ: ১৯৬৩ সালের সাধারণ পর্যালোচনার আর্কাইভ

SMART সিস্টেমের ঐতিহ্য হল SMART ট্রিপল নোটেশন, একটি মেমোনিক স্কিম যা ভেক্টর স্পেস মডেলে tf-idf ওজনের বিভিন্নতা চিহ্নিত করে। যেকোনো ওজনের সমন্বয় চিহ্নিত করার জন্য মেমোনিকটি ddd.qqq আকারে থাকে, যেখানে প্রথম তিনটি অক্ষর সংগ্রহের ডকুমেন্ট ভেক্টরের জন্য এবং দ্বিতীয় তিনটি অক্ষর প্রশ্নের ডকুমেন্ট ভেক্টরের জন্য ওজনের প্রতিনিধিত্ব করে। উদাহরণস্বরূপ, ltc.lnn এর মানে হল যে ltc ওজনটি সংগ্রহের ডকুমেন্টে প্রয়োগ করা হয়েছে এবং lnn ওজনটি প্রশ্নের ডকুমেন্টে প্রয়োগ করা হয়েছে।

নিচের টেবিলটি SMART নোটেশন প্রতিষ্ঠিত করে:^[২]

Symbols and notation
$D_{i} = {w_{i_{1}}, w_{i_{2}}, \dots, w_{i_{t}}}$ একটি ডকুমেন্ট ভেক্টরকে প্রতিনিধিত্ব করে, যেখানে $w_{i_{k}}$ হল $T_{k}$ এর ওজন $D_{i}$ তে এবং $t$ হল $D_{i}$ তে ইউনিক শব্দের সংখ্যা। ইতিবাচক বৈশিষ্ট্যগুলি চিহ্নিত করে যে শব্দগুলি ডকুমেন্টে উপস্থিত, এবং শূন্য ওজন ব্যবহার করা হয় যেসব শব্দ ডকুমেন্টে অনুপস্থিত।
$f_{i_{k}}$	ডকুমেন্ট $D_{i}$ তে শব্দ $T_{k}$ এর সংঘটন ফ্রিকোয়েন্সি	$u_{i}$	ডকুমেন্ট $D_{i}$ তে ইউনিক শব্দের সংখ্যা
$N$	সংগ্রহের ডকুমেন্টের সংখ্যা	$avg (u)$	ডকুমেন্টে ইউনিক শব্দের গড় সংখ্যা
$n_{k}$	ডকুমেন্টগুলির সংখ্যা যেখানে শব্দ $T_{k}$ উপস্থিত	$b_{t}$	ডকুমেন্ট $D_{i}$ তে অক্ষরের সংখ্যা
$\max (f_{i_{k}})$	ডকুমেন্ট $D_{i}$ তে সবচেয়ে সাধারণ শব্দের সংঘটন ফ্রিকোয়েন্সি	$avg (b)$	ডকুমেন্টে গড় অক্ষরের সংখ্যা
$avg (f_{i_{k}})$	ডকুমেন্ট $D_{i}$ তে শব্দের গড় সংঘটন ফ্রিকোয়েন্সি	$G$	বিশ্বব্যাপী সংগ্রহ পরিসংখ্যান
$s$	পিভটেড ডকুমেন্ট দৈর্ঘ্য স্বাভাবিকীকরণের প্রেক্ষাপটে ঢাল^[৩]

SMART শব্দ-ওজন ট্রিপল নোটেশন
শব্দ ফ্রিকোয়েন্সি $tf (f_{i_{k}})$				ডকুমেন্ট ফ্রিকোয়েন্সি $df (N, n_{k})$				ডকুমেন্ট দৈর্ঘ্য স্বাভাবিকীকরণ $g (G, D_{i})$
	`b`	$1$	বাইনারি ওজন	`x`	`n`	$1$	সংগ্রহ ফ্রিকোয়েন্সি উপেক্ষা করে	`x`	`n`	$1$	কোনো ডকুমেন্ট দৈর্ঘ্য স্বাভাবিকীকরণ নেই
`t`	`n`	$f_{i_{k}}$	কাঁচা শব্দ ফ্রিকোয়েন্সি	`f`		$\log_{2} (\frac{N}{n_{k}})$	অবতলন ফ্রিকোয়েন্সি		`c`	$\sqrt{\sum_{k = 1}^{t} w_{i_{k}}^{2}}$	কোসাইন স্বাভাবিকীকরণ
	`a`	$0.5 + 0.5 \frac{f_{i_{k}}}{\max (f_{i_{k}})}$	অগমেন্টেড স্বাভাবিকীকৃত শব্দ ফ্রিকোয়েন্সি		`t`	$\log_{2} (\frac{N + 1}{n_{k}})$	অবতলন ফ্রিকোয়েন্সি		`u`	$1 - s + s \frac{u_{i}}{avg (u)}$	পিভটেড ইউনিক স্বাভাবিকীকরণ^[৩]
	`l`	$1 + \log_{2} f_{i_{k}}$	লগারিদম	`p`		$\log_{2} (\frac{N - n_{k}}{n_{k}})$	সম্ভাব্য অবতলন ফ্রিকোয়েন্সি		`b`	$1 - s + s \frac{b_{i}}{avg (b)}$	পিভটেড চরিত্র দৈর্ঘ্য স্বাভাবিকীকরণ^[৩]
	`L`	$\frac{1 + \log_{2} (f_{i_{k}})}{1 + \log_{2} (avg (f_{i_{k}}))}$	গড়-শব্দ-ফ্রিকোয়েন্সি-ভিত্তিক স্বাভাবিকীকরণ^[৩]
	`d`	$1 + \log_{2} (1 + \log_{2} (f_{i_{k}}))$	ডাবল লগারিদম

প্রথম, পঞ্চম, এবং নবম কলামের ধূসর অক্ষরগুলি সালটন এবং বাকলির ১৯৮৮ সালের কাগজে ব্যবহৃত স্কিম^[৪]। দ্বিতীয়, ষষ্ঠ, এবং দশম কলামের মোটা অক্ষরগুলি পরবর্তী পরীক্ষায় ব্যবহৃত স্কিম।

রেফারেন্স

টেমপ্লেট:সূত্র তালিকা

বহিঃসংযোগ

↑ টেমপ্লেট:সাময়িকী উদ্ধৃতি
↑ টেমপ্লেট:ওয়েব উদ্ধৃতি
↑ ^৩.০ ^৩.১ ^৩.২ ^৩.৩ Singhal, A., Buckley, C., & Mitra, M. (1996). Pivoted Document Length Normalization. SIGIR Forum, 51, 176-184.
↑ Salton, G., & Buckley, C. (1988). Term-Weighting Approaches in Automatic Text Retrieval. Inf. Process. Manage., 24, 513-523.

[1] টেমপ্লেট:সাময়িকী উদ্ধৃতি

[2] টেমপ্লেট:ওয়েব উদ্ধৃতি

[:0-3] ৩.০ ^৩.১ ^৩.২ ^৩.৩ Singhal, A., Buckley, C., & Mitra, M. (1996). Pivoted Document Length Normalization. SIGIR Forum, 51, 176-184.

[4] Salton, G., & Buckley, C. (1988). Term-Weighting Approaches in Automatic Text Retrieval. Inf. Process. Manage., 24, 513-523.

[১]

[২]

[৩]

[৪]

স্মার্ট তথ্য পুনরুদ্ধার ব্যবস্থা

রেফারেন্স

বহিঃসংযোগ

পরিভ্রমণ বাছাইতালিকা

অনুসন্ধান