تنظیمی اصول سیکھنا

اعداد و شمار میں متغیرات کے درمیان دلچسپ تعلقات کو دریافت کرنے کا طریقہ

تنظیمی اصول سیکھنا بڑے اعداد و شمار میں متغیرات کے درمیان دلچسپ تعلقات کو دریافت کرنے کے لیے اصول پر مبنی مشین کو سیکھنے کا طریقہ ہے۔اس کا مقصد اعداد و شمار میں دریافت ہونے والے مضبوط اصولوں کی نشان دہی کرنا ہے جو دلچسپی کے کچھ اقدامات استعمال کرتے ہیں۔[1] مختلف اشیاء کے ساتھ کسی بھی لین دین میں،تنظیم کے قوانین کا مقصد ان اصولوں کو دریافت کرنا ہوتا ہے جو اس بات کا تعین کرتے ہیں کہ بعض اشیاء کیسے یا کیوں منسلک ہیں۔

مضبوط اصولوں کے تصور کی بنیاد پر، راکیش اگروال، ٹوماسز امیلیئنسکی اور ارون سوامی [2]نے بڑے بازاروں میں فروخت کا نقطہ (POS)نظام کے ذریعے ریکارڈ کیے گئے بڑے پیمانے پر لین دین کی معلومات میں مصنوعات کے درمیان باقاعدگیاں تلاش کرنے کے لیے تنظیم کے قوانین متعارف کرائے ہیں۔مثال کے طور پر، ایک سپر مارکیٹ کے فروخت کے اعداد و شمار میں پایا جانے والا اصول اس بات کی نشان دہی کرے گا کہ اگر کوئی صارف پیاز اور آلو ایک ساتھ خریدتا ہے۔ تو وہ ہیمبرگر کا گوشت بھی خرید سکتا ہے۔اس طرح کی معلومات کو مارکیٹنگ کی سرگرمیوں کے بارے میں فیصلوں کی بنیاد کے طور پر استعمال کیا جا سکتا ہے جیسے کہ، بڑھائی گئی قیمتوں کا تعین یا مصنوعات کی جگہوں کا تعین۔

مندرجہ بالا مثال کے علاوہ بازار سے وابستگی کا تجزیہ تنظیم کے قواعد آج روز مرہ کے بہت سے شعبوں میں استعمال کیے جاتے ہیں جن میں ویب کے استعمال کی کان کنی، دخل اندازی کا پتہ لگانے، مسلسل پیداوار اور معلوماتیۂ حیاتیات شامل ہیں۔ تسلسل کے ساتھ کان کنی کے برعکس، تنظیم کا کردار سیکھنے میں عام طور پر لین دین کے اندر یا تمام لین دین میں اشیاء کی ترتیب پر غور نہیں کیا جاتا ہے۔

تنظیم کا کردار الگورتھم بذات خود مختلف عوامل پر مشتمل ہوتا ہے جو اعداد و شمار کے تجزیے میں مہارت کے بغیر ان لوگوں کے لیے عمل کرنا مشکل بنا سکتا ہے، جن کو سمجھنا مشکل ہے۔[3]

اس کے باوجود، تنظیم کے کردار کو سیکھنا اعداد و شمار کے باہمی رابطے میں رویے کی پیشن گوئی کرنے کے لیے ایک بہترین نظام ہے۔ یہ مشین سیکھنے کے طریقوں کو لاگو کرتے وقت درجہ بندی یا اعداد و شمار میں تسلسل دریافت کرنے کے لیے ایک قابل ذکر تکنیک بناتا ہے۔

تعریف

ترمیم
 
اعداد و شمار کے سیٹ کی اشیاء X اور Y کے درمیان روابط کو دکھانے کے لیے وین ڈایاگرام۔تمام لین دین جن میں X ہوتا ہے وہ دائرے کے سفید، بائیں حصے جبکہ جو Y پر مشتمل ہیں وہ سرخ اور دائیں طرف میں واقع ہیں۔X اور Y دونوں پر مشتمل کوئی بھی لین دین درمیان میں واقع ہوتا ہے اور اس کا رنگ گلابی ہوتا ہے۔اس گراف سے معلومات کو ظاہر کرنے کے لیے متعدد تصورات کا استعمال کیا جا سکتا ہے۔مثال کے طور پر، اگر کوئی گلابی حصے میں تمام لین دین کو لے کر انھیں(X (سفید) پر مشتمل لین دین + Y(سرخ) پر مشتمل لین دین) سے تقسیم کرے، تو نتیجہ تحفظ کے نام سے جانا جائے گا۔اعتماد کے نام سے جانے والے طریقہ کا نتیجہ حاصل کرنے کی ایک مثال، کوئی بھی تمام لین دین کو درمیان میں لے سکتا ہے (گلابی) اور ان کو تمام لین دین سے تقسیم کر سکتا ہے جن میں Y (سرخ اور گلابی) ہوتا ہے۔اس صورت میں، Y سابقہ ہے اور X نتیجہ ہے۔

راکیش اگروال، ٹوماسز امیلیئنسکی اور ارون سوامی [2] کی اصل تعریف کے بعد تنظیم کے کردار میں کان کنی کے مسئلے کی تعریف اس طرح کی گئی ہے:

آئیے   کو لامحدود تثنیہ صفات کا مجموعہ سمجھیں جسے اشیاء کہتے ہیں۔
آئیے   لین دین کا ایک سیٹ سمجھیں جسے اعداد و شمار کی بنیاد کہتے ہیں۔
  میں ہر لین دین کی ایک منفرد شناخت ہوتی ہے اور   میں اشیاء کا ذیلی حصہ ہوتا ہے۔
ایک اصول کی وضاحت فارم کے مضمرات کے طور پر کی گئی ہے:
 , جہاں  . اگروال، امیلیئنسکی، سوامی [2] میں ایک اصول صرف ایک سیٹ اور ایک شے کے درمیان بیان کیا گیا ہے،   کے لیے  ۔
ہر قاعدہ اشیاء کے دو مختلف سیٹوں پر مشتمل ہوتا ہے، جسے اشیاء کا سیٹ بھی کہا جاتا ہے،   اور  ، جہاں   کو سابقہ یا بائیں ہاتھ کی طرف (LHS) کہا جاتا ہے اور   نتیجے میں یا دائیں ہاتھ کی طرف (RHS)۔ سابقہ وہ اشیاء ہے جو اعداد و شمار میں پایا جا سکتا ہے جبکہ اس کے نتیجے میں وہ شے ہوتی ہے جب سابقہ کے ساتھ مل جاتی ہے۔بیان   کو اکثر اس طرح پڑھا جاتا ہے جیسے   پھر  ، جہاں سابقہ (  ) اگر ہے اور نتیجے میں ( ) پھر ہے۔اس کا مطلب یہ ہے کہ نظریہ میں، جب بھی   اعداد و شمار، سیٹ میں ہوتا ہے، تب   بھی ہو گا۔

تنظیم کے قوانین بار بار تسلسل کے لیے اعداد و شمار تلاش کرکے اور تحفظ اور اعتماد کے تحت ایک خاص معیار کو استعمال کرکے اس بات کی وضاحت کرنے کے لیے بنائے جاتے ہیں کہ اہم ترین تعلقات کیا ہیں۔تحفظ اس بات کا ثبوت ہے کہ دیے گئے اعداد و شمار میں کوئی اشیاء کتنی بار ظاہر ہوتی ہے، جیسا کہ اعتماد کی تعریف اس بات سے ہوتی ہے کہ پھر-اگر کے بیانات کتنی بار درست پائے جاتے ہیں۔تاہم، ایک تیسرا معیار ہے جو استعمال کیا جا سکتا ہے، اسے اوپر پہنچانا کہتے ہیں اور اس کا استعمال متوقع اعتماد اور حقیقی اعتماد کا موازنہ کرنے کے لیے کیا جا سکتا ہے۔اوپر پہنچانا یہ ظاپر کرے گا کہ اگر-تو بیان کے سچ ہونے کی کتنی بار توقع کی جاتی ہے۔

تنظیم کے قوانین شے کے مجموعے سے حساب کرنے کے لیے بنائے جاتے ہیں، جو دو یا زیادہ اشیاء کے ذریعے بنائے جاتے ہیں۔اگر اعداد و شمار کے تمام ممکنہ شے کے مجموعے کے تجزیے سے قواعد بنائے گئے تھے تو اتنے اصول ہوں گے کہ ان کا کوئی مطلب نہیں ہوگا۔یہی وجہ ہے کہ تنظیم کے قوانین عام طور پر ان قواعد سے بنائے جاتے ہیں جن کی اچھی طرح سے اعداد و شمار کے ذریعے نمائندگی کی جاتی ہے۔

اعداد و شمار کو تلاش کرنے کی بہت سی مختلف تکنیکیں ہیں جنہیں آپ مخصوص تجزیات اور نتائج تلاش کرنے کے لیے استعمال کر سکتے ہیں، مثال کے طور پر، درجہ بندی کا تجزیہ، جھرمٹ کا تجزیہ اور رجعت کا تجزیہ ہے۔[4] آپ اپنے اعداد و شمار کے ساتھ کیا تلاش کر رہے ہیں یہ اس پر منحصر ہے کہ آپ کو کون سی تکنیک استعمال کرنی چاہیے۔تنظیم کے قوانین بنیادی طور پر تجزیات اور صارف کے رویے کی پیشین گوئی تلاش کرنے کے لیے استعمال ہوتے ہیں۔درجہ بندی کے تجزیے کے لیے، اس کا استعمال زیادہ تر سوال کرنے، فیصلے کرنے اور رویے کی پیشن گوئی کرنے کے لیے کیا جائے گا۔[5] جھرمٹ کا تجزیہ بنیادی طور پر اس وقت استعمال ہوتا ہے جب اعداد و شمار کے اندر ممکنہ تعلقات کے بارے میں کوئی مفروضہ نہیں بنایا جاتا ہے۔[5] رجعت کے تجزیہ کا استعمال اس وقت کیا جاتا ہے جب آپ متعدد آزاد متغیرات سے مسلسل انحصار کی قدر کا اندازہ لگانا چاہتے ہیں۔[5]

فوائد
تنظیم کے قواعد کو استعمال کرنے کے بہت سے فائدے ہیں جیسے تسلسل کو تلاش کرنا جو اعداد و شمار کے درمیان ارتباط اور ہم آہنگی کو سمجھنے میں مدد کرتا ہے۔ایک بہت اچھی حقیقی دنیا کی مثال جو تنظیم کے قواعد کو استعمال کرتی ہے وہ دوا ہوگی۔ادویات مریضوں کی تشخیص میں مدد کے لیے تنظیم کے قوانین کا استعمال کرتی ہیں۔مریضوں کی تشخیص کرتے وقت بہت سے متغیرات پر غور کرنا پڑتا ہے کیونکہ بہت سی بیماریاں ایک جیسی علامات کا اشتراک کرتی ہیں۔تنظیم کے قواعد کے استعمال کے ساتھ، ڈاکٹر ماضی کے معاملات سے علامات کے تعلقات کا موازنہ کرکے بیماری کے مشروط امکان کا تعین کرسکتے ہیں۔[6]

تنزلی
تاہم، تنظیم کے قوانین تنزلی کا باعث بنتے ہیں جیسے کہ کان کنی کے الگورتھم کے لیے مناسب قابل پیمائش عنصر اور حد کی ترتیبات تلاش کرنا۔لیکن دریافت شدہ قواعد کی ایک بڑی تعداد کا زوال بھی ہے۔وجہ یہ ہے کہ یہ اس بات کی ضمانت نہیں دیتا کہ قواعد متعلقہ پائے جائیں گے، لیکن یہ الگورتھم کی کم کارکردگی کا سبب بھی بن سکتا ہے۔بعض اوقات لاگو کردہ الگورتھم بہت زیادہ متغیرات اور قابل پیمائش عناصر پر مشتمل ہوں گے۔کسی ایسے شخص کے لیے جس کے پاس اعداد و شمار کو تلاش کا اچھا تصور نہیں ہے، اس کی وجہ سے انھیں اسے سمجھنے میں دشواری کا سامنا کرنا پڑ سکتا ہے۔[7]

دہلیز

 
متواتر اشیاء کے مجموعے کی جالی، جہاں باکس کا رنگ بتاتا ہے کہ کتنے لین دین میں اشیاء کا مجموعہ ہے۔ نوٹ کریں کہ جالی کی نچلی سطح زیادہ سے زیادہ ان کے والدین کی اشیاء کی کم از کم تعداد پر مشتمل ہو سکتی ہے;جیسے {ac} میں زیادہ سے زیادہ   اشیاء ہو سکتی ہیں۔اسے نیچے کی طرف بند ہونے والی خاصیت کہا جاتا ہے۔[2]

تنظیم کے قواعد استعمال کرتے وقت، آپ کو صرف تحفظ اور اعتماد کا استعمال کرنے کا زیادہ امکان ہے۔تاہم، اس کا مطلب ہے کہ آپ کو ایک ہی وقت میں صارف کی مخصوص کم از کم حمایت اور صارف کے مخصوص کم سے کم اعتماد کو پورا کرنا ہوگا۔عام طور پر، تنظیم کی حکمرانی کی نسل کو دو مختلف مراحل میں تقسیم کیا جاتا ہے جن کو لاگو کرنے کی ضرورت ہے:

  1. اعداد و شمار میں موجود تمام متواتر اشیاء کو تلاش کرنے کے لیے کم از کم تحفظ کی حد۔
  2. قواعد بنانے کے لیے پائے جانے والے متواتر اشیاء کی کم از کم اعتماد کی حد۔
جدول 1. تحفظ اور اعتماد کے لیے حد کی مثال.
اشیاء تحفظ اعتماد اشیاء تحفظ اعتماد
شے 1 30% 50% شے 3 45% 55%
شے 2 15% 25% شے 1 30% 50%
شے 3 45% 55% شے 4 35% 40%
شے 4 35% 40% شے 2 15% 25%

تحفظ کی حد 30% ہے اور اعتماد کی حد 50% ہے۔
بائیں طرف اصل میں غیر منظم اعداد و شمار ہیں اور دائیں طرف دہلیز کے ذریعہ اعداد و شمار کو ترتیب دیا گیا ہے۔ اس معاملے میں تیسری شے تحفظ اور اعتماد دونوں کے لیے حد سے بہتر ہے اسی لیے یہ سب سے پہلے ہے۔ پہلی شے دوسرے نمبر پر ہے کیونکہ اس کی حد کی قدریں جگہ پر ہیں۔ چوتھی شے نے تحفظ کی حد کو پورا کیا ہے لیکن اعتماد نہیں۔ دوسری شے نے تحفظ یا اعتماد کی حد کو پورا نہیں کیا ہے اور اسی وجہ سے یہ آخری ہے۔

اعداد و شمار میں تمام متواتر اشیاء کو تلاش کرنا کوئی آسان کام نہیں ہے کیونکہ اس میں تمام ممکنہ شے کے مجموعے سے تمام ممکنہ اشیاء کے امتزاج کو تلاش کرنے کے لیے تمام اعداد و شمار کو تلاش کرنا شامل ہے۔ ممکنہ آئٹم سیٹس کا سیٹ I پر ذیلی گروپ ہے اور اس کا سائز   ہے، یقیناً اس کا مطلب خالی مجموعے کو خارج کرنا ہے جسے درست شے کا مجموعہ نہیں سمجھا جاتا ہے۔ تاہم، ذیلی گروپ کا سائز آئٹم n کی تعداد میں تیزی سے بڑھے گا جو پاور سیٹ I کے اندر ہے۔ تحفظ کی نیچے کی طرف بند ہونے والی خاصیت کا استعمال کرکے ایک موثر تلاش ممکن ہے۔[2][8] (اسے مخالف خاصیت بھی کہا جاتا ہے [9]) یہ اس بات کی ضمانت دے گا کہ متواتر اشیاء کے مجموعے اور اس کے تمام ذیلی گروپ بھی بار بار ہوتے ہیں اور اس طرح متواتر اشیاء کے مجموعے کے ذیلی گروپ کے طور پر کوئی غیر معمولی شے کا مجموعہ نہیں ہوگا۔ اس خاصیت کا استحصال کرتے ہوئے، موثر الگورتھم (مثال کے طور پر، اپریوری[10] اور ایکلیٹ[11])) تمام متواتر اشیاء کے مجموعے تلاش کر سکتے ہیں۔

مفید تصورات

ترمیم
جدول 2.5 لین دین اور 5 اشیاء کے ساتھ اعداد و شمار کی مثال
لین دین کی ID دودھ روٹی مکھن بیئر ڈایپر انڈے پھل
1 1 1 0 0 0 0 1
2 0 0 1 0 0 1 1
3 0 0 0 1 1 0 0
4 1 1 1 0 0 1 1
5 0 1 0 0 0 0 0

تصورات کو واضح کرنے کے لیے، ہم بڑے بازاروں کے علاقہ سے ایک چھوٹی سی مثال استعمال کرتے ہیں۔ جدول 2 اشیاء پر مشتمل ایک چھوٹا اعداد و شمار دکھاتا ہے۔ جہاں، ہر اندراج میں، قدر 1 کا مطلب متعلقہ لین دین میں شے کی موجودگی ہے اور قدر 0 اس لین دین میں کسی شے کی عدم موجودگی کو ظاہر کرتی ہے۔
یہ اشیاء کا مجموعہ ہے
 .

بڑے بازاروں کے لیے ایک مثالی اصول   ہو سکتا ہے جس کا مطلب ہے کہ اگر مکھن اور روٹی خریدی جاتی ہے تو گاہک بھی دودھ خریدتے ہیں۔

تمام ممکنہ قواعد کے مجموعے سے دلچسپ قواعد کو منتخب کرنے کے لیے، اہمیت اور دلچسپی کے مختلف اقدامات پر پابندیاں استعمال کی جاتی ہیں۔ سب سے مشہور رکاوٹیں حمایت اور اعتماد کی کم از کم حد ہیں۔

  کو اشیاء کا مجموعہ،   ایک تنظیمی کردار اور T کو دیے گئے اعداد و شمار کے لین دین کا ایک مجموعہ ہونے دیں۔

نوٹ: یہ مثال بہت چھوٹی ہے۔ عملی زندگی میں، کسی اصول کو شماریاتی لحاظ سے اہم سمجھا جانے سے پہلے کئی سو لین دین کی حمایت کی ضرورت ہوتی ہے، [حوالہ درکار] اور اشیاء کے مجموعے میں اکثر ہزاروں یا لاکھوں لین دین ہوتے ہیں۔

تحفظ

ترمیم

تحفظ اس بات کا اشارہ ہے کہ اعداد و شمار میں شے کا مجموعہ کتنی بار ظاہر ہوتا ہے۔

ہماری مثال میں، لکھ کر حمایت کی وضاحت کرنا آسان ہو سکتا ہے۔

  [12] جہاں A اور B الگ الگ لین دین ہیں جو محفوظ شدہ لین دین کے کل مجموعے کے اندر کی گئی تھیں۔

جدول 2 کو بطور مثال استعمال کرتے ہوئے، اشیاء کے مجموعے   کو   کی حمایت حاصل ہے۔ چونکہ یہ تمام لین دین کے 20 فیصد میں ہوتا ہے (5 میں سے 1 لین دین)۔

سابقہ اور نتائج کا استعمال کرتے وقت، یہ اعداد و شمار کے تجزیہ کار کو پورے اعداد و شمار کے مجموعے کے مقابلے میں ایک ساتھ خریدی جانے والی متعدد اشیاء کی حمایت کا تعین کرنے کی اجازت دیتا ہے۔ مثال کے طور پر، جدول 2 سے پتہ چلتا ہے کہ اگر دودھ خریدا جاتا ہے، تو روٹی خریدی جاتی ہے اس کی حمایت 0.4 یا 40 فیصد ہوتی ہے۔ اس کی وجہ یہ ہے کہ لین دین میں سے 5 میں سے 2 میں دودھ کے ساتھ ساتھ روٹی بھی خریدی جاتی ہے۔ اس مثال کی طرح جیسے چھوٹے اعداد و شمار کے مجموعہ میں، جب کچھ نمونے ہوتے ہیں تو مضبوط ارتباط کو دیکھنا مشکل ہوتا ہے، لیکن جب اعداد و شمار کا مجموعہ بڑا ہوتا ہے، تو بڑے بازاروں کی مثال میں دو یا دو سے زیادہ مصنوعات کے درمیان ارتباط تلاش کرنے کے لیے تحفظ کا استعمال کیا جا سکتا ہے۔

کم از کم تحفظ کی حدیں اس بات کا تعین کرنے کے لیے مفید ہیں کہ کون سے اشیاء کے مجموعے کو ترجیح دی جاتی ہے یا اس کو دلچسپ سمجھا جاتا ہے۔

اگر ہم جدول 3 میں تحفظ کی حد کو ≥0.4 پر سیٹ کرتے ہیں، تو   کو ہٹا دیا جائے گا کیونکہ یہ 0.4 کی کم از کم حد کو پورا نہیں کرتا ہے۔ کم از کم حد کا استعمال نمونوں کو ہٹانے کے لیے کیا جاتا ہے جہاں اعداد و شمار کے مجموعہ میں میں نمونے کو اہم یا دلچسپ سمجھنے کے لیے کافی مضبوط حمایت یا اعتماد نہیں ہے۔

دلچسپ نمونے تلاش کرنے کا ایک اور طریقہ (تحفظ)ضرب(اعتماد) کی قدر تلاش کرنا ہے؛ یہ اعداد و شمار کے تجزیہ کار کو ان نمونوں کو دیکھنے کی اجازت دیتا ہے جہاں اشیاء کے مجموعہ میں نمایاں ہونے کے لیے معاونت اور اعتماد کافی زیادہ ہے اور اشیاء کے درمیان تعلق کے بارے میں مزید معلومات حاصل کرنے کے لیے نمونے کو قریب سے دیکھنے کا اشارہ کرتا ہے۔

تحفظ پورے اعداد و شمار کے مجموعے کے مقابلے میں مصنوعات کے درمیان تعلق تلاش کرنے کے لیے فائدہ مند ہو سکتا ہے، جب کہ اعتماد ایک یا زیادہ اشیاء اور دوسری شے کے درمیان تعلق کو دیکھتا ہے۔ ذیل میں ایک جدول ہے جو اعتماد کی اقدار کو حاصل کرنے کے لیے جدول 4 سے معلومات کا استعمال کرتے ہوئے تحفظ اور (تحفظ)ضرب(اعتماد) کے درمیان موازنہ اور تضاد کو ظاہر کرتا ہے۔

جدول 3. تحفظ اور (تحفظ)ضرب(اعتماد) کی مثال
اگر سابقہ تو نتیجہ تحفظ (تحفظ)ضرب(اعتماد)
اگر دودھ خریدیں تو روٹی خریدیں 2/5= 0.4 0.4X1.0= 0.4
اگر دودھ خریدیں تو انڈے خریدیں 1/5= 0.2 0.2X0.5= 0.1
اگر روٹی خریدیں تو پھل خریدیں 2/5= 0.4 0.4X0.66= 0.264
پھل خریدیں تو انڈے خریدیں 2/5= 0.4 0.4X0.66= 0.264
دودھ اور روٹی خریدیں تو پھل خریدیں 2/5= 0.4 0.4X1.0= 0.4

T کے حوالے سے X کی حمایت کو اعداد و شمار کے مجموعے میں لین دین کے تناسب کے طور پر بیان کیا گیا ہے جس میں اشیاء کا مجموعہ X ہوتا ہے۔   کے ذریعے لین دین کی نشان دہی کرنا جہاں   لین دین کا منفرد شناخت کنندہ ہے اور   اس کا اشیاء کا مجموعہ ہے، تحفظ کو اس طرح لکھا جا سکتا ہے:

 

یہ اشارے زیادہ پیچیدہ اعداد و شمار کے مجموعے کی وضاحت کرتے وقت استعمال کیے جا سکتے ہیں جہاں اشیاء اور ان کے مجموعے ہمارے بڑے بازاروں کی مثال کی طرح آسان نہیں ہو سکتے۔ اس کی دوسری مثالیں جن میں جینیاتی تغیرات کے گروہوں کو تلاش کرنا ہے جو بیماری کا سبب بننے کے لیے اجتماعی طور پر کام کرتے ہیں، ان سبسکرائبرز کی تعداد کی چھان بین کرتے ہیں جو ترقی پزیر پیشکشوں کا جواب دیتے ہیں اور یہ دریافت کرتے ہیں کہ دوائیوں کی دکان میں کون سی مصنوعات کبھی ایک ساتھ نہیں خریدی جاتی ہیں۔[12]

اعتماد

ترمیم

اعتماد X کو مطمئن کرنے والے تمام لین دین کا فیصد ہے جو Y کو بھی مطمئن کرتا ہے۔[13]

T کے حوالے سے، تنظیم کے اصول کی اعتماد کی قیمت، جسے اکثر   کے طور پر ظاہر کیا جاتا ہے، X اور Y دونوں پر مشتمل لین دین کا تناسب ہے جس میں موجود X قدروں کی کل رقم ہے، جہاں X سابقہ ہے اور Y نتیجہ ہے۔

اعتماد کو مشروط امکان   کے تخمینے کے طور پر بھی سمجھا جا سکتا ہے، لین دین میں اصول کے دائیں ہاتھ کی طرف (RHS) تلاش کرنے کا امکان اس شرط کے تحت کہ یہ لین دین بھی دائیں ہاتھ کی طرف (LHS) پر مشتمل ہو۔[14][15]

اسے عام طور پر اس طرح دکھایا جاتا ہے:

 

یہ مساوات واضح کرتی ہے کہ اعتماد کا حساب صرف X پر مشتمل لین دین کے تناسب میں اعداد و شمار کے مجموعے کے اندر لین دین X اور Y کی ہم آہنگی کا حساب لگا کر کیا جا سکتا ہے۔ اس کا مطلب ہے کہ X اور Y دونوں میں لین دین کی تعداد کو صرف X میں تقسیم کیا جاتا ہے۔

مثال کے طور پر، جدول 2 اصول   کو دکھاتا ہے جس میں اعداد و شمار کے مجموعے میں   کا اعتماد ہے، جو اس بات کی نشان دہی کرتا ہے کہ جب بھی کوئی صارف مکھن اور روٹی خریدتا ہے، وہ دودھ بھی خریدتا ہے۔ یہ خاص مثال یہ ظاہر کرتی ہے کہ مکھن اور روٹی دونوں پر مشتمل لین دین کے لیے 100 فیصد وقت درست ہے۔ قاعدہ   ، تاہم،   کا اعتماد رکھتا ہے۔ اس سے پتہ چلتا ہے کہ پھل لائے جانے میں 67 فیصد انڈے خریدے جاتے ہیں۔ اس مخصوص اعدادو شمار کے مجموعے کے اندر، پھل کل 3 بار خریدا جاتا ہے، ان میں سے دو بار انڈے کی خریداری پر مشتمل ہوتا ہے۔

بڑے اعداد و شمار کے مجموعے کے لیے، اعتماد کے لیے ایک کم از کم حد یا ایک فیصد منقطع، شے کے تعلقات کا تعین کرنے کے لیے مفید ہو سکتا ہے۔ جدول 2 کے کچھ اعداد و شمار پر اس طریقہ کار کو لاگو کرتے وقت، وہ معلومات ہٹا دی جاتی ہیں جو ضروریات کو پورا نہیں کرتی ہیں۔ جدول 4 تنظیم کے اصولوں کی مثالیں دکھاتا ہے جہاں اعتماد کے لیے کم از کم حد 0.5 (50 فیصد) ہے۔ کوئی بھی اعداد و شمار جس میں کم از کم 0.5 (50 فیصد) کا اعتماد نہیں ہے اسے چھوڑ دیا جاتا ہے۔ حدیں پیدا کرنا اشیاء کے درمیان تعلق کو مزید مضبوط بنانے کی اجازت دیتے ہیں کیونکہ اعداد و شمار کی مزید تحقیق کی جاتی ہے ان پر زور دے کر جو سب سے زیادہ ساتھ ہوتے ہیں۔ جدول (تحفظ) ضرب (اعتماد)، کالم کو لاگو کرنے کے لیے جدول 3 سے اعتماد کی معلومات کا استعمال کرتا ہے، جہاں صرف ایک تصور کی بجائے، اعتماد اور تعاون دونوں کے ذریعے اشیاء کے درمیان تعلق کو نمایاں کیا جاتا ہے۔ (تحفظ) ضرب (اعتماد) کے ذریعہ قواعد کی درجہ بندی کسی خاص اصول کے اعتماد کو اس کی حمایت سے ضرب دیتی ہے اور اکثر اشیاء کے درمیان تعلقات کو مزید گہرائی سے سمجھنے کے لیے لاگو کیا جاتا ہے۔

جدول 4. اعتماد اور (تحفظ) ضرب (اعتماد) کی مثال
اگر سابقہ تو نتیجہ اعتماد (تحفظ) ضرب (اعتماد)
دودھ خریدیں تو روٹی خریدیں 2/2= 1.0 0.4X1.0= 0.4
اگر دودھ خریدیں تو انڈے خریدیں 1/2= 0.5 0.2X0.5= 0.1
روٹی خریدیں تو پھل خریدیں 2/3= 0.66 0.4X0.66= 0.264
پھل خریدیں تو انڈے خریدیں 2/3= 0.66 0.4X0.66= 0.264
دودھ اور روٹی خریدیں تو پھل خریدیں 2/2= 1.0 0.4X1.0= 0.4

مجموعی طور پر، تنظیم کے اصول کی کان کنی میں اعتماد کا استعمال اعداد و شمار تعلقات کے بارے میں بیداری لانے کا بہترین طریقہ ہے۔ اس کا سب سے بڑا فائدہ مجموعہ کے اندر مخصوص اشیاء کے ایک دوسرے سے تعلق کو اجاگر کرنا ہے، کیونکہ یہ اشیاء کے ہم آہنگی کا موازنہ مخصوص قاعدے میں سابقہ کی کل موجودگی سے کرتا ہے۔ تاہم، تنظیم کے اصول کی کان کنی میں ہر تصور کے لیے اعتماد بہترین طریقہ نہیں ہے۔ اس کے استعمال کا نقصان یہ ہے کہ یہ انجمنوں پر متعدد فرق کا نقطہ نظر پیش نہیں کرتا ہے۔ تحفظ کے برعکس، مثال کے طور پر، اعتماد پورے اعداد و شمار کے مجموعے کے مقابلے میں بعض اشیاء کے درمیان تعلقات کا تناظر فراہم نہیں کرتا ہے، لہذا جب کہ دودھ اور روٹی، مثال کے طور پر، اعتماد کے لیے 100 فیصد وقت ہو سکتا ہے، اس میں صرف 0.4 (40%) کی حمایت ہوتی ہے۔ یہی وجہ ہے کہ دوسرے نقطہ نظر کو دیکھنا ضروری ہے، جیسے کہ (تحفظ) ضرب (اعتماد)، صرف ایک تصور پر انحصار کرنے کی بجائے مسلسل تعلقات کی وضاحت کریں۔

اٹھانا

ترمیم

ایک اصول کو اٹھانے کی تعریف اس طرح کی گئی ہے:

 

یا مشاہدہ حمایت کا تناسب جس کی توقع ہے اگر X اور Y آزاد تھے۔

مثال کے طور پر، اصول   میں   کی ایک لفٹ ہے۔

اگر قاعدہ میں 1 کا اضافہ ہوتا ہے، اس کا مطلب یہ ہوگا کہ سابقہ اور نتیجہ کے وقوع پزیر ہونے کا امکان ایک دوسرے سے آزاد ہے۔ جب دو واقعات ایک دوسرے سے آزاد ہوں تو ان دو واقعات پر کوئی اصول نہیں بنایا جا سکتا۔

اگر لفٹ > 1 ہے، تو اس سے ہمیں معلوم ہوتا ہے کہ وہ دونوں واقعات ایک دوسرے پر کس حد تک منحصر ہیں اور ان اصولوں کو مستقبل کے اعداد و شمار کے مجموعے میں نتیجہ کی پیشین گوئی کرنے کے لیے ممکنہ طور پر مفید بناتا ہے۔

اگر لفٹ < 1 ہے، تو اس سے ہمیں معلوم ہوتا ہے کہ اشیاء ایک دوسرے کے متبادل ہیں۔ اس کا مطلب ہے کہ ایک شے کی موجودگی دوسری شے کی موجودگی پر منفی اور اس کے برعکس اثر ڈالتی ہے۔

اٹھانے کی قدر یہ ہے کہ یہ اصول کی حمایت اور مجموعی اعداد و شمار دونوں پر غور کرتی ہے۔[14]

ایک اصول کی سزا X کے طور پر بیان کی گئی ہے۔ .[16]

مثال کے طور پر، قاعدہ   ، کو متوقع تعدد کے تناسب سے تعبیر کیا جا سکتا ہے جو X بغیر Y کے ہوتا ہے (یعنی وہ تعدد جس کا اصول غلط پیش گوئی کرتا ہے) اگر X اور Y کو غلط پیشین گوئیوں کی مشاہدہ شدہ تعدد سے تقسیم کیا گیا تھا۔ اس مثال میں، 1.2 کی سزا کی قیمت یہ ظاہر کرتی ہے۔ کہ اگر X اور Y کے درمیان تعلق خالصتاً بے ترتیب موقع تھا تو قاعدہ   20% زیادہ (اکثر 1.2 گنا) غلط ہوگا۔

دلچسپی کے متبادل اقدامات

ترمیم

اعتماد کے علاوہ، قواعد کے لیے دلچسپی کے دیگر اقدامات بھی تجویز کیے گئے ہیں۔ کچھ مقبول اقدامات یہ ہیں:

  • مکمل اعتماد[17]
  • اجتماعی طاقت[18]
  • بیعانہ[19]

ٹین ایٹ ال کے ذریعہ کئی اور اقدامات پیش کیے گئے اور موازنہ کیے گئے ہیں۔[20] اور ہیشلر کی طرف سے.[21] ایسی تکنیکوں کی تلاش جو صارف کو معلوم ہو (اور ان ماڈلز کو دلچسپی کے اقدامات کے طور پر استعمال کرتے ہوئے) فی الحال "موضوعی دلچسپی" کے نام سے ایک فعال تحقیقی رجحان ہے۔

تاریخ

ترمیم

تنظیم کے اصولوں کا تصور خاص طور پر اگروال وغیرہ [2] کے 1993 کے مضمون کی وجہ سے مقبول ہوا، جس نے اپریل 2021 تک گوگل اسکالر کے مطابق 23,790 سے زیادہ حوالہ جات حاصل کیے ہیں اور اس طرح اعداد و شمار کی تجزیہ کاری میں سب سے زیادہ حوالہ دیا جانے والے کاغذات میں سے ایک ہے۔ تاہم، جسے اب "تنظیم کے اصولوں" کہا جاتا ہے، گوہا پر 1966 کے مقالے میں پہلے ہی متعارف کرایا گیا ہے، [22] یہ اعداد و شمار کی تجزیہ کاری کا ایک عمومی طریقہ ہے جسے پیٹر ہاجیک ایٹ ال نے تیار کیا ہے۔[23]

تنظیم کے تمام اصولوں کو تلاش کرنے کے لیے کم از کم تعاون اور اعتماد کا ابتدائی (تقریباً 1989) استعمال ماڈلنگ فریم ورک پر مبنی ہے، جس نے تمام قواعد کو   and   کے ساتھ صارف کی وضاحت کردہ رکاوٹوں سے زیادہ پایا۔[24]

شماریاتی اعتبار سے آواز کی انجمنیں

ترمیم

انجمنوں کو دریافت کرنے کے لیے معیاری نقطہ نظر کی ایک حد یہ ہے کہ بڑی تعداد میں ممکنہ انجمنوں کو تلاش کرنے سے ان اشیاء کے مجموعوں کو تلاش کرنا جو وابستہ دکھائی دیتے ہیں، بہت سی جعلی انجمنوں کو تلاش کرنے کا ایک بڑا خطرہ ہے۔ یہ ان اشیاء کے مجموعے ہیں جو اعداد و شمار میں غیر متوقع تعدد کے ساتھ ہوتے ہیں، لیکن ایسا صرف اتفاق سے ہوتا ہے۔ مثال کے طور پر، فرض کریں کہ ہم 10,000 اشیاء کے مجموعے پر غور کر رہے ہیں اور ایسے قواعد تلاش کر رہے ہیں جن میں دو اشیاء بائیں طرف اور 1 شے دائیں طرف ہوں۔ اس طرح کے تقریباً 1,000,000,000,000 قوانین ہیں۔ اگر ہم 0.05 کی اہمیت کی سطح کے ساتھ آزادی کے لیے شماریاتی امتحان کا اطلاق کرتے ہیں تو اس کا مطلب ہے کہ اگر کوئی تنظیم نہیں ہے تو کسی اصول کو قبول کرنے کا صرف 5% امکان ہے۔ اگر ہم فرض کرتے ہیں کہ کوئی انجمنیں نہیں ہیں، تو پھر بھی ہمیں 50,000,000,000 قواعد تلاش کرنے کی توقع کرنی چاہیے۔ اعداد و شمار کے لحاظ سے درست تنظیم کی دریافت اس خطرے کو کنٹرول کرتی ہے، [25][26] زیادہ تر صورتوں میں کسی بھی جعلی تنظیم کو صارف کی مخصوص اہمیت کی سطح تک تلاش کرنے کے خطرے کو کم کرتی ہے۔

الخوارزم

ترمیم

تنظیم کے قوانین بنانے کے لیے بہت سے الگورتھم تجویز کیے گئے ہیں۔

کچھ معروف الگورتھم اپریوری، ایکلیٹ اور FP- نمو ہیں، لیکن وہ صرف آدھا کام کرتے ہیں، چونکہ وہ بار بار اشیاء کی کان کنی کے الگورتھم ہیں۔ اعداد و شمار کے مجموعے میں پائے جانے والی متواتر اشیاء سے قواعد تیار کرنے کے بعد ایک اور قدم بڑھانے کی ضرورت ہے۔

اپریوری 1994 میں آر اگروال اور آر سری کانت نے اشیاء کے مجموعے کی کان کنی اور تنظیم کے کردار سیکھنے کے لیے دی ہے۔ یہ اعداد و شمار کے مجموعے میں متواتر انفرادی اشیاء کی شناخت کرکے اور انھیں بڑے سے بڑے اشیاء کے مجموعے تک بڑھاتا ہے جب تک کہ وہ اشیاء کے مجموعے کافی کثرت سے ظاہر ہوں۔ الگورتھم کا نام اپریوری ہے کیونکہ یہ بار بار اشیاء کے مجموعے کی خصوصیات کے بارے میں پہلے سے علم کا استعمال کرتا ہے۔

 
اپریوری الگورتھم کا جائزہ

مجموعی جائزہ: اپریوری ایک "نیچے سے اوپر" نقطہ نظر کا استعمال کرتا ہے، جہاں اکثر ذیلی مجموعوں کو ایک وقت میں ایک شے کو بڑھایا جاتا ہے (ایک قدم جسے امیدواروں کی نسل کہا جاتا ہے) اور امیدواروں کے گروہوں کو اعداد و شمار کے خلاف جانچا جاتا ہے۔ الگورتھم ختم ہو جاتا ہے جب مزید کوئی کامیاب توسیع نہیں ملتی ہے۔ اپریوری ، امیدوار اشیاء کے مجموعوں کو مؤثر طریقے سے شمار کرنے کے لیے چوڑائی کی پہلی تلاش اور ہیش درخت کی ساخت (Hash tree structure) کا استعمال کرتا ہے۔ یہ لمبائی کے شے کے مجموعے سے لمبائی کے امیدوار شے کے مجموعے تیار کرتا ہے۔ پھر یہ ان امیدواروں کو کاٹتا ہے جن کا ذیلی نمونہ کبھی کبھار ہوتا ہے۔ نیچے کی طرف بند ہونے والے لیما کے مطابق، امیدوار سیٹ میں تمام متواتر لمبائی والے شے کے مجموعے ہوتے ہیں۔ اس کے بعد، یہ امیدواروں کے درمیان متواتر شے کے مجموعے کا تعین کرنے کے لیے لین دین کے اعداد و شمار کی شناخت کرتا ہے۔

مثال: فرض کریں کہ ہر قطار کینسر کا نمونہ ہے جس میں تغیرات کا ایک خاص امتزاج ہے جس پر حرف تہجی میں کسی کردار کا لیبل لگا ہوا ہے۔ مثال کے طور پر ایک قطار میں {a, c} ہو سکتا ہے جس کا مطلب ہے کہ یہ تغیرات 'a' اور تغیرات 'c' سے متاثر ہوتا ہے۔

ان پٹ مجموعہ
{a, b} {c, d} {a, d} {a, e} {b, d} {a, b, d} {a, c, d} {a, b, c, d}

اب ہم ہر کردار کے واقعات کی تعداد کو گن کر متواتر اشیاء کے مجموعہ تیار کریں گے۔ اسے تحفظ کے اقدار کو تلاش کرنے کے نام سے بھی جانا جاتا ہے۔ پھر ہم کم از کم تحفظ کی حد کا انتخاب کرکے مجموعے کی شے کی کٹائی کریں گے۔ الگورتھم کے اس پاس کے لیے ہم 3 کا انتخاب کریں گے۔

تحفظ کے اقدار
a b c d
6 4 3 6

چونکہ تمام تحفظ کے اقدار تین یا اس سے اوپر ہیں اس لیے کوئی کٹائی نہیں ہے۔ متواتر شے کے مجموعے {a}، {b}، {c} اور {d} ہیں۔ اس کے بعد ہم ان پٹ کے مجموعہ میں تغیرات کے جوڑے گن کر اس عمل کو دہرائیں گے۔

تحفظ کے اقدار
{a, b} {a, c} {a, d} {b, c} {b, d} {c, d}
3 2 4 1 3 4

اب ہم اپنی کم از کم تحفظ کی قدر 4 بنائیں گے لہذا کٹائی کے بعد صرف {a, d} اور {c, d} باقی رہیں گے۔ اب ہم تینوں کے مجموعے بنانے کے لیے متواتر شے کے مجموعے کا استعمال کریں گے۔ اس کے بعد ہم ان پٹ مجموعہ میں تغیرات کے تین حصے کے واقعات کو گن کر اس عمل کو دہرائیں گے۔

Support Values
{a, c, d}
2

چونکہ ہمارے پاس صرف ایک شے ہے چاروں کے امتزاج کا اگلا مجموعہ خالی ہے لہذا الگورتھم رک جائے گا۔

فوائد اور حدود:
اپریوری کی کچھ حدود ہیں۔ امیدواروں کی نسل کے نتیجے میں بڑے امیدوار منتخب ہو سکتے ہیں۔ مثال کے طور پر 10^4 بار آنے والا 1-شے کا مجموعہ 10^7 امیدوار 2-شے کا مجموعہ بنائے گا۔ الگورتھم کو اعداد و شمار کو کثرت سے اسکین کرنے کی بھی ضرورت ہوتی ہے، مخصوص n+1 اسکین ہونے کے لیے جہاں n سب سے طویل تسلسل کی لمبائی ہے۔ اپریوری, ایکلیٹ الگورتھم سے سست ہے۔ تاہم، اپریوری, ایکلیٹ کے مقابلے میں اچھی کارکردگی کا مظاہرہ کرتا ہے جب اعداد و شمار کا مجموعہ بڑا ہوتا ہے۔ اس کی وجہ یہ ہے کہ ایکلیٹ الگورتھم میں اگر اعداد و شمار کا مجموعہ بہت بڑا ہے تو فہرستیں یاداشت کے لیے بہت بڑی ہو جاتی ہیں۔ جاری تسلسل والی ترقی، اپریوری اور ایکلیٹ سے بہتر کارکردگی کا مظاہرہ کرتی ہے۔ یہ جاری تسلسل والی ترقی کے الگورتھم کی وجہ سے ہے جس میں امیدواروں کی تیاری یا امتحان نہیں ہے، ایک دوسرے سے قریب اعداد و شمار کے ڈھانچے کا استعمال کرتے ہوئے اور صرف ایک اعداد و شمار کا مجموعہ اسکین ہونا ہے۔[27]

ایکلیٹ(ایکلیٹ، مساوات کلاس کی تبدیلی کا مخفف ہے۔) ایک گہرائی سے پہلی تلاش کا الگورتھم ہے جو تقطیع پر مبنی ہے۔ یہ مقامیت کو بڑھانے والی خصوصیات کے ساتھ ترتیب وار اور متوازی دونوں طرح کے عمل کے لیے موزوں ہے۔[28][29]

جاری تسلسل کی ترقی کا الگورتھم

ترمیم

ایف پی کا مطلب ہے جاری تسلسل۔[30]

پہلی باری میں، الگورتھم لین دین کے اعداد و شمار میں اشیاء (انتساب-قدر کے جوڑے) کی موجودگی کو شمار کرتا ہے اور ان گنتی کو 'ہیڈر ٹیبل' میں محفوظ کرتا ہے۔ دوسری باری میں، یہ لین دین کو سابقہ ​​درخت میں ڈال کر جاری تسلس والے درخت کا ڈھانچہ بناتا ہے۔

ہر لین دین میں اشیاء کو اعداد و شمار کے مجموعے میں داخل کرنے سے پہلے ان کے تعدد کے نزولی ترتیب کے مطابق ترتیب دینا ہوتا ہے تاکہ درخت پر تیزی سے کارروائی کی جا سکے۔ ہر لین دین میں وہ اشیاء جو کم از کم تحفظ کی ضرورت کو پورا نہیں کرتے ہیں انھیں ضائع کر دیا جاتا ہے۔ اگر بہت سے لین دین اکثر اشیاء کا اشتراک کرتے ہیں، تو جاری تسلسل والے درخت کی جڑ کے قریب بہتر کثافت فراہم کرتا ہے۔

اہم اعداد و شمار کے مجموعے کے اس کثافت زدہ قسم کی بار بار ہونے والی عملیت، امیدوار اشیاء تیار کرنے اور ان کو پورے اعداد و شمار کے خلاف جانچنے کی بجائے براہ راست متواتر اشیاء کے مجموعے کو بڑھاتی ہے (جیسا کہ اپریوری الگورتھم میں ہے)۔ ترقی ہیڈر ٹیبل کے نچلے حصے سے شروع ہوتی ہے یعنی اس شے میں ختم ہونے والے تمام ترتیب شدہ لین دین کو تلاش کرکے سب سے چھوٹی مدد کے ساتھ۔ اس آئٹم کو   کہیں۔

ایک نیا مشروط درخت بنایا گیا ہے جو اصل میں جاری تسلسل والا درخت ہے جو   پر پیش کیا گیا ہے۔ پیش کردہ درخت میں تمام گرہ کے تحفظ کو دوبارہ شمار کیا جاتا ہے اور ہر گرہ کو اس کے بچوں کی گنتی کا مجموعہ ملتا ہے۔ گرہ (اور اس وجہ سے ذیلی درخت) جو کم سے کم حمایت کو پورا نہیں کرتے ہیں کو کاٹ دیا جاتا ہے۔ تکراری ترقی اس وقت ختم ہو جاتی ہے جب   پر مشروط کوئی انفرادی شے کم از کم تحفظ کی حد کو پورا نہیں کرتا ہے۔ جڑ سے   تک کے نتیجے میں آنے والے راستے اکثر اشیاء کے مجموعے ہوں گے۔ اس قدم کے بعد، اصل جاری تسلسل والے درخت کے اگلے کم سے کم تعاون یافتہ اوپر اولی شے کے ساتھ عملیت جاری ہے۔

ایک بار تکراری عمل مکمل ہونے کے بعد، تمام متواتر شے کے مجموعے مل جائیں گے اور تنظیم کے اصول کی تخلیق شروع ہو جائے گی۔[31]

دوسرے

ترمیم

اے ایس ایس او سی (ASSOC)

ترمیم

ASSOC طریقہ کار [32] ایک گوہا طریقہ ہے جو تیز بٹ سرنی عمل کا استعمال کرتے ہوئے عام تنظیم کے اصولوں کو استعمال کرتا ہے۔ تنظیم کے قواعد جو اس طریقے سے بنائے گئے ہیں ان سے زیادہ عام ہیں جو اپریوری کے ذریعہ بنائے گئے ہیں، مثال کے طور پر "اشیاء" کو تعلق اور اختلاف دونوں کے ساتھ جوڑا جا سکتا ہے اور قاعدہ کے سابقہ اور نتیجے کے درمیان تعلق کم از کم تعاون اور اعتماد قائم کرنے تک محدود نہیں ہے جیسا کہ پہلے میں ہے:تعاون یافتہ دلچسپی کے اقدامات کا ایک صوابدیدی مجموعہ استعمال کیا جا سکتا ہے۔

اوپی یو ایس (OPUS) کی تلاش

ترمیم

اوپی یو ایس (OPUS)اصول کی دریافت کے لیے ایک موثر الگورتھم ہے جو زیادہ تر متبادلات کے برعکس یا تو یک رنگ یا مخالف یک رنگ رکاوٹوں کی ضرورت نہیں ہے جیسے کہ کم از کم تحفظ۔[33] ابتدائی طور پر ایک مقررہ نتیجے کے لیے قواعد تلاش کرنے کے لیے [33][34] استعمال کیا جاتا ہے، اس کے نتیجے میں کسی بھی شے کے ساتھ قواعد تلاش کرنے کے لیے اسے بڑھا دیا گیا ہے۔[35] اوپی یو ایس (OPUS) تلاش مقبول عظیم کام تنظیم کی دریافت کے نظام میں بنیادی ٹیکنالوجی ہے۔

تنظیم کے اصول کی کان کنی کے بارے میں ایک مشہور کہانی "بیئر اور ڈائپر" کی کہانی ہے۔ بڑے بازاروں کے خریداروں کے رویے کے ایک جائز سروے سے پتہ چلا ہے کہ ڈائپر خریدنے والے صارفین (غالباً نوجوان مرد) بھی بیئر خریدنے کا رجحان رکھتے ہیں۔ یہ قصہ ایک مثال کے طور پر مشہور ہوا کہ روزمرہ کے اعداد و شمار سے غیر متوقع تنظیم کے اصول کیسے مل سکتے ہیں۔ کہانی میں کتنی سچائی ہے اس بارے میں مختلف آراء ہیں۔[36] ڈینیل پاورز کہتے ہیں:[36]

1992 میں، ٹیراڈیٹا کے ایک خوردہ مشاورتی گروہ کے مینیجر، تھامس بلیشوک اور ان کے عملے نے تقریباً 25 اوسکو ادویات کی دکانیں سے 1.2 ملین بازار کی ٹوکریوں کا تجزیہ تیار کیا۔ وابستگیوں کی شناخت کے لیے اعداد و شمار کے مجموعے کے سوالات تیار کیے گئے تھے۔ تجزیہ سے "یہ پتہ چلا کہ شام 5:00 سے 7:00 بجے کے درمیان صارفین نے بیئر اور ڈائپر خریدے"۔ اوسکو مینیجرز نے شیلف پر مصنوعات کو ایک دوسرے کے قریب منتقل کر کے بیئر اور ڈائپر کے تعلقات کا استحصال نہیں کیا۔

تنظیم کے اصول کان کنی کی دیگر اقسام

ترمیم

باہمی تعلقات کے تنظٰیم کے قواعد'': باہمی تعلقات کے تنظٰیم کے قواعد (MRAR) تنظیم کے قوانین ہیں جہاں ہر شے کے کئی تعلقات ہو سکتے ہیں۔ یہ تعلقات اداروں کے درمیان بالواسطہ تعلقات کی نشان دہی کرتے ہیں۔ مندرجہ ذیل باہمی تعلقات کے تنظٰیم کے قواعد (MRAR) پر غور کریں جہاں پہلی شے تین رشتوں پر مشتمل ہے، رہنا، قریبی اور مرطوب: "وہ لوگ جو کسی ایسی جگہ پر رہتے ہیں جو کسی شہر کے قریب ہے جہاں مرطوب آب و ہوا کی قسم ہے اور ان کی عمر 20 سال سے کم ہے -> ان کی صحت کی حالت اچھی ہے"۔ تنظیم کے اس طرح کے قواعد اعداد و شمار کا انتظام یا معنوی ویب ڈیٹا سے نکالے جا سکتے ہیں۔[37]

معاکسہ (بصارت) کو سیکھنا تنظیمی طور پر سیکھنے کی ایک شکل ہے۔ معاکسہ (بصارت) کے مجموعے کو سیکھنے والے ایسے اصول استعمال کرتے ہیں جو سب مجموعوں میں ان کی تقسیم میں معنی خیز طور پر مختلف ہوتے ہیں۔[38][39]

وزنی کلاس سیکھنا ، تنظیمی اصول سیکھنے کی ایک اور شکل ہے جس میں اعداد و شمار کی تجزیہ کاری کے نتائج کے صارفین کے لیے تشویش کے کسی خاص مسئلے پر توجہ مرکوز کرنے کے لیے کلاسوں کو وزن تفویض کیا جا سکتا ہے۔

اعلیٰ ترتیب کا تسلسل کی دریافت اعلیٰ ترتیب کا تسلسل یا تنظیم کی تقریب کو پکڑنے میں سہولت فراہم کرتی ہے جو حقیقی دنیا کے پیچیدہ اعداد و شمار سے جڑی ہوں۔[40]

K- بہترین تسلسل کی دریافت تنظیم کا کردار سیکھنے کے لیے معیاری نقطہ نظر کا متبادل فراہم کرتا ہے جس کے لیے ضروری ہے کہ ہر تسلسل اعداد و شمار میں کثرت سے ظاہر ہو۔

تقریباً متواتر اشیاء کے مجموعے کی تجزیہ کاری تسلسل کے ساتھ شے کے مجموعے کی تجزیہ کاری کی ایک آرام دہ قسم ہے جو کچھ قطاروں میں کچھ اشیاء کو 0 کرنے کی اجازت دیتا ہے۔[41]

انجمن کے عمومی قوانین درجہ بندی کی درجہ بندی (تصور کا درجہ بندی)

مقداری تنظٰم کے قواعد واضح اور مقداری اعداد و شمار

تاریخ کی حد کے تنظٰیم کے قواعد جیسے عمر کو 5 سال کے اضافے میں تقسیم کریں۔

ترتیب وار تسلسل کی تجزیہ کاری ان بعد کے سلسلے کو دریافت کرتا ہے جو سلسلے اعداد و شمار میں minsup کے سلسلے سے زیادہ عام ہیں، [توضیح درکار] جہاں صارف کے ذریعہ minsup کے مجموعہ کو ترتیب کیا جاتا ہے۔ ایک ترتیب لین دین کی ترتیب شدہ فہرست ہے۔[42]

ذیلی جگہ کا گروہ، ایک مخصوص قسم کا اعلی جہتی اعداد و شمار کا گروہ، بہت سی مختلف حالتوں میں ہے جو مخصوص گروہ کی شکل کے لیے نیچے کی طرف بند ہونے والی خاصیت پر مبنی ہے۔[43]

وارمر کو اے سی ای (ACE) اعداد و شمار کی تجزیہ کاری کے سوٹ کے حصے کے طور پر بھیجا گیا ہے۔ یہ پہلی ترتیب کے متعلقہ اصولوں کے لیے تنظیمی اصول سیکھنے کی اجازت دیتا ہے۔[44]


حوالہ جات

ترمیم
  1. Piatetsky-Shapiro, Gregory (1991), Discovery, analysis, and presentation of strong rules, in Piatetsky-Shapiro, Gregory; and Frawley, William J.; eds., Knowledge Discovery in Databases, AAAI/MIT Press, Cambridge, MA.
  2. ^ ا ب پ ت ٹ ث Agrawal، R.؛ Imieliński، T.؛ Swami، A. (1993)۔ "Mining association rules between sets of items in large databases"۔ Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93۔ ص 207۔ CiteSeerX:10.1.1.40.6984۔ DOI:10.1145/170035.170072۔ ISBN:978-0897915922۔ S2CID:490415
  3. Garcia، Enrique (2007)۔ "Drawbacks and solutions of applying association rule mining in learning management systems" (PDF)۔ Sci2s{{حوالہ ویب}}: اسلوب حوالہ 1 کا انتظام: url-status (link)
  4. "Data Mining Techniques: Top 5 to Consider". Precisely (امریکی انگریزی میں). 8 نومبر 2021. Retrieved 2021-12-10.
  5. ^ ا ب پ "16 Data Mining Techniques: The Complete List - Talend". Talend - A Leader in Data Integration & Data Integrity (انگریزی میں). Retrieved 2021-12-10.
  6. "What are Association Rules in Data Mining (Association Rule Mining)?". SearchBusinessAnalytics (انگریزی میں). Retrieved 2021-12-10.
  7. "Drawbacks and solutions of applying association rule mining in learning management systems". ResearchGate (انگریزی میں). Retrieved 2021-12-10.
  8. Tan، Pang-Ning؛ Michael، Steinbach؛ Kumar، Vipin (2005)۔ "Chapter 6. Association Analysis: Basic Concepts and Algorithms" (PDF)۔ Introduction to Data Mining۔ Addison-Wesley۔ ISBN:978-0-321-32136-7
  9. Jian Pei؛ Jiawei Han؛ Lakshmanan، L.V.S. (2001)۔ "Mining frequent itemsets with convertible constraints"۔ Proceedings 17th International Conference on Data Engineering۔ ص 433–442۔ CiteSeerX:10.1.1.205.2150۔ DOI:10.1109/ICDE.2001.914856۔ ISBN:978-0-7695-1001-9۔ S2CID:1080975
  10. اگروال، راکیش؛ اور سری کانت، رام کرشنن؛Fast algorithms for mining association rules in large databases آرکائیو شدہ 2015-02-25 بذریعہ وے بیک مشین, in Bocca, Jorge B.; Jarke, Matthias; and Zaniolo, Carlo; editors, Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), Santiago, Chile, September 1994, pages 487-499
  11. Zaki، M. J. (2000)۔ "Scalable algorithms for association mining"۔ IEEE Transactions on Knowledge and Data Engineering۔ ج 12 شمارہ 3: 372–390۔ CiteSeerX:10.1.1.79.9448۔ DOI:10.1109/69.846291
  12. ^ ا ب Larose، Daniel T.؛ Larose، Chantal D. (23 جون 2014)۔ Discovering Knowledge in Data۔ DOI:10.1002/9781118874059۔ ISBN:9781118874059
  13. Wong، Pak (1999)۔ "Visualizing Association Rules for Text Mining" (PDF)۔ BSTU Laboratory of Artificial Neural Networks۔ 2021-11-29 کو اصل سے آرکائیو کیا گیا (PDF)
  14. ^ ا ب
  15. Hipp، J.؛ Güntzer، U.؛ Nakhaeizadeh، G. (2000)۔ "Algorithms for association rule mining --- a general survey and comparison"۔ ACM SIGKDD Explorations Newsletter۔ ج 2: 58–64۔ CiteSeerX:10.1.1.38.5305۔ DOI:10.1145/360402.360421۔ S2CID:9248096
  16. Brin، Sergey؛ Motwani، Rajeev؛ Ullman، Jeffrey D.؛ Tsur، Shalom (1997)۔ "Dynamic itemset counting and implication rules for market basket data"۔ Proceedings of the 1997 ACM SIGMOD international conference on Management of data - SIGMOD '97۔ ص 255–264۔ CiteSeerX:10.1.1.41.6476۔ DOI:10.1145/253260.253325۔ ISBN:978-0897919111۔ S2CID:15385590
  17. Omiecinski، E.R. (2003)۔ "Alternative interest measures for mining associations in databases"۔ IEEE Transactions on Knowledge and Data Engineering۔ ج 15: 57–69۔ CiteSeerX:10.1.1.329.5344۔ DOI:10.1109/TKDE.2003.1161582
  18. Aggarwal، Charu C.؛ Yu، Philip S. (1998)۔ "A new framework for itemset generation"۔ Proceedings of the seventeenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems - PODS '98۔ ص 18–24۔ CiteSeerX:10.1.1.24.714۔ DOI:10.1145/275487.275490۔ ISBN:978-0897919968۔ S2CID:11934586
  19. Piatetsky-Shapiro, Gregory; Discovery, analysis, and presentation of strong rules, Knowledge Discovery in Databases, 1991, pp. 229-248
  20. Tan، Pang-Ning؛ Kumar، Vipin؛ Srivastava، Jaideep (2004)۔ "Selecting the right objective measure for association analysis"۔ Information Systems۔ ج 29 شمارہ 4: 293–313۔ CiteSeerX:10.1.1.331.4740۔ DOI:10.1016/S0306-4379(03)00072-3
  21. Michael Hahsler (2015). A Probabilistic Comparison of Commonly Used Interest Measures for Association Rules. https://mhahsler.github.io/arules/docs/measures
  22. Hájek، P.؛ Havel، I.؛ Chytil، M. (1966)۔ "The GUHA method of automatic hypotheses determination"۔ Computing۔ ج 1 شمارہ 4: 293–308۔ DOI:10.1007/BF02345483۔ S2CID:10511114
  23. Hájek، Petr؛ Rauch، Jan؛ Coufal، David؛ Feglar، Tomáš (2004)۔ "The GUHA Method, Data Preprocessing and Mining"۔ Database Support for Data Mining Applications۔ Lecture Notes in Computer Science۔ ج 2682۔ ص 135–153۔ DOI:10.1007/978-3-540-44497-8_7۔ ISBN:978-3-540-22479-2
  24. Webb، Geoffrey (1989)۔ "A Machine Learning Approach to Student Modelling"۔ Proceedings of the Third Australian Joint Conference on Artificial Intelligence (AI 89): 195–205
  25. Webb، Geoffrey I. (2007)۔ "Discovering Significant Patterns"۔ Machine Learning۔ ج 68: 1–33۔ DOI:10.1007/s10994-007-5006-x
  26. Gionis، Aristides؛ Mannila، Heikki؛ Mielikäinen، Taneli؛ Tsaparas، Panayiotis (2007)۔ "Assessing data mining results via swap randomization"۔ ACM Transactions on Knowledge Discovery from Data۔ ج 1 شمارہ 3: 14–es۔ CiteSeerX:10.1.1.141.2607۔ DOI:10.1145/1297332.1297338۔ S2CID:52305658
  27. Heaton، Jeff (30 جنوری 2017)۔ "Comparing Dataset Characteristics that Favor the Apriori, Eclat or FP-Growth Frequent Itemset Mining Algorithms"۔ arXiv:1701.09042 [cs.DB] {{حوالہ آرخائیو}}: الوسيط |arxiv= مطلوب (معاونت)
  28. Zaki، Mohammed Javeed؛ Parthasarathy، Srinivasan؛ Ogihara، Mitsunori؛ Li، Wei (1997)۔ "New Algorithms for Fast Discovery of Association Rules": 283–286۔ CiteSeerX:10.1.1.42.3283۔ hdl:1802/501 {{حوالہ رسالہ}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (معاونت)
  29. Zaki، Mohammed J.؛ Parthasarathy، Srinivasan؛ Ogihara، Mitsunori؛ Li، Wei (1997)۔ "Parallel Algorithms for Discovery of Association Rules"۔ Data Mining and Knowledge Discovery۔ ج 1 شمارہ 4: 343–373۔ DOI:10.1023/A:1009773317876۔ S2CID:10038675
  30. Han (2000)۔ "Mining Frequent Patterns Without Candidate Generation"۔ Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00۔ ج SIGMOD '00۔ ص 1–12۔ CiteSeerX:10.1.1.40.4436۔ DOI:10.1145/342009.335372۔ ISBN:978-1581132175۔ S2CID:6059661 {{حوالہ کتاب}}: |journal= تُجوهل (معاونت)
  31. Witten, Frank, Hall: Data mining practical machine learning tools and techniques, 3rd edition[صفحہ درکار]
  32. Hájek، Petr؛ Havránek, Tomáš (1978)۔ Mechanizing Hypothesis Formation: Mathematical Foundations for a General Theory۔ Springer-Verlag۔ ISBN:978-3-540-08738-0
  33. ^ ا ب Webb, Geoffrey I. (1995); OPUS: An Efficient Admissible Algorithm for Unordered Search, Journal of Artificial Intelligence Research 3, Menlo Park, CA: AAAI Press, pp. 431-465 online access
  34. Bayardo، Roberto J., Jr.؛ Agrawal، Rakesh؛ Gunopulos، Dimitrios (2000)۔ "Constraint-based rule mining in large, dense databases"۔ Data Mining and Knowledge Discovery۔ ج 4 شمارہ 2: 217–240۔ DOI:10.1023/A:1009895914772۔ S2CID:5120441{{حوالہ رسالہ}}: اسلوب حوالہ 1 کا انتظام: متعدد نام: مصنفین کی فہرست (link)
  35. Webb، Geoffrey I. (2000)۔ "Efficient search for association rules"۔ Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '00۔ ص 99–107۔ CiteSeerX:10.1.1.33.1309۔ DOI:10.1145/347090.347112۔ ISBN:978-1581132335۔ S2CID:5444097
  36. ^ ا ب "DSS News: Vol. 3, No. 23"
  37. Ramezani, Reza, Mohamad Sunni ee, and Mohammad Ali Nematbakhsh; MRAR: Mining Multi-Relation Association Rules, Journal of Computing and Security, 1, no. 2 (2014)
  38. GI Webb and S. Butler and D. Newlands (2003)۔ On Detecting Differences Between Groups۔ KDD'03 Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
  39. Menzies، T.؛ Ying Hu (2003)۔ "Computing practices - Data mining for very busy people"۔ Computer۔ ج 36 شمارہ 11: 22–29۔ DOI:10.1109/MC.2003.1244531
  40. Wong، A.K.C.؛ Yang Wang (1997)۔ "High-order pattern discovery from discrete-valued data"۔ IEEE Transactions on Knowledge and Data Engineering۔ ج 9 شمارہ 6: 877–893۔ CiteSeerX:10.1.1.189.1704۔ DOI:10.1109/69.649314
  41. Liu، Jinze؛ Paulsen، Susan؛ Sun، Xing؛ Wang، Wei؛ Nobel، Andrew؛ Prins، Jan (2006)۔ "Mining Approximate Frequent Itemsets in the Presence of Noise: Algorithm and Analysis"۔ Proceedings of the 2006 SIAM International Conference on Data Mining۔ ص 407–418۔ CiteSeerX:10.1.1.215.3599۔ DOI:10.1137/1.9781611972764.36۔ ISBN:978-0-89871-611-5
  42. Zaki, Mohammed J. (2001); SPADE: An Efficient Algorithm for Mining Frequent Sequences, Machine Learning Journal, 42, pp. 31–60
  43. Zimek، Arthur؛ Assent، Ira؛ Vreeken، Jilles (2014)۔ Frequent Pattern Mining۔ ص 403–423۔ DOI:10.1007/978-3-319-07821-2_16۔ ISBN:978-3-319-07820-5
  44. King، R. D.؛ Srinivasan، A.؛ Dehaspe، L. (فروری 2001)۔ "Warmr: a data mining tool for chemical data."۔ J Comput Aided Mol Des۔ ج 15 شمارہ 2: 173–81۔ Bibcode:2001JCAMD..15..173K۔ DOI:10.1023/A:1008171016861۔ PMID:11272703۔ S2CID:3055046