تبادلۂ خیال:املاء پڑتالگر

aff کے سلسلہ میں آپ نے زبردست کام کیا ہے۔ میرا زبان کا علم محدود ہے اس لیے ہاتھ نہیں بٹا سکتا۔ غالبا وہاب صاحب یا سمرقندی صاحب اس سلسلہ میں کارگر ثابت ہو سکتے ہیں۔--Urdutext 01:49, 23 جولا‎ئی 2008 (UTC)

مشورہ درکار ہے

ترمیم

میں اردو املا پڑتالگر کے سلسلے میں حرکات اور اعزازی علامات کے لیے قوانین بنانے کی کوشش کر رہا ہوں۔ اس سلسلے میں اگر آپ لوگ اپنی رائے سے نوازیں تو میری کافی مدد ہو گی۔ تاحال، مندرجہ ذیل اصول ذہن میں آئے ہیں۔


Honorific Marks
===============
To make the word list concise and accurate, all honorific marks will be removed
from generated word lists. They will also be completely ignored by the spell checker

Code    Name                            Example
=========================================================
0x0610  SALLALLAHOU ALAYHE WASSALLAM    محمدؐ
0x0611  ALAYHE ASSALLAM                 ابراہیمؑ
0x0612  RAHMATULLAH ALAYHE              عبدالقادر جیلانیؒ
0x0613  RADI ALLAHOU ANHU               عمرؓ
0x0614  TAKHALLUS                       غالبؔ


Harkaat
=======
Remove from AutoCrawl: 
The file scanning and crawling tool that automatically generates the 
word list will remove this character before putting the word in word list. Master word list 
can still have these harkat though. Harkat should should be omitted unless absolutely necessary 
from the word list to make it more concise and accurate. Generated word lists will also be 
smaller and easier to verify manually if harkat are removed.

Ignore for SpellCheck:
Hunspell will be configured to ignore this character. If Master word 
list has a word with this harkat and the user leave the harkat out, it will still be considered
a valid word. If the master word list has a word without the harkat and user tyes it, it will
still be considered a valid word.

Summary of the rules:
Word list generation tools will not allow any harkat in the word list
other than KHARA ZABAR, DO ZABAR and TASHDEED. I can not think of any examples where any other
harkat will be important for Urdu spell checking. If other harkat are found necessary, they can
be manually added. Tools will not strip these from the master word list

Spell checker will ignore ZER, ZABAR and PESH completely. All other harkat will be strictly 
enforced.


Code    Arabic Name       Urdu Name    Used in Urdu  Remove in AutoCrawl  Ignore in SpellCheck
================================================================================================
0x0652  SUKUN             Saakin       No            Yes                  No
0x064E  FATHA             Zabar        Often         Yes                  Yes
0x0650  KASRA             Zer          Often         Yes                  Yes
0x064F  DAMMA             Pesh         Often         Yes                  Yes
0x0670  SUPERSCRIPT ALEF  Khara Zabar  Often         No                   No
0x0656  SUBSCRIPT ALEF    Khari Zer    Rarely        Yes                  No
0x0657  INVERTED DAMMA    Ulti Pesh    No            Yes                  No
0x064B  FATHATAN          Do Zabar     Often         No                   No
0x064D  KASRATAN          Do Zer       Rarely        Yes                  No
0x064C  DAMMATAN          Do Pesh      No            Yes                  No
0x0654  HAMZA ABOVE       --           No            Yes                  No
0x0651  SHADDA            Tashdeed     Often         No                   No
0x0658  MARK NOON GHUNNA  --           No            Yes                  No
0x0653  MADDAH ABOVE      --           No            Yes                  No

خیالات

ترمیم
  • میرے خیال میں "پیش" کچھ صورتوں میں ضروری ہوتا ہے، مثلاً "پُل" اور پَل" مختلف لفظ ہیں۔ عام طور پر مجھے اتفاق ہے کہ پڑتال کرتے ہوئے اعراب کو خاطر میں نہیں لانا چاہیے۔
  • hamza above اردو میں استعمال تو ہوتا ہے، جیسا کہ "تبادلۂ خیال"
  • اس کے علاوہ کچھ حروف کے دو ممکنہ انداز آپ کے گوش گزار کیے تھے:
    • یہ قابل غور ہے کہ کچھ حروف لکھنے کے دو انداز بنتے ہیں، مثلاً "ؤ"=0624 اور "ؤ"= 0648+0654 (یعنی و اور پھر اس کے اُوپر ہمزہ)۔ "نفیس ویب نسخ" فونٹ میں یہ مختلف دِکھتے ہیں۔
    • اسی طرح "آ"=0622 اور "آ"=0627+0653
  • ZWNJ: آپ کے hunspell میں ایک خوب بات دیکھی ہے کہ zwnj سے جڑے الفاظ کو دو الفاظ سمجھ کر پڑتال کرتا ہے مثلاً "برقی‌خط" کو درست مانتا ہے کیونکہ "برقی" اور "خط" دونوں صحیح لفظ ہیں۔

--Urdutext 22:29, 4 اگست 2008 (UTC)


  • میرے خیال میں "پیش" کچھ صورتوں میں ضروری ہوتا ہے، مثلاً "پُل" اور پَل" مختلف لفظ ہیں۔ عام طور پر مجھے اتفاق ہے کہ پڑتال کرتے ہوئے اعراب کو خاطر میں نہیں لانا چاہیے۔ --- ایسی مثالوں میں پڑتالگر اعراب کے ساتھ بھی درست تسلیم کرے گا۔ عمومی طور پر زیر زبر اور پیش کو نظر انداز کرنا ضروری ہے ورنہ الفاظ کی فہرست بہت لمبی ہو جائے گی۔ باقی حرکات کو نظر انداز نہیں کیا جائے گا۔
  • hamza above اردو میں استعمال تو ہوتا ہے، جیسا کہ "تبادلۂ خیال" --- بہت خوب، میں نے یہ بات نوٹ کر لی ہے۔ خودکار Crawling Tools میں اب بھی اسے حذف ہی کرنا ہوگا، بصورت دیگر عربی کے بہت زیادہ الفاظ آنے کا احتمال ہے جنہیں بعد میں حذف کرنا پڑے گا۔ جن الفاظ میں یہ استعمال ہوتا ہے، انھیں فہرست میں manually ڈال دیا جائے گا۔
  • اس کے علاوہ کچھ حروف کے دو ممکنہ انداز آپ کے گوش گزار کیے تھے:
    • یہ قابل غور ہے کہ کچھ حروف لکھنے کے دو انداز بنتے ہیں، مثلاً "ؤ"=0624 اور "ؤ"= 0648+0654 (یعنی و اور پھر اس کے اُوپر ہمزہ)۔ "نفیس ویب نسخ" فونٹ میں یہ مختلف دِکھتے ہیں۔
    • اسی طرح "آ"=0622 اور "آ"=0627+0653
  • ان دونوں صورتوں کے لیے میری رائے میں خودکار متبادل ہونے چاہییں۔ ان حروف کی دو صورتیں ممکن تہ ہیں لیکن کوشش یہ ہونی چاہیے کہ صرف ایک کوڈ والی صورت استعمال ہو۔ اگر دونوں صورتیں کثرت سے استعمال ہوں گی تہ تلاش میں مسلہ رہے گا۔ اگر صارف مرکب صورت استعمال کرے تہ املاء پڑتالگر اسے غلط دکھا کر دوسری صورت تجویز کرے۔ Hunspell میں یہ کام آسانی سے ہو سکتا ہے۔ اسی طرح خودکار Crawling Tools میں بھی دو کوڈ والی صورتوں کو ایک کوڈ والی صورتوں سے بدل دینا چاہیے۔
  • ZWNJ: آپ کے hunspell میں ایک خوب بات دیکھی ہے کہ zwnj سے جڑے الفاظ کو دو الفاظ سمجھ کر پڑتال کرتا ہے مثلاً "برقی‌خط" کو درست مانتا ہے کیونکہ "برقی" اور "خط" دونوں صحیح لفظ ہیں۔ --- اس کے حل کے بارے میں سوچنا پڑے گا۔

کاشف عقیل 16:01, 5 اگست 2008 (UTC)

  • اگر آپ جنگ کے موقع پر crawl کر رہے ہیں، تو اس میں عربی کے الفاظ آنے کا تو امکان کم ہی ہے۔
  • دو حروف والی بات سے متفق ہوں کہ کوشش ہونی چاہیے کہ ایک حرف والا امکان درست مانا جائے اور hunspell اصلاح پیش کرے۔ لیکن "بڑی ے کے اوپر حمزہ" کا مسلئہ ہے، ہم اکثر "ئے" ="ئ +ے" (دو حرف) لکھتے ہیں نہ کہ "ۓ" (ایک حرف) چونکہ CRULP کے تختہ میں "ۓ" موجود نہیں۔ اسے دو حروف سے لکھنے کا تیسرا طریقہ "ۓ"= "ے+ ٔ" ہے۔
  • مقتدرہ والوں کے مطابق "آئ= آ+ ئ" درست ہے، جبکہ "ادارہ تحقیقات اردو" فونٹ کے حوالے سے "آئی= آ+ ئ+ ی" کو درست دکھاتا ہے۔
  • میری رائے میں zwnj کے حوالے سے hunspell کا رویہ درست ہے، اس لیے کچھ کرنے کی ضرورت نہیں۔ وکیپیڈٰیا پر میں اکثر سائنسی اصطلاحات zwnj سے جوڑ کر لکھتا ہوں مثلاً "سمتی‌مخطط"۔ --Urdutext 23:36, 5 اگست 2008 (UTC)

نقائص

ترمیم
  • "کمیت" کو صحیح لفظ مانتا ہے مگر اس کی جمع کمیتوں کو نہیں۔
واپس "املاء پڑتالگر" پر