تبادلۂ خیال:املاء پڑتالگر
aff کے سلسلہ میں آپ نے زبردست کام کیا ہے۔ میرا زبان کا علم محدود ہے اس لیے ہاتھ نہیں بٹا سکتا۔ غالبا وہاب صاحب یا سمرقندی صاحب اس سلسلہ میں کارگر ثابت ہو سکتے ہیں۔--Urdutext 01:49, 23 جولائی 2008 (UTC)
مشورہ درکار ہے
ترمیممیں اردو املا پڑتالگر کے سلسلے میں حرکات اور اعزازی علامات کے لیے قوانین بنانے کی کوشش کر رہا ہوں۔ اس سلسلے میں اگر آپ لوگ اپنی رائے سے نوازیں تو میری کافی مدد ہو گی۔ تاحال، مندرجہ ذیل اصول ذہن میں آئے ہیں۔
Honorific Marks =============== To make the word list concise and accurate, all honorific marks will be removed from generated word lists. They will also be completely ignored by the spell checker Code Name Example ========================================================= 0x0610 SALLALLAHOU ALAYHE WASSALLAM محمدؐ 0x0611 ALAYHE ASSALLAM ابراہیمؑ 0x0612 RAHMATULLAH ALAYHE عبدالقادر جیلانیؒ 0x0613 RADI ALLAHOU ANHU عمرؓ 0x0614 TAKHALLUS غالبؔ Harkaat ======= Remove from AutoCrawl: The file scanning and crawling tool that automatically generates the word list will remove this character before putting the word in word list. Master word list can still have these harkat though. Harkat should should be omitted unless absolutely necessary from the word list to make it more concise and accurate. Generated word lists will also be smaller and easier to verify manually if harkat are removed. Ignore for SpellCheck: Hunspell will be configured to ignore this character. If Master word list has a word with this harkat and the user leave the harkat out, it will still be considered a valid word. If the master word list has a word without the harkat and user tyes it, it will still be considered a valid word. Summary of the rules: Word list generation tools will not allow any harkat in the word list other than KHARA ZABAR, DO ZABAR and TASHDEED. I can not think of any examples where any other harkat will be important for Urdu spell checking. If other harkat are found necessary, they can be manually added. Tools will not strip these from the master word list Spell checker will ignore ZER, ZABAR and PESH completely. All other harkat will be strictly enforced. Code Arabic Name Urdu Name Used in Urdu Remove in AutoCrawl Ignore in SpellCheck ================================================================================================ 0x0652 SUKUN Saakin No Yes No 0x064E FATHA Zabar Often Yes Yes 0x0650 KASRA Zer Often Yes Yes 0x064F DAMMA Pesh Often Yes Yes 0x0670 SUPERSCRIPT ALEF Khara Zabar Often No No 0x0656 SUBSCRIPT ALEF Khari Zer Rarely Yes No 0x0657 INVERTED DAMMA Ulti Pesh No Yes No 0x064B FATHATAN Do Zabar Often No No 0x064D KASRATAN Do Zer Rarely Yes No 0x064C DAMMATAN Do Pesh No Yes No 0x0654 HAMZA ABOVE -- No Yes No 0x0651 SHADDA Tashdeed Often No No 0x0658 MARK NOON GHUNNA -- No Yes No 0x0653 MADDAH ABOVE -- No Yes No
خیالات
ترمیم- میرے خیال میں "پیش" کچھ صورتوں میں ضروری ہوتا ہے، مثلاً "پُل" اور پَل" مختلف لفظ ہیں۔ عام طور پر مجھے اتفاق ہے کہ پڑتال کرتے ہوئے اعراب کو خاطر میں نہیں لانا چاہیے۔
- hamza above اردو میں استعمال تو ہوتا ہے، جیسا کہ "تبادلۂ خیال"
- اس کے علاوہ کچھ حروف کے دو ممکنہ انداز آپ کے گوش گزار کیے تھے:
- یہ قابل غور ہے کہ کچھ حروف لکھنے کے دو انداز بنتے ہیں، مثلاً "ؤ"=0624 اور "ؤ"= 0648+0654 (یعنی و اور پھر اس کے اُوپر ہمزہ)۔ "نفیس ویب نسخ" فونٹ میں یہ مختلف دِکھتے ہیں۔
- اسی طرح "آ"=0622 اور "آ"=0627+0653
- ZWNJ: آپ کے hunspell میں ایک خوب بات دیکھی ہے کہ zwnj سے جڑے الفاظ کو دو الفاظ سمجھ کر پڑتال کرتا ہے مثلاً "برقیخط" کو درست مانتا ہے کیونکہ "برقی" اور "خط" دونوں صحیح لفظ ہیں۔
--Urdutext 22:29, 4 اگست 2008 (UTC)
- میرے خیال میں "پیش" کچھ صورتوں میں ضروری ہوتا ہے، مثلاً "پُل" اور پَل" مختلف لفظ ہیں۔ عام طور پر مجھے اتفاق ہے کہ پڑتال کرتے ہوئے اعراب کو خاطر میں نہیں لانا چاہیے۔ --- ایسی مثالوں میں پڑتالگر اعراب کے ساتھ بھی درست تسلیم کرے گا۔ عمومی طور پر زیر زبر اور پیش کو نظر انداز کرنا ضروری ہے ورنہ الفاظ کی فہرست بہت لمبی ہو جائے گی۔ باقی حرکات کو نظر انداز نہیں کیا جائے گا۔
- hamza above اردو میں استعمال تو ہوتا ہے، جیسا کہ "تبادلۂ خیال" --- بہت خوب، میں نے یہ بات نوٹ کر لی ہے۔ خودکار Crawling Tools میں اب بھی اسے حذف ہی کرنا ہوگا، بصورت دیگر عربی کے بہت زیادہ الفاظ آنے کا احتمال ہے جنہیں بعد میں حذف کرنا پڑے گا۔ جن الفاظ میں یہ استعمال ہوتا ہے، انھیں فہرست میں manually ڈال دیا جائے گا۔
- اس کے علاوہ کچھ حروف کے دو ممکنہ انداز آپ کے گوش گزار کیے تھے:
- یہ قابل غور ہے کہ کچھ حروف لکھنے کے دو انداز بنتے ہیں، مثلاً "ؤ"=0624 اور "ؤ"= 0648+0654 (یعنی و اور پھر اس کے اُوپر ہمزہ)۔ "نفیس ویب نسخ" فونٹ میں یہ مختلف دِکھتے ہیں۔
- اسی طرح "آ"=0622 اور "آ"=0627+0653
- ان دونوں صورتوں کے لیے میری رائے میں خودکار متبادل ہونے چاہییں۔ ان حروف کی دو صورتیں ممکن تہ ہیں لیکن کوشش یہ ہونی چاہیے کہ صرف ایک کوڈ والی صورت استعمال ہو۔ اگر دونوں صورتیں کثرت سے استعمال ہوں گی تہ تلاش میں مسلہ رہے گا۔ اگر صارف مرکب صورت استعمال کرے تہ املاء پڑتالگر اسے غلط دکھا کر دوسری صورت تجویز کرے۔ Hunspell میں یہ کام آسانی سے ہو سکتا ہے۔ اسی طرح خودکار Crawling Tools میں بھی دو کوڈ والی صورتوں کو ایک کوڈ والی صورتوں سے بدل دینا چاہیے۔
- ZWNJ: آپ کے hunspell میں ایک خوب بات دیکھی ہے کہ zwnj سے جڑے الفاظ کو دو الفاظ سمجھ کر پڑتال کرتا ہے مثلاً "برقیخط" کو درست مانتا ہے کیونکہ "برقی" اور "خط" دونوں صحیح لفظ ہیں۔ --- اس کے حل کے بارے میں سوچنا پڑے گا۔
کاشف عقیل 16:01, 5 اگست 2008 (UTC)
- اگر آپ جنگ کے موقع پر crawl کر رہے ہیں، تو اس میں عربی کے الفاظ آنے کا تو امکان کم ہی ہے۔
- دو حروف والی بات سے متفق ہوں کہ کوشش ہونی چاہیے کہ ایک حرف والا امکان درست مانا جائے اور hunspell اصلاح پیش کرے۔ لیکن "بڑی ے کے اوپر حمزہ" کا مسلئہ ہے، ہم اکثر "ئے" ="ئ +ے" (دو حرف) لکھتے ہیں نہ کہ "ۓ" (ایک حرف) چونکہ CRULP کے تختہ میں "ۓ" موجود نہیں۔ اسے دو حروف سے لکھنے کا تیسرا طریقہ "ۓ"= "ے+ ٔ" ہے۔
- مقتدرہ والوں کے مطابق "آئ= آ+ ئ" درست ہے، جبکہ "ادارہ تحقیقات اردو" فونٹ کے حوالے سے "آئی= آ+ ئ+ ی" کو درست دکھاتا ہے۔
- میری رائے میں zwnj کے حوالے سے hunspell کا رویہ درست ہے، اس لیے کچھ کرنے کی ضرورت نہیں۔ وکیپیڈٰیا پر میں اکثر سائنسی اصطلاحات zwnj سے جوڑ کر لکھتا ہوں مثلاً "سمتیمخطط"۔ --Urdutext 23:36, 5 اگست 2008 (UTC)
نقائص
ترمیم- "کمیت" کو صحیح لفظ مانتا ہے مگر اس کی جمع کمیتوں کو نہیں۔