Sunday, November 11, 2007

Updated News about Myanmar Lexicon and Corpus

Update သတင္းေလးပါဗ်ာ။ က်ြန္ေတာှ အရင္ပိုစ့္မွာ ေရးခဲ့သလို Myanmar Corpus ေတြ Lexicon Database ေတြက မရွိဘူး ဆိုတာ မဟုတ္ပါဘူးတဲ့။ Little Knowledge ေလးနဲ့ မသိတာေတြကို ေလ်ွာက္မေရးပါနဲ့၊ ခင္ဗ်ားဘေလာ့ဂ္ကို ဖတ္ျပီး အားလံုးအမွားကို အမွန္ထင္ကုန္မယ္၊ မသိဘဲနဲ့ ေလ်ွာက္မေျပာနဲ့လို့ တာဝန္ရွိသူဟု ထင္ရသူ တစ္ေယာက္က ဆိုလာလို့ ဒါေလးကို ထည့္ေပးလိုက္ရပါတယ္။ အဲဒါေတြ လုပ္ျပီးသား ရွိပါတယ္တဲ့ခင္ဗ်ား။ ဘယ္သူေတြ လုပ္ေနမွန္းမသိ၊ ဘယ္အဆင့္ ေရာက္ေနျပီမွန္းလဲ မသိ၊ အခမဲ့ (သို့) ေငြေျကးနဲ့ ေပးသံုးမယ္ မသံုးဘူးဆိုတာလည္း ထုတ္ျပန္ ေျကျငာျခင္းလည္း မရွိ၊ ဘယ္သူ့ကို ေမးရမွန္းလဲ မသိဘဲနဲ့ အျပင္က က်ြန္ေတာှတို့လို့ Cheese Brain ေတြက ဘယ္လိုလုပ္ သိပါ့မလဲခင္ဗ်ာ။ ဒါနဲ့ တီတီတာတာ လိုက္ရွာလိုက္ေတာ့ နိုင္ငံျခားက ဝဘ္ဆိုဒ္တစ္ခုမွာ ဒီလို သြားေတြ့တယ္။ ဒန္တန့္တန္
Myanmar (MCF, Yangon) on Dec 22, 2006

Myanmar has kicked off Myanmar National Language Implementation (MNLI) project in the early of 2006. The project is run under the Ministry Communication, Post and Telegraph.

It is composed of 4 groups as followings:-
1. Machine Translation and Recognition, lead by Deputy Minister of Science and Technology - University of Computer Study, Yangon
2. Myanmar Lexicon, lead by Deputy Minister of Education
3. NLP Standards and Application, lead by MCF (Myanmar Computer Federation, U Thein Oo) - MMUNLP (Myanmar Unicode and NLP), NLP group, MCF
4. Coordination, lead by Vice president of e-national task force - Myint Myint Than (secretary)

Currently there are 7 members in NLP group in MCF. It shew its progress in lexicon development. Currently, it contains 27,000 entries of Myanmar-English coded in the format of Lexique Pro of SIL. The lexicon is designed for human use. It contains several fields such as POS, classifier, sample sentence, synonym, antonym, etc. The NLP Standards and Application group also support MMUNLP group in several activities such as correcting Unicode encoding for Myanmar. MT and Recognition group explained their progress in developing Myanmar to English MT. It is a rule based approach to implement a syntactic transfer MT. Currently there are 400 words. There are 5 members in the group. Myanmar grammar is very similar to Japanese grammar in terms of word order (SOV) and apparent use of grammatical case. It should be very helpful if they have a chance to learn from Japanese experience in developing MT. MCF has shown their interest in participating in ADD-2.
Ref: http://203.144.225.124/add/?action=viewnews&newid=11


က်ြန္ေတာှက အဆိုပါ Lexicon မွာ ျမန္မာ-အဂဿငလိပ္ ျဖစ္ေျကာင္း က်ြန္ေတာှ လိုခ်င္တာက အဂဿငလိပ္-ျမန္မာ ျဖစ္ေျကာင္း ေျပာျပေတာ့ ဒီ Lexicon ဟာ အဂဿငလိပ္-ျမန္မာကိုလည္း သံုးလို့ရေျကာင္း ေျပာျပပါတယ္ခင္ဗ်။ မွန္တာ ေျပာရရင္ အဂဿငလိပ္-ျမန္မာနဲ့ ျမန္မာ-အဂဿငလိပ္ မတူဘူးလို့ က်ြန္ေတာှ ယံုျကည္ပါတယ္။ အဲ Bilingual လုပ္ထားရင္ေတာ့ နဲနဲ ျဖစ္နိုင္တယ္။ ဒါေပမယ့္ အထက္က စာပိုဒ္မွာ The Lexicon is design for human use လို့ပါေနတာ ေတြ့ရပါတယ္။ Human Use နဲ့ Machine Use လည္း မတူဘူးလို့ ထင္မိပါတယ္။ ဆိုေတာ့ကာ တကယ္ရွိတယ္ ဆိုရင္ေတာ့ ေက်းဇူးတင္ရမွာေပါ့ဗ်ာ။ ဘာေျကျငာခ်က္မွ မထုတ္ေတာ့လည္း မရွိဘူးလို့ ထင္မိတာ မတတ္နိုင္ပါဘူး။ ဘယ္သူ့ကို ေမးရမွန္း မသိတာကလည္း ျပသနာ တစ္ခုေပါ့ဗ်ာ။ ဪ က်န္ေသးတယ္။ ေနရွင္နယ္ ေကာှပက္(စ္) ကလည္း ရွိပါသတဲ့။ ဘေလာဂ့္ထဲက စာေတြလည္း ပါဝင္ပါသတဲ့။ က်ြန္ေတာှ့ ဘေလာ့ဂ္က စာေတြမ်ား ပါေနဦးမလားေတာ့ မသိဘူး။ ဒါဆိုရင္ေတာ့ စတိုင္လ္လုပ္ျပီး ကန့္ကြက္ရမလားဘဲ။ ဘာလို့လည္းဆိုေတာ့ က်ြန္ေတာှလည္း ျမန္မာပီပီ အလကား မေပးခ်င္လို့ပါ။ ေကာှပက္(စ္)မွာ သံုးမယ္ဆို ေရာင္းမယ္။ မဂဿဂဇင္း ေတြမွာလိုေပါ့ ေဆာင္းပါးတစ္ပုဒ္ ၅၀၀၀၊ ကဗ်ာတစ္ပုဒ္ ၂၅၀၀။ က်ြန္ေတာှ့ ခြင့္ျပုခ်က္ မရွိဘဲ ယူသံုးရင္….။ ဟဲဟဲ

ရွင္းရွင္း ေျပာရရင္ေတာ့ က်ြန္ေတာှက အသံုးခ်ခ်င္သူ။ Resource ဆိုတာ မ်ားမ်ားရေလ ေကာင္းေလ။ အလကားရေလ ေကာင္းေလပဲ။ က်ြန္ေတာှ့ ဘေလာ့ဂ္မွာ ဟိုဟာ မေရးနဲ့ ဒီဟာမေရးနဲ့လို့ေတာ့ မတားျကနဲ့ေပါ့ဗ်ာ။ က်ြန္ေတာှ ကိုယ္၌ကလည္း ေစာင့္စည္းသင့္တာ ေစာင့္စည္းျပီး ေရးပါတယ္။ က်ြန္ေတာှ အခါခါ ေျပာပါတယ္။ က်ြန္ေတာှက ဘာေကာင္မွလည္း မဟုတ္ဘူး။ ဆရာျကီး လိုက္လုပ္ေနတာလည္း မဟုတ္ဘူး။ အျမင္မွား အေတြးမွားတာေတြလည္း ရွိမွာပဲ။ ဒါေပမယ့္ ကိုယ္ျမင္တာ ကိုယ္ေတြးတာကို ပြင့္ပြင့္လင္းလင္း ထုတ္ေရးထားတာပါ။ မွားေနရင္ စကားကို ခ်ိုခ်ိုသာသာေျပာျပီး ျပင္ေပးလို့ ရပါတယ္။ အမွားကို ဝန္ခံျပီး အမွန္ ျပင္ပါမယ္။ ေက်းဇူးတင္စရာ ရွိရင္လည္း ဝန္မေလးပါဘူး။ ေက်းဇူးစကား ဆိုပါမယ္။ ပုဂဿဂိုလ္ေရး တိုက္ခိုက္လိုရင္း လံုးဝ မရွိပါဘူး။ အိုင္တီနယ္ထဲက ဆရာျကီးမ်ား အေျကာင္းကိုလည္း ဂဃနဏ မသိပါဘူး။ ဒါေပမယ့္ က်ြန္ေတာှ့ကို မိုက္မိုက္ရိုင္းရိုင္း နွိမ္နွိမ္ခ်ခ် ေျပာရင္ေတာ့ ဘာေကာင္ျကီး ျဖစ္ေနပါေစ က်ြန္ေတာှ မျကိုက္ဘူး။ ဘယ္သူမွလည္း ျကိုက္မွာ မဟုတ္ဘူး။ လူအခ်င္းခ်င္း ေလးစားမွု ရွိရပါမယ္။ ဒီေတာ့ ေျပေျပလည္လည္ ေထာက္ျပေဝဘန္ပါ။ က်ြန္ေတာှက မွားေနရင္ ေျပေျပလည္လည္ ေတာင္းပန္လိုက္မယ္။ ျပီးေရာေပါ့။ ပိုစ့္ေတြရဲ့ေအာက္မွာ ကြန္မန့္ဆိုတာ ရွိပါတယ္။ အဲဒီေနရာမွာ ေျပာျပေပးေပါ့။ ဒါမွမဟုတ္ ေစာက္ရူးေရးတဲ့ ဘေလာ့ဂ္ဆိုျပီး လာမဖတ္ဘဲ ေနခ်င္လည္း ေနလိုက္ေပါ့။ က်ြန္ေတာှက “လာပါလာပါ မျကည္ရဲ့” လို့ မေခါှပါဘူး။

က်ြန္ေတာှဟာ End-User တစ္ေယာက္။ အေကာင္းဆံုးကို သံုးခ်င္တယ္။ ရနိုင္တဲ့ Resource မွန္သမ်ွ လိုခ်င္တယ္။ ဆိုေတာ့ကာ ဒါေတြ တကယ္ထြက္လာမယ္၊ ျပည္သူလူထုကိုလည္း ေပးသံုးမယ္ (ေငြေျကးနဲ့၊ ဒါမွမဟုတ္ အခမဲ့)၊ စနစ္လည္း က်မယ္၊ က်ြန္ေတာှ့ လိုအပ္ခ်က္နဲ့လည္း ကိုက္ညီတဲ့ ဟာမ်ိုး ျဖစ္ေနမယ္ ဆိုခဲ့ရင္ ေဟာဒီ ဘေလာ့ဂ္ကေန ျပုလုပ္တဲ့သူကို အထူးေက်းဇူးတင္စကား ဆိုပါဦးမယ္။ ဒါေပမယ့္ ဒါမ်ိုးေတြ လုပ္ျပီးေနတာ ျကာလွျပီ၊ အခု က်ြန္ေတာှေျပာလိုက္မွ ခ်က္ခ်င္းျကီး Launch လုပ္ေပးလိုက္တယ္ ဆိုရင္ေတာ့လည္း ဘာလို့ ျပီးေနတာကို မထုတ္ျပန္ဘဲ သိမ္းထားရတာလည္းဟင္ ဆိုတဲ့ ကိစဿစေလးကိုျဖင့္ က်ြန္ေတာှဆိုရင္ အရင္ေမးမိမွာခင္ဗ်။ ကဲကဲ ထားပါေတာ့ အက်ဉ္းခ်ံုးလိုက္ရင္ အရင္ပိုစ့္မွာ က်ြန္ေတာှ ထင္ထားသလို လုပ္မထားတာ မဟုတ္ပါဘူးတဲ့။ ရွိပါတယ္တဲ့။ Publish လုပ္ေအာင္ သူတြန္းအားေပး လိုက္မယ္လို့ တာဝန္ရွိသူဟု ထင္ရသူ တစ္ဦးမွ ျပင္းျပင္းထန္ထန္ ကန့္ကြက္ ေျပာျကားသြားတာမို့ ဒါေလးကို အပ္ဒိတ္ လုပ္ရျခင္းပါပဲ။ အရင္ပိုစ့္ ေရးခ်ိန္အထိ ျပီးေနျပီဆိုတာ သိကိုမသိဘူး၊ အခုမွ သိတာမို့ အရင္ပိုစ့္ေလးကိုေတာ့ ဒီအတိုင္း ထားလိုက္ပါရေစဦး။ အားအားလ်ားလ်ား လာဖတ္ျကတဲ့ စာဖတ္သူ အားလံုးလည္း အရင္ပိုစ့္က အဲဒါနဲ့ သက္ဆိုင္တဲ့ အခ်က္ေလးေတြကိုသာ ေမ့လိုက္ျပီး တို့ျမန္မာမွာ ဒါမ်ိုး ရွိေနျပီ.. ဟားဟားဟားဟား လို့ ဂုဏ္ယူဝင့္ျကြားစြာ မွတ္လိုက္ျကပါေတာ့လို့ လိပ္တက္ Newsေလး ေပးလိုက္ပါရေစ။ (ဒီေကာင္ ခုတစ္မ်ိုး ေတာှျကာ တစ္မ်ိုးနဲ့ ေတာှေတာှ ဗေလာင္းဗလဲ နိုင္လွခ်ည္လားလို့ မထင္လိုက္ျကပါနဲ့၊ ေခတ္မေကာင္းလို့ ရူးခ်င္ေယာင္ ေဆာင္လိုက္ရေျကာင္းပါဖ်ာ့) ေကာင္းေလွာင့္ေတး၊ ေကာင္းေလွာင့္ေတး။ အိုရခ်ည္ေသးရဲ့၊ နာရခ်ည္ေသးရဲ့၊ သံုးရခ်ည္ေသးရဲ့။


Related Post : http://nyilynnseck.blogspot.com/2007/11/research-and-resources.html#links

No response to “Updated News about Myanmar Lexicon and Corpus”

 
© 2009 NYI LYNN SECK 18+ DEN. All Rights Reserved | Powered by Blogger
Design by psdvibe | Bloggerized By LawnyDesignz