Thursday, November 20, 2008

Myanmar Machine Translation

လြန္ခဲ့တဲ့ တစ္နွစ္က ဒီအခ်ိန္မွာ က်ြန္ေတာှဟာ ေန့ေရာညပါ ပညာရပ္တစ္ခုကို လိုက္စားခဲ့တယ္။ မနက္ ၉နာရီကေန ည၉နာရီအထိ အဲဒီပညာရပ္နဲ့ ပတ္သတ္တဲ့ စာတမ္းေတြကို ေဒါင္းလုဒ္ဆြဲျပီး နားလည္ေအာင္ ဖတ္ရွုေလ့လာခဲ့ရတယ္။ ျမန္မာျပည္မွာ အဲဒါနဲ့ ပတ္သတ္တဲ့ စာအုပ္စာတမ္း မရွိတဲ့အတြက္ အီးဘြခ္ေတြ၊ သီးစစ္ေတြကို အင္တာနက္တခြင္မွာ ျပဲျပဲစင္ေအာင္ ရွာေဖြခဲ့ရတယ္။ ေဆာ့ဖ္ဝဲလ္ေပါင္း မ်ားစြာကို အပင္ပန္းခံ ေဒါင္းလုဒ္ခ်ျပီး ကိုယ့္ကြန္ပ်ူတာေလးထဲမွာ စမ္းသပ္ခဲ့ရတယ္။ ျပီးေတာ့ ဒါေတြကို လူျပိန္းနားလည္ေအာင္ ဘာသာျပန္ရျပန္တယ္။ တကဿကသိုလ္ေတြမွာ ဒီဟာအတြက္ သူတို့ လုပ္နိုင္တာေတြ၊ လုပ္သင့္တာေတြကို လိုက္လံ ပို့ခ်ခဲ့တယ္။ ဒီလို ပို့ခ်ရာမွာ သူတို့ နားလည္နိုင္ေစဖို့ ကိုယ္က သူတို့ က်ြမ္းက်င္တဲ့ ဘာသာရပ္ေတြကို တီးမိေခါက္မိေအာင္ ေလ့လာရျပန္တယ္။ ေတာှေတာှျကိုးစားပမ္းစား လုပ္ျပီး အရွိန္ရလာခ်ိန္မွာပဲ ဒီဟာက အေျကာင္းအမ်ိုးမ်ိုးေျကာင့္ ပ်က္သြားခဲ့တယ္။ က်ြန္ေတာှ စိတ္မေကာင္းဘူး။ က်ြန္ေတာှ့ အခ်ိန္ေတြ အမ်ားျကီး ကုန္သြားခဲ့ရတယ္။ ဒါေပမယ့္ က်ြန္ေတာှ ေက်နပ္မိပါတယ္။ ျမန္မာျပည္ရဲ့ ရွားရွားပါးပါး ခက္ခက္ခဲခဲ ပေရာဂ်တ္တစ္ခုမွာ ပါဝင္ခဲ့ရတာကို။ အဲဒီေနာက္ပိုင္း က်ြန္ေတာှ အဲဒါနဲ့ ပတ္သတ္တာေတြကို စိတ္နာစြာ ထိေတာင္ မထိေတာ့ပါဘူး။ ေလ့လာထားတာေတြလည္း ျကာေတာ့ ေမ့ကုန္ျပီ။ ဒါေပမယ့္ ဒါဟာ က်ြန္ေတာှတို့ဆီမွာ တစ္ေန့မဟုတ္ တစ္ေန့ အေကာင္အထည္ ေဖာှရမယ့္ အေရးျကီးကိစဿစ တစ္ခု ျဖစ္လာမွာပဲ။ အမ်ားထင္သေလာက္ လြယ္ကူတဲ့ ကိစဿစေတာ့ မဟုတ္ပါဘူး။ ဒါကေတာ့ အဂဿငလိပ္လို ေရးထားတဲ့စာေတြကို ျမန္မာလို အလိုအေလ်ာက္ ဘာသာျပန္ေပးနိုင္တဲ့ Machine Translation စနစ္ပဲ ျဖစ္ပါတယ္။ တကယ္လို့ ဒီစနစ္သာ အေကာင္အထည္ ေပါှလာခဲ့ရင္ သူတို့ဆီက ဘာသာရပ္ေတြ၊ ဝတဿထုေတြကို ျမန္မာေတြ အဂဿငလိပ္လို မတတ္ရင္ေတာင္ ျမန္မာလို လြယ္လြယ္ကူကူ ေလ့လာနိုင္လာမွာ အေသအခ်ာပဲ ျဖစ္ပါတယ္။ အဲဒီတုန္းက က်ြန္ေတာှ ေရးထားခဲ့ဖူးတဲ့ Article ေလးတစ္ခု ျပန္ေတြ့လို့ တင္လိုက္ပါတယ္။ ဒီဘာသာရပ္ကို စိတ္ဝင္စားတဲ့သူ စမ္းသပ္ခ်င္တဲ့သူ၊ လုပ္ကိုင္ေနတဲ့သူေတြရွိရင္ က်ြန္ေတာှက က်ြန္ေတာှစမ္းခဲ့ဖူးတဲ့ ေဆာ့ဝဲလ္ေတြအေျကာင္း နည္းလမ္းေတြအေျကာင္း အခက္အခဲေတြအေျကာင္း ေျပာျပေဝမ်ွခ်င္ပါေသးတယ္။ 




ကြန္ပ်ူတာစနစ္သံုး ဘာသာျပန္ျခင္း  (Machine Translation)



Machine Translation ဆိုသည္မွာ ကြန္ပ်ူတာ (သို့) စက္ကို အသံုးျပုျပီး ဘာသာစကား တစ္မ်ိုးမွ တစ္မ်ိုးသို့ အလိုအေလ်ာက္ ဘာသာျပန္ဆိုေစေသာ စနစ္ကို ဆိုလိုသည္။ 


သမိုင္းအက်ဉ္း

ထိုစနစ္မွာ အမွန္စစ္စစ္ ယခုမွ ေပါှေပါက္လာခဲ့ေသာ နည္းပညာ မဟုတ္ေခ်။ ကြန္ပ်ူတာ မေပါှေပါက္ခင္ ၁၉၄ရခုနွစ္ခန့္ ကတည္းကပင္ အေမရိကန္ နိုင္ငံက စက္ကို အသံုးျပုျပီး အလိုအေလ်ာက္ ဘာသာ ျပန္ဆိုနိုင္ေစေသာ စနစ္ကို စတင္ စဉ္းစား ခဲ့မိျကသည္။ ထို့ေနာက္ ၁၉၅၂ ခုနွစ္တြင္ ပထမဆံုးအျကိမ္ ထိုနည္းပညာနွင့္ ပတ္သတ္ေသာ ညီလာခံ ကို က်င္းပနိုင္ခဲ့ျကသည္။ ထိုမွစကာ ယင္းစနစ္သည္ လူတိုင္း၏ အထူး စိတ္ဝင္စားျခင္း ခံခဲ့ရေပသည္။ သို့ရာတြင္ လူတို့က ယင္းစနစ္ကို ေယဘုယ် ေတြးထင္ထား ျကသည္မွာ ခလုတ္တစ္ခ်က္ နွိပ္လိုက္ရံုမ်ွျဖင့္ ဘာသာစကား တစ္မ်ိုးမွ တစ္မ်ိုးသို့ လြယ္လင့္တကူ ေျပာင္းလဲေပးသြားနိုင္ကာ လူအေနျဖင့္ အားစိုက္စရာ မလိုေတာ့ ဟူ၍ ျဖစ္သည္။ ထိုယူဆခ်က္မွာ လြန္စြာ မွားယြင္းေသာ ေယဘုယ် ယူဆခ်က္မ်ိုးပင္ ျဖစ္ေပသည္။ အေမရိကန္တြင္ ပုဂဿဂလိက အဖြဲ့အစည္းမ်ား အာဏာပိုင္မ်ားက ထိုစနစ္ကို အေကာင္းမြန္ဆံုး ျဖစ္လာေစရန္ ပညာရွင္မ်ားအား သုေတသန အဖြဲ့အစည္းမ်ား ဖြဲ့စည္းေစကာ ရန္ပံုေငြမ်ား ေထာက္ပံ့ေပးျပီး စီမံကိန္း တစ္ရပ္ အေနျဖင့္ သုေတသန ျပုေစခဲ့ေသာှလည္း ၁၉၆၆ခုနွစ္ အထိေအာင္ပင္ ျပီးျပည့္စံုေသာ စနစ္ကို မဖန္တီးနိုင္ေသာေျကာင့္ ထိုစီမံကိန္းကို ရပ္တန့္ရန္ ဆံုးျဖတ္ခဲ့ျကသည္။ သို့ေသာှလည္း ယင္းလုပ္ငန္းမွာ ရပ္တန့္မသြားဘဲ ဆက္လက္ အေကာင္အထည္ေဖာှ ေဆာင္ရြက္လာခဲ့ျကရာ ၁၉၇၄ခုနွစ္တြင္ အေမရိကန္ ေလတပ္အတြင္း စစ္ထရန္ (Systran)ေခါှ ရုရွား-အဂဿငလိပ္ ကြန္ပ်ူတာ ဘာသာျပန္ စနစ္ကို တပ္ဆင္ အသံုးျပု နိုင္ခဲ့သည္။ ၁၉၇၆ ခုနွစ္တြင္ ကေနဒါနိုင္ငံတြင္း Meteroေခါှ ဘာသာျပန္စနစ္ျဖင့္ မိုးေလဝသတင္းမ်ားတြင္ စတင္ အသံုးျပုခဲ့ရာမွ  ယင္းစနစ္သည္ အမ်ားျပည္သူသံုး စနစ္တစ္ခုအျဖစ္ အသြင္ေျပာင္းလဲ လာခဲ့ျပီး European Commissionမွ ယင္းစနစ္ကို တရားဝင္ ဝယ္ယူကာ အျခားဘာသာမ်ားျဖင့္လည္း သံုးစြဲခဲ့သည္။ ပထမဆံုးေသာ ကြန္ပ်ူတာသံုး ဘာသာျပန္ ေဆာ့ဖ္ဝဲလ္မွာ ၁၉၈၁ ခုနွစ္တြင္ ေပါှေပါက္လာခဲ့ကာ တစ္ကိုယ္ေရသံုး ကြန္ပ်ူတာ မ်ားနွင့္အတူ ျပည္သူမ်ားျကားတြင္ ပိုမို ျပန့္နွံ့လာခဲ့သည္။ ထို့ေနာက္ ၁၉၈၀ ခုနွစ္ ေနာက္ပိုင္း တေလ်ာက္လံုးတြင္ကား ဂ်ပန္နိုင္ငံမွ ထိုစနစ္ကို အထူးေလ့လာ သုေတသနျပုျပီး စီးပြားျဖစ္ လုပ္ကိုင္လာသည္အထိ ေအာင္ျမင္လာသည္ကို ေတြ့ရေပသည္။ ယခုအခ်ိန္တြင္ေတာ့ ယင္းစနစ္မွာ အင္တာနက္ေပါှတြင္ အခမဲ့ ျဖန့္ျဖူးေပးနိုင္သည္ အထိပင္ က်ယ္ျပန့္လာခဲ့သည္။


ကြန္ပ်ူတာ စနစ္သံုး အေျခခံ ဘာသာျပန္ျခင္းစနစ္ (၂)မ်ိုး

ပထမ စနစ္မွာ ဘာသာျပန္ လုပ္ငန္းတစ္ခုလံုးကို အစမွအဆံုး တိုက္ရိုက္ ဘာသာျပန္ဆိုေစေသာ စနစ္ျဖစ္သည္။ ယင္းစနစ္မွာ စာေျကာင္း တစ္ေျကာင္းမွ တစ္ေျကာင္း၊ စာလံုး တစ္လံုးမွ တစ္လံုး စက္ကို တိုက္ရိုက္ ျပန္ဆိုေစျခင္းနည္း (Direct Translation) ျဖစ္သည္။ သို့ရာတြင္ ယင္းစနစ္၏ ရလာဒ္မွာ အဘိဓာန္ကို တိုက္ရိုက္ ကူးယူသလို ျဖစ္ေနေသာေျကာင့္ ထြက္ေပါှလာေသာ ဘာသာျပန္ ရလာဒ္မွာ ဆိုးရြားလွသည္။ ထို့ေျကာင့္ စာလံုးမ်ား၊ စာေျကာင္းမ်ား အစီအရင္ က်နေစရန္ တတ္က်ြမ္းသူ ဘာသာျပန္ လူတစ္ဦးဦးမွ ျပန္လည္ စီစဉ္ ေပးေနရမည္ ျဖစ္သည္။( မွတ္ခ်က္။ ေဖာှျပခဲ့ေသာ သမိုင္း အက်ဉ္းတြင္ အေမရိကန္တို့ ယင္းစနစ္အေပါှ အားေလ်ာ့ခဲ့ျကျခင္းမွာ အထက္ပါ တိုက္ရိုက္ ျပန္ဆိုျခင္း စနစ္ေျကာင့္ ျဖစ္နိုင္ေပသည္။)

ဒုတိယ စနစ္မွာလည္း လူအကူအညီ မယူဘဲ ကြန္ပ်ူတာျဖင့္သာ အစအဆံုး လုပ္ေဆာင္ေစျခင္း ျဖစ္သည္။ သို့ရာတြင္ ယင္းစနစ္မွာ အထက္ပါ ပထမစနစ္ကဲ့သို့ တိုက္ရိုက္ ျပန္ဆိုျခင္း နည္းျဖင့္ မဟုတ္ဘဲ ကြန္ပ်ူတာထဲတြင္ မွတ္ဉာဏ္စနစ္ ထည့္သြင္းေပးထားျပီး မည္သည့္စာလံုးကိုေတြ့လ်ွင္ မည္သို့ ျပန္ဆိုေစမည္၊ မည္သည့္ စာေျကာင္း အတြဲအဆက္ေတြ့လ်ွင္ မည္သို့ ျပန္ဆိုမည္ စေသာ စည္းမ်ဉ္းစည္းကမ္းမ်ားကို ကြန္ပ်ူတာသို့ သင္ျကားေပးကာ ဘာသာျပန္ေစျခင္း ျဖစ္သည္။ ယင္းစနစ္မွာ လက္ရွိေအာင္ျမင္ေနေသာ စနစ္ျဖစ္ေသာှလည္း ထိုစနစ္ကို အသံုးျပုနိုင္ရန္ နိုင္ငံတကာမွ ပညာရွင္မ်ား နွစ္ေပါင္းမ်ားစြာ သုေတသနျပု စူးစမ္းလုပ္ကိုင္ခဲ့ျကသည္ကို ျကည့္ျခင္းအားျဖင့္ အတန္ပင္ ရွုပ္ေထြး နက္နဲေသာ စနစ္တစ္ခု ျဖစ္သည္ကိုလည္း သတိျပုရန္ လိုအပ္ေပသည္။

အဆိုပါ စနစ္ကို အသံုးျပုသူ အတြက္မူ ကြန္ပ်ူတာအတြင္းဘက္ လုပ္ငန္းမ်ားကို ျမင္နိုင္မည္ မဟုတ္ဘဲ နားလည္မည္လည္း မဟုတ္ေခ်။ တိုက္ရိုက္ ျပန္ဆိုျခင္း စနစ္ကို အသံုးျပုျခင္းေလာ၊ စကားလံုးမ်ား၊ ဝါက်မ်ားကို ဆန္းစစ္ျပီး ေရြးခ်ယ္ ဘာသာျပန္ဆိုေသာ စနစ္ကို အသံုးျပုျခင္းေလာ စေသာ အခ်က္မ်ားကို သံုးသပ္မိမည္ မဟုတ္ဘဲ ဘာသာျပန္ ရလာဒ္အေပါှတြင္သာ အာရံုထားမည္ ျဖစ္ေပသည္။ သို့ရာတြင္ စက္ဘက္မွ လုပ္ေဆာင္နိုင္မွုမ်ားကို သိလ်ွင္မူ ပိုမိုေကာင္းမြန္ေသာ ဘာသာျပန္ ရလာဒ္မ်ားကို ရရွိနိုင္ေပမည္။



အေျခခံအားျဖင့္ Machine Translation နည္းပညာတြင္ လုပ္ေဆာင္ေသာ အေျခခံအပိုင္း ေလးခုရွိသည္။


Dissemination: The production of translations of ‘publishable’ quality.

အထက္ပါ အခ်က္မွာ တိတိက်က် ဘာသာျပန္ရလာဒ္ကို လိုအပ္ေသာ အခါမ်ိုးတြင္ ဘာသာျပန္စက္ခ်ည္း သက္သက္ မဟုတ္ဘဲ လူကိုပါ ထိုစနစ္ကို ထိန္းေက်ာင္းေစျခင္းမ်ိုး ျဖစ္သည္။ ယင္းတြင္ လူလိုက္ပါ ေဆာင္ရြက္ရမွု နွစ္မ်ိုး ရွိသည္။ ပထမတစ္မ်ိုးမွာ Pre-editing Input ေခါှ ဘာသာျပန္မည့္ စာသားမ်ားကို မထည့္သြင္းမီ စက္နားလည္ေအာင္ ျပုျပင္ျခင္း အဆင့္နွင့္ Post-editing Output ေခါှ ထြက္ေပါှလာေသာ ဘာသာျပန္ ရလာဒ္ကို ျပန္လည္ စီကံုးေပးျခင္းမ်ိုး ျဖစ္သည္။ 


Assimilation

ဤအခ်က္မွာမူ သံုးစြဲသူဘက္မွ တိက်ေသာ လံုးေစ့ပတ္ေစ့ ဘာသာျပန္ျခင္းမ်ိုးကို မလိုအပ္ဘဲ အျကမ္းဖ်င္း သိရံုသာ လံုေလာက္ေသာ အေျခအေနမ်ိုးအတြက္ သံုးေသာ စနစ္ျဖစ္သည္။ ယင္းဘာသာျပန္ျခင္း စနစ္တြင္ အဓိက ျပဌာန္းထားေသာ စကားလံုးမ်ားကိုသာ ေရြးခ်ယ္ျပီး ဆက္စပ္ ဘာသာျပန္ေပးျခင္း ျဖစ္သည္။ 


Interchange

ထိုလုပ္ေဆာင္မွုတြင္ စက္၏ဘာသာျပန္ျခင္းက ပို၍ တိုက္ရိုက္က်သလို ပိုျပီးလည္း ျပတ္သား ရွင္းလင္းသည္။ အဓိကအားျဖင့္ ယင္းစနစ္၏ လုပ္ငန္းစဉ္မွာ တစ္ေယာက္မွ တစ္ေယာက္သို့ တိုက္ရိုက္ေျပာဆိုျခင္း မဟုတ္ဘဲ သတင္း၊ အခ်က္အလက္ စသည္တို့ကို ေပးပို့ရာတြင္ ေပးပို့ေသာ သတင္း၊ အခ်က္အလက္ကိုသာ အဓိကထားျပီး ဘာသာျပန္ဆိုျခင္း ျဖစ္သည္။


Database Access

နိုင္ငံျခား ဘာသာစကား Database တစ္ခုကို ျပုလုပ္ထားေပးျပီး အဆိုပါ ဘာသာစကား အသံုးျပုထားေသာ နည္းပညာ၊ အခ်က္အလက္မ်ား ရွိပါက ထို Database ကိုအသံုးျပု ဘာသာျပန္ကာ ရွာေဖြျခင္းမ်ိုး ျဖစ္သည္။ ဥပမာအားျဖင့္ အင္တာနက္ေပါှတြင္ Google Translation ကဲ့သို့ေသာ Application မ်ားကို အသံုးျပုကာ အျခားဘာသာမ်ားျဖင့္ ေရးထားေသာ ဝဘ္ဆိုဒ္မ်ားသို့ပါ သြားေရာက္ ရွာေဖြျခင္းမ်ိုး ျဖစ္သည္။



အထက္ပါ လုပ္ငန္းစဉ္ ပံုစံတြင္ MT Engine နွင့္ တြဲဆက္ထားေသာ Sublanguage ဆိုသည္မွာ သီးျခား ဘာသာရပ္ အဘိဓာန္ Individual Lexicon တစ္ခုခုကို ဆိုလိုသည္။ ဥပမာအားျဖင့္ ေဆးပညာ ဘာသာရပ္ စကားလံုး အသံုးမ်ားသည္ စီးပြားေရး ဘာသာရပ္ စကားလံုးမ်ားနွင့္ မတူေပ။ စစ္ေရးတြင္သံုးေသာ စာလံုးမ်ားနွင့္ အင္ဂ်င္နီယာ ဘာသာရပ္တြင္သံုးေသာ စကားလံုး တို့သည္လည္း အဓိပဿပာယ္ မတူျကေပ။ ထို့ေျကာင့္ သက္ဆိုင္ရာ ဘာသာရပ္ အားလံုးအတြက္ သီးျခား အဓိပဿပာယ္ကြဲ Sublanguage (or) Specific Lexicon မ်ားထားေပးရမည္ ျဖစ္သည္။

Controlled Language ဆိုသည္မွာ စက္နားလည္ေအာင္ အျကိုျပုျပင္ထားေသာ စာသားမ်ား (Pre-edited Texts)ဟု အဓိပဿပာယ္ ယူ၍ရသည္။ စက္အေနျဖင့္ စာေျကာင္းတစ္ေျကာင္းကို ေတြ့ရွိစစ္ေဆးသည့္အခါ မည္သည့္ေနရာတြင္ ျဖတ္မည္၊ ရပ္မည္ စသည္ျဖင့္ စည္းကမ္း အားလံုးကို လုပ္ေဆာင္ရမည္ ဆိုလ်ွင္ လူကဲ့သို့ အသိဉာဏ္အစစ္ မရွိေသာေျကာင့္ ရွုပ္ေထြး မွားယြင္းမွုမ်ား ရွိလာနိုင္သည္။ အကယ္၍ လူကသာ ထိုစက္ထဲသို့ ထည့္သြင္းမည့္ စာသာမ်ားကို မည္သည့္ေနရာတြင္ ျဖတ္မည္၊ ရပ္မည္၊ တြဲဆက္မည္ စသည္တို့ကို အျကို သတ္မွတ္ ေပးလိုက္မည္ဆိုလ်ွင္ စက္အေနျဖင့္ ပိုမိုတိက်ေသာ၊ မွန္ကန္ေသာ ဘာသာျပန္ခ်က္ကို ထုတ္ေပးနိုင္မည္ ျဖစ္ေပသည္။ 

Post-Editing ဆိုသည္မွာ စက္က ဘာသာျပန္လိုက္ေသာ စာသားကို လူကလိုက္ပါ ျပုျပင္ေပးသည္ ဟူေသာ အဓိပဿပာယ္ထက္ ပိုမို က်ယ္ဝန္းသည္။ အထက္တြင္ ေဖာှျပခဲ့ေသာ စက္ျဖင့္ ဘာသာျပန္ျခင္း၏ လုပ္ငန္းစဉ္မ်ားကို နားလည္ သေဘာေပါက္မည္ဆိုလ်ွင္ ယင္း Post-Editing အခန္းကဏဿဍ၏ အေရးပါ အရာေရာက္မွုကို သိနိုင္ေပသည္။ ဘာသာျပန္မည့္ စာသားမ်ားသည္ Pre-Edited ျကိုျပီး သတ္မွတ္ ျပင္ဆင္ထားသည္ ျဖစ္ေစ၊ သို့မဟုတ္ Raw ကစင့္ကလ်ား ထည့္သြင္းထားသည္ ျဖစ္ေစ ယင္း PE အဆင့္တြင္ ျပန္လည္ စီစစ္ တည္းျဖတ္ေပးနိုင္သည္။ ထိုသို့ လုပ္ေဆာင္နိုင္ရန္အတြက္ ယင္းအဆင့္တြင္ Corpus ဟုေခါှေသာ စာသားဘဏ္၊ Lexicon ဟုေခါှေသာ စနစ္တက် ထည့္သြင္းထားသည့္ အဘိဓာန္စနစ္၊ စာသားမ်ားတြဲဆက္ပံု Grammar စနစ္မ်ားကို ထည့္သြင္းေပးထား ရေပမည္။ သို့မွသာ စက္မွ ပထမအဆင့္ Direct Translation နည္းျဖင့္ ျပန္ဆိုလိုက္ေသာ စာသားမ်ားကို ေနာက္ဆံုးအဆင့္တြင္ ေနရာအထားအသိုနွင့္ မွန္ကန္ေသာ ဘာသာျပန္ဆိုမွုျဖစ္ေအာင္ လုပ္ေဆာင္နိုင္မည္ ျဖစ္သည္။


Lexicon Database ၏ အထူးအေရးပါပံု

Lexicon Database ဆိုသည္မွာ သာမန္ျမင္ေနက် အဘိဓာန္ မဟုတ္ေပ။ အမွန္စင္စစ္ အဘိဓာန္သည္ Lexicon Database ၏ အစိတ္အပိုင္း တစ္ခုသာ ျဖစ္သည္။ သေဘာအားျဖင့္ ဖတ္ရွုသူမ်ား ျမင္ေနရေသာ အဘိဓာန္ပံုစံမွာ ၎တို့ မျမင္ရေသာ Lexicon Database မွအခ်က္အလက္မ်ားကို စနစ္တက် ဆြဲထုတ္ယူငင္ ျပန္လည္ စီစဉ္ထားျခင္းပင္ ျဖစ္သည္။

 
ရိုးရိုး အဘိဓာန္သည္ Root Base ဟုေခါှေသာ တည္ပုဒ္စကားလံုး တစ္လံုးေပါှတြင္ ဆက္စပ္ စကားလံုးမ်ားကို ထပ္ခါထပ္ခါ ေပါင္းထည့္ျပီး စာကို သိမ္းဆည္းသည္။ LD တြင္မူ Meaning Oriented ဟူေသာ စနစ္အရ စာလံုး တစ္ခုစီတိုင္းကို အခ်က္အလက္ တစ္ခုအေနျဖင့္ သိမ္းဆည္းထားေပးသည္။ အထက္ပါ ပံုတြင္ လက္်ာဘက္၌ ျမင္ရေသာ အဘိဓာန္ပံုစံ ရလဒ္မွာ ဘယ္ဘက္ျခမ္းရွိ စနစ္တက် သြင္းထားေသာ Lexicon Database ေျကာင့္ ျဖစ္သည္။  Machine Translation နည္းပညာတြင္ အထက္ပါ စနစ္က်တက် ေဆာက္လုပ္ထားေသာ Lexicon Database သည္ အထူးအေရးပါသည္။ ထို့ေျကာင့္ ပထမအဆင့္ အေနျဖင့္ အဘိဓာန္ထဲမွ စာသားမ်ားကို စနစ္တက် ကြန္ပ်ူတာ အသံုးျပုနိုင္ေသာ စနစ္အျဖစ္သို့ ျပန္လည္ ေျပာင္းလဲ သိမ္းဆည္း ရေပမည္။ ယင္းစနစ္မွာ လူသံုးနွင့္ စက္သံုးဟူ၍ နွစ္မ်ိုး ရွိနိုင္ေပမည္။ လူသံုး ဆိုသည္မွာ အဘိဓာန္မွ စာသားမ်ားကို တိုက္ရိုက္ သိမ္းဆည္းျပီး လူသံုးရန္ ရည္ရြယ္ထားေသာ ပံုစံနွင့္၊ ေနာက္တစ္မ်ိုးမွာ စက္ျဖင့္ဘာသာျပန္ျခင္း လုပ္ငန္း သက္သက္အတြက္ လိုရင္းတိုရွင္း အဓိကက်ေသာ စကားလံုး အနက္မ်ားကို စီစစ္ ထည့္သြင္းထားေသာ ပံုစံဟူ၍ ျဖစ္သည္။ 


Corpora (or) Corpus

Corpora (or) Corpus ဆိုသည္မွာ စာလံုး၊ စာေျကာင္းမ်ားစြာကို သိုမွီးထားေသာ ဘဏ္တိုက္တစ္ခုပင္ ျဖစ္သည္။ ယင္းအထဲတြင္ ေန့စဉ္သံုး၊ အရပ္သံုး စာမ်ားမွစျပီး ဘန္းစကားမ်ား၊ စာတမ္းမ်ား၊ ဝတဿထုမ်ား၊ မဂဿဂဇင္းမ်ား၊ ဝဘ္ဆိုဒ္မ်ားမွ စာမ်ားအထိ ပါဝင္သည္။ အကယ္၍ ထိုေဒတာေဘ့စ္ကို သက္ဆိုင္ရာ အခန္းကဏဿဍမ်ား ခြဲျခားျပီး သိမ္းဆည္းမည္ ဆိုပါက စက္အေနျဖင့္ ဘာသာျပန္မည့္စာကို လြယ္ကူ လ်ွင္ျမန္စြာ ရွာေဖြ ကိုးကား နိုင္ေပလိမ့္မည္။ ထိုေဒတာ တစ္ခုခ်င္းဆီကို တိတိက်က် ေျပာင္းလိုသည့္ ဘာသာရပ္သာမက၊ အျခားဘာသာရပ္ မ်ားနွင့္ပါ ယွဉ္တြဲျပီး သိမ္းဆည္းထားမည္ ဆိုလ်ွင္ Parallel Corpora သေဘာမ်ိုးျဖင့္ Bilingual သို့မဟုတ္ Multi lingual ဘာသာျပန္ျခင္းမ်ိုးပါ ေဆာင္ရြက္နိုင္မည္ဟု ယူဆမိပါသည္။ ယင္း Corpus ထဲတြင္ သက္ဆိုင္ရာ အခန္းကဏဿဍမ်ားကို ခြဲျခားမည္ဆိုလ်ွင္ (Subcorpus) မ်ားအေနျဖင့္ 

  • Medicine, 
  • Religion, 
  • Business
  • Huminities
  • Computing
  • Science
  • Law
  • Society
  • Sport
  • Arts
  • Technology
  • News
  • Fictions
  • Etc:

စသည္ျဖင့္ သီးျခား အခန္းကဏဿဍမ်ား ပါဝင္လာေပလိမ့္မည္။ ယင္းသီးျခား အခန္းမ်ားထဲတြင္မွ ထပ္မံျပီး အေသးစိတ္ ကဏဿဍငယ္ေလးမ်ား ထပ္မံ ခြဲစိတ္၍ ရနိုင္ေပေသးသည္။ ဥပမာအားျဖင့္ အနုပညာဟူေသာ ေခါင္းစဉ္ေအာက္တြင္ ပန္းဆယ္မ်ိုး အတြက္ အသံုးအနွုန္းမ်ားမွာ တစ္ခုနွင့္တစ္ခု မတူေသာေျကာင့္ ျဖစ္သည္။ ျမန္မာျပည္တြင္ အထက္ပါ လုပ္ငန္းမ်ားကို လုပ္ေဆာင္ေနသည္ဟု သတင္းစကားမ်ားအရ ျကားသိရေသာှလည္း သံုးစြဲစမ္းသပ္ျခင္း မျပုရေသးသည့္အတြက္ မည္သည့္နည္းလမ္းျဖင့္ တည္ေဆာက္ထားသည္၊ မည္သည့္ စနစ္ျဖင့္ လည္ပတ္ေနသည္ မိမိတို့ အသံုးျပုမည့္ စနစ္နွင့္ သင့္ေလ်ာှမည္စေသာ အခ်က္မ်ားကို အတည္မျပု နိုင္ေသးပါ။ အဂဿငလိပ္-ျမန္မာ ဘာသာရပ္ဆိုင္ရာ အဘိဓာန္မ်ားမွာလည္း ျပည့္စံုမွု မရွိေသးေျကာင္း ေတြ့ရွိရပါသည္။ ယင္းသို့ အခ်က္အလက္ မ်ားမ်ားစားစားကို ကြန္ပ်ူတာကို သင္ျကားရန္ တိတိက်က် မထည့္သြင္း နိုင္ေသးသေရြ့ ဘာသာျပန္မွု စြမ္းအားမွာ ေကာင္းမြန္လာနိုင္စြမ္း မရွိဟု ျမင္မိပါသည္။


ဘာသာရပ္ဆိုင္ရာ အေျကာင္းအရာတစ္ခုကို ဘာသာျပန္မည္ ဆိုပါက သက္ဆိုင္ရာ ဘာသာရပ္နွင့္ ဆိုင္ေသာ Tabs ေလးမ်ားကို နွိပ္ေပးျခင္းျဖင့္ ပိုမိုတိက်ေသာ ဘာသာျပန္ခ်က္ကို ရရွိနိုင္ပါလိမ့္မည္။ ဥပမာ အားျဖင့္ ေယဘုယ် အေျခအေနတြင္ Capital ဆိုေသာ စာလံုးသည္ ျမို့ေတာှကို ရည္ညြွန္းေသာှလည္း၊ စီးပြားေရး ပညာရပ္တြင္မူ အရင္းအနွီး ကဲ့သို့ေသာ အဓိပဿပာယ္မ်ိုးကို ေပးေပလိမ့္မည္။

MT ကိုလုပ္ေဆာင္ရာတြင္ Approach Method အေနျဖင့္ ေအာက္ပါအတိုင္း ေလးမ်ိုးခန့္ ေတြ့ရသည္။ 


Dictionary Based

Machine translation can use a method based on dictionary entries, which means that the words will be translated as a dictionary does — word by word, usually without much correlation of meaning between them.


Statistical Approach

Statistical machine translation tries to generate translations using statistical methods based on bilingual text corpora, such as the Canadian Hansard corpus, the English-French record of the Canadian parliament and EUROPARL, the record of the European Parliament. Where such corpora are available, impressive results can be achieved translating texts of a similar kind, but such corpora are still very rare. The first statistical machine translation software was CANDIDE from IBM. Google used SYSTRAN for several years, but has switched to a statistical translation method in October 2007. Recently, they improved their translation capabilities by inputting approximately 200 billion words from United Nations materials to train their system. Accuracy of the translation has improved.


Example- Based

Example-based machine translation (EBMT) approach is often characterised by its use of a bilingual corpus as its main knowledge base, at run-time. It is essentially a translation by analogy and can be viewed as an implementation of case-based reasoning approach of machine learning.


Interlingual


Interlingual machine translation is one instance of rule-based machine-translation approaches. In this approach, the source language, i.e. the text to be translated, is transformed into an interlingual, i.e. source-/target-language-independent representation. The target language is then generated out of the interlingua.


ဘာသာျပန္သူ တစ္ဦးဟာ အနည္းဆံုး ေအာက္က အေျခခံအခ်က္ ငါးခ်က္ကို က်ြမ္းက်င္ရပါမယ္။

  • မူရင္းဘာသာရပ္ကို သိရမယ္ (Source Language)
  • ဘာသာျပန္မယ့္ ဘာသာရပ္ကို သိရမယ္ (Target Language)
  • အဲဒီနွစ္ခုရဲ့ အျပန္ျပန္ အလွန္လွန္ ဆက္နြယ္ပံုေတြ၊ သေဘာတရားေတြကို သိရမယ္
  • ကိုယ္ဘာသာျပန္မယ့္ အေျကာင္းအရာ အေျကာင္းကို သိရမယ္
  • မူရင္းနဲ့ ဘာသာျပန္ နွစ္ခုစလံုးနဲ့ ဆက္နြယ္တဲ့ ယဉ္ေက်းမွုေတြ၊ လူမွုေရး၊ စီးပြားေရး၊ ထံုးတမ္းစဉ္လာ စတာေတြကို သိရမယ္


ဘာသာစကား ပညာရွင္ တစ္ဦး အေနနဲ့ဆိုရင္

  • စကားသံ ဖြဲ့စည္းပံု၊ ျဖစ္ေပါှပံုေတြကို သိရမယ္ (Phonological Knowledge)
  • စာလံုးဖြဲ့စည္းပံု၊ ပုဒ္ဖြဲ့စည္းပံု စတာေတြကို သိရမယ္ (Morphological Knowledge)
  • စာေျကာင္းဖြဲ့စည္းပံုေတြကို သိရမယ္ (Syntactic Knowledge)
  • စာလံုးတစ္လံုး၊ စာေျကာင္းတစ္ေျကာင္း၊ စာပိုဒ္တစ္ပိုဒ္ရဲ့ ဆိုလိုရင္းေတြကို သိရမယ္ (Semantic Knowledge)



No response to “Myanmar Machine Translation”

 
© 2009 NYI LYNN SECK 18+ DEN. All Rights Reserved | Powered by Blogger
Design by psdvibe | Bloggerized By LawnyDesignz