Thursday, September 13, 2007

Myanmar OCR

က်ြန္ေတာှ ခုတေလာ အလုပ္ေတာှေတာှ ရွုပ္ပါတယ္။ အရွုပ္ေတြ လုပ္ေနမိတာ ဆိုရင္ ပိုမွန္မယ္။ အဓိကကေတာ့ စကန္ဖတ္ထားတဲ့ ရုပ္ပံုေတြကို စာသားျပန္ေဖာှ ေနတာေပါ့ဗ်ာ။ အလုပ္မရွိ အလုပ္ရွာ အားအားယားယား ေလ်ွာက္လုပ္ေနတယ္ ေျပာရင္လည္း ခံရမွာပါပဲ။ က်ြန္ေတာှ့အတြက္ ဘာအက်ိုးရွိလဲ ဆိုရင္ ဘာမွကို အက်ိုးမရွိပါဘူး။ အခ်ိန္ကုန္တယ္၊ မ်က္စိကိုက္တယ္၊ ေခါင္းေျခာက္တယ္၊ အိမ္နဲ့ အျငင္းပြားရတယ္။ ေျပာျပလည္း ေျပာျပတာပဲရွိတယ္။ သူတို့အျမင္မွာ က်ြန္ေတာှ ပိုက္ဆံျဖုန္းတီးေရးသမား ျဖစ္ေနမွာေပါ့။ ဟုတ္ေတာ့လည္း ဟုတ္တယ္။ သူတို့ပိုက္ဆံ က်ြန္ေတာှ ထိုင္သံုးေနတာ ေတာှေတာှမ်ားျပီ။ သူတို့ေျပာတာက လုပ္ခ်င္တာ လုပ္နိုင္ဖို့ရာ လုပ္သင့္တာကို အရင္လုပ္ပါတဲ့။ ဒါလည္း ဟုတ္တာပဲ။ ဒါေပမယ့္ ဒီေခတ္ျကီးထဲမွာ ပိုက္ဆံ ေလာက္ေလာက္ငွငွ ရဖို့ရာ သမဿမာအာဇီဝ ဘယ္အလုပ္ကို ဘယ္ေလာက္ျကာေအာင္ လုပ္ရမလဲ။ ၁ဝနွစ္ေလာက္ လုပ္ရင္ေတာင္ က်ြန္ေတာှ့အသက္က ေတာှေတာှျကီးသြားျပီ။ ကိုယ္စူးစူးစိုက္စိုက္ လုပ္ေနတဲ့ အရာတစ္ခုအတြက္ အခ်ိန္ကို အျခားတစ္ခုအတြက္ ေပးလိုက္ရမယ္ဆိုရင္ အားေလ်ာ့သြားမွာပဲ။ ဒီေတာ့ ပိုက္ဆံလိုခ်င္တယ္၊ လိုအပ္တာ ဝယ္ယူဖို့ ပိုက္ဆံရွိမွျဖစ္မယ္၊ ဒါေပမယ့္ ပိုက္ဆံရွာဖို့ အခ်ိန္မေပးနိုင္ဘူး။ ထားပါေတာ့။

ရုပ္ပံုေတြကို စာသားအျဖစ္ ေျပာင္းတာ လြယ္လြယ္ေလးပါလို့ ထင္သူေတြ ရွိလိမ့္မယ္။ Acrobat8 နဲ့သာထုတ္လိုက္ တစ္မိနစ္ပဲလို့ ဆိုျကမယ္။ အိုေက က်ြန္ေတာှေျပာျပဦးမယ္။ အသိဉာဏ္မရွိတဲ့ ကြန္ပ်ူတာ တစ္လံုးဟာ ရုပ္ပံုတစ္ခုကို ျမင္တာနဲ့ ဒါဟာစာလံုး ဒါဟာရုပ္ပံုဆိုျပီး ခြဲျခားသိဖို့ဆိုတာ ေတာှေတာှ ခက္တယ္။ ဒါေျကာင့္ သူ့ကို ပရိုဂရမ္ေတြ ထည့္သြင္းျပီး သင္ျကားေပးရတယ္။ ဒီလိုသင္ျကားရာမွာ အလြန္တရာ လြယ္ကူတဲ့ အဂဿငလိပ္စာလို စာမ်ိုးမွာေတာင္ ကြန္ပ်ူတာက အတိအက် သိဖို့ဆိုတာ ေတာှေတာှခက္ခဲပါတယ္။ ဒါေပမယ့္ သင္ပါမ်ားေတာ့တတ္ ဆိုသလို အခါခါ သင္ျကားေပးတဲ့အခါ ေနာက္ဆံုး ကြန္ပ်ူတာက တတ္သြားတယ္။ ဒါေပမယ့္ ဒီေန့အထိ 100% မွန္ေအာင္သိတဲ့ ေဆာ့ဖ္ဝဲဆိုတာ မေပါှေသးဘူး။ 98-99% ေလာက္ေတာ့ မွန္ေနျပီ။ စာလံုးေရ တစ္ရာမွာ တစ္လံုး နွစ္လံုးေလာက္ေတာ့ မွားေသးတယ္ဆိုတဲ့ သေဘာပါပဲ။ တကယ္လို့မ်ား စာလံုးေရ တစ္သိန္းဆိုရင္ အမွားက အလံုးတစ္ေထာင္ ဒါမွမဟုတ္ နွစ္ေထာင္ ရွိေနတယ္လို့ တြက္ရပါမယ္။ စာမ်က္နွာ ၃ဝဆိုရင္ စာလံုးေရက ငါးေသာင္းေလာက္ ေအာက္ထစ္ ရွိပါတယ္။ ဒါေျကာင့္ အမွား ငါးရာေလာက္ ထြက္လာပါတယ္။ ဒီလိုမွားရာမွာ မူရင္း စာလံုးေပါင္းအမွား ရွိသလို၊ စာကို စကန္ဖတ္၊ ဓာတ္ပံုရိုက္စဉ္က အားနည္းခ်က္ေျကာင့္ မပီမသတာမ်ိုး၊ မူရင္းစာသားေတြ ဖတ္မရေအာင္ ပ်က္ေနတာမ်ိုးေတြလည္း ရွိပါတယ္။ ဒါကို ကြန္ပ်ူတာက မွန္သလား မွားသလား ေသခ်ာ မသိပါဘူး။ လူက လိုက္ျပင္ေပးရပါတယ္။

ဒီလိုျပင္တာ လြယ္တယ္လို့ မထင္ပါနဲ့။ ဥပမာ ဘာသာေရးနဲ့ ပတ္သတ္တဲ့ စာေတြကို အမွားျပင္မယ္ ဆိုပါေတာ့။ ျပင္ရမယ့္ စာကလည္း မပီဝိုးတဝါးနဲ့မို့ မူရင္းစာလံုး ဘာျဖစ္မယ္ဆိုတာ မေသခ်ာတဲ့ အေနအထားမ်ိုး ျဖစ္ေနတယ္ ဆိုပါစို့။ အဲဒီစာလံုးေနရာမွာ အစားထိုး ျဖည့္နိုင္ဖို့ ဘာသာေရးနဲ့ ပတ္သတ္တဲ့ စာလံုးေတြ၊ အသံုးအနွုန္းေတြကို မျဖစ္မေန သိထားဖို့ လိုလာပါျပီ။ ကိုယ္သာ ေလ့လာမထားရင္ ဒီေနရာမွာ မလိုက္ဘက္ မညီညြတ္တဲ့ စာလံုးေတြ ထည့္မိသြားပါလိမ့္မယ္။ ဒီလိုနဲ့ အားလံုး ျပင္ျပီးသြားတဲ့အခါ အဲဒီစာေတြအားလံုးကို အစကေနျပန္ျပီး သဒဿဒါစစ္ရပါတယ္။ အဂဿငလိပ္ေတြ ေရးတိုင္းလည္း သဒဿဒါမွန္တယ္၊ စာလံုးေပါင္း မွန္တယ္လို့ မထင္ပါနဲ့။ ေနာက္တစ္ခုက ကြန္ပ်ူတာက ပထမ စစ္ေဆးခ်ိန္မွာ သူ့အလိုအေလ်ာက္ မွတ္ခ်င္ရာ မွတ္လိုက္ျပီး အမွားအျဖစ္ မေဖာှျပတဲ့ စာလံုးေတြ ရွိေသးတယ္။ ဥပမာ မူရင္းစာလံုး Eရဲ့ေဘးမွာ အေျကာင္းအမ်ိုးမ်ိုးေျကာင့္ ေဒါင္လိုက္ ျခစ္ရာတစ္ခုက ထိကပ္ေနတယ္ဆိုပါေတာ့။ အဲဒီစာလံုးကို ကြန္ပ်ူတာက Bလို့ သတ္မွတ္လိုက္ပါတယ္။ အဲဒီလိုမ်ိုး အမွားေတြကိုလည္း ဒီအဆင့္မွာ ျပန္စစ္ေပးရပါတယ္။ သိသာထင္ရွားတဲ့ စာလံုးေပါင္း အမွားေတြ၊ သဒဿဒါအမွားေတြကိုေတာ့ ကြန္ပ်ူတာ အကူအညီနဲ့ ရွာေဖြ ျပင္ဆင္ ရပါတယ္။ အခ်ို့စာလံုးေတြကိုေတာ့ ေခတ္သစ္ အဘိဓာန္အရ မွားေနေပမယ့္ ေခတ္ေဟာင္းအသံုးမို့ မွားေသာှလည္း မျပင္ပါဘူး။ ဒီအတိုင္းထားရတယ္။ ဒီလို ေျပာင္းလဲရာမွာ စာသားေတြျကားထဲ ရုပ္ပံုေတြ ပါလာရင္ ပိုရွုပ္ပါတယ္။ တိက်တဲ့ ရုပ္ပံု ရခ်င္ရင္ လူက လိုက္သတ္မွတ္ေပးရျပန္ပါတယ္။

Acrobat 8 Professional မွာ OCR ဆိုတဲ့ Optical Character Recognition ဆိုတဲ့ စနစ္ပါပါတယ္။ ေတာှေတာှေလးလဲ လုပ္နိုင္ပါတယ္။ ဒါေပမယ့္ အားနည္းခ်က္ေတြ အမ်ားျကီး ရွိေနပါေသးတယ္။ ဒီလို ရုပ္ပံုေတြကို စာသားအျဖစ္ ေျပာင္းေပးနိုင္တဲ့ ပရိုဂရမ္ေတြဟာ ေဒါှလာ သံုးေလးရာကေန နွစ္ေထာင္သံုးေထာင္အထိ ရွိပါတယ္။ အဲဒီ ေဆာ့ဖ္ဝဲလ္ေတြကသာ ပေရာှဖတ္ရွင္နယ္အဆင့္ စစ္ေဆးတည္းျဖတ္မွု လုပ္နိုင္ပါတယ္။ Acrobat ကေတာ့ မူလတန္း အဆင့္ေလာက္ပဲ ရွိပါေသးတယ္။

ေနာင္တစ္ခ်ိန္ ျမန္မာစာကို ဒီလိုနားလည္နိုင္တဲ့ ပရိုဂရမ္ေတြ ေပါှေပါက္လာလို့ရွိရင္ အက်ိုးေက်းဇူး အမ်ားျကီး ရွိလာပါလိမ့္မယ္။ အခုေလာေလာဆယ္မွာေတာ့ ဒီအိုစီအာရဲ့ အက်ိုးသက္ေရာက္မွုကို နားလည္တဲ့သူ ေတာှေတာှ နည္းပါးေနေသးတယ္။ ျမန္မာစာကို အဲဒီလို နားလည္နိုင္ဖို့ ကြန္ပ်ူတာကို ေလ့က်င့္ေပးဖို့ရာ စကားလံုးေတြ ကေတာ့ တည္ေဆာက္ျပီးသြားျပီ။ ဒီစာလံုးေတြကို ေလ့က်င့္ေပးနိုင္တဲ့ နည္းပညာနဲ့ ပရိုဂရမ္ေတြ ရွိခဲ့ရင္ေတာ့ ျမန္ျမန္ ျပီးသြားနိုင္ပါတယ္။ က်ြန္ေတာှသာ အသက္ ၂ဝအရြယ္ေလာက္က အဲဒါေတြကို သိခဲ့ရင္ ေလ့လာလိုက္စား ခဲ့မိမွာပဲ။ အခုေတာ့ အသိဉာဏ္ ကင္းမဲ့ရာ ကာလထဲမွာ က်ြန္ေတာှ့ရဲ့ျမင္းဟာ အေတာင္မေပါက္နိုင္ခဲ့ဘူး။ လမ္းေလ်ွာက္ေနရဆဲပဲ။ ကဲပါေလ ဒါေတြဟာ ဘာအက်ိုး ရွိလဲလို့ ေတြးမိျကမယ္။ အမ်ားျကီး ရွိတာေပါ့ဗ်ာ။ ဒါေတြဟာ Searchable Database ျကီးတစ္ခု တည္ေဆာက္နိုင္တယ္။ လူျပိန္းကေနစျပီး Scholar ေတြအတြက္ အမ်ားျကီး အက်ိုးရွိတာကို သံုးျကည့္ျကရင္ သိလာပါလိမ့္မယ္။ ျမန္မာ အိုစီအာစနစ္ ျမန္ျမန္ ေပါှလာပါေစလို့ ဆုေတာင္းေနမိတယ္။ ေလာေလာဆယ္ေတာ့ အဂဿငလိပ္လို ေရးထားတဲ့ ျမန္မာနိုင္ငံ သုေတသန အသင္းက ဂ်ာနယ္ေတြကို ျပန္ေျပာင္းတာ ေတာှေတာှ ျပီးသြားျပီ။ UCL အတြက္လည္း လုပ္ေပးေနတယ္။

No response to “Myanmar OCR”

 
© 2009 NYI LYNN SECK 18+ DEN. All Rights Reserved | Powered by Blogger
Design by psdvibe | Bloggerized By LawnyDesignz