|
 |
|
       |
|
      |
|
|




|
| |
|
 |
| |
 |
| |
உன் கோடு, என் கோடு என்று
போட்டியிட்டு பல 'கோடு'(கள்) தாண்டி
இப்போது "யுனிகோடி"ற்கு வந்திருக்கிறோம். ஏற்கெனவே இருப்பது
போதாதென்று இது வேறா என்று நம்மில் பலர் எண்ணக்கூடும். இன்று நாம்
சந்தித்து வரும் பெரும் சிக்கல், எந்த குறியீட்டு முறையை இணையத் தளங்கள்
அமைப்பதற்கும் மின்னஞ்சல் பரிமாற்றங்களைச் செய்வதற்கும் கையாள்வது
என்பதுதான். இணையப் பக்கம் எழுதுவோர் அவரவர் பயன்படுத்தும் விதத்தில் தாம்
கண்ட வசதிகளின் அடிப்படையில் குறிப்பிட்ட குறியீட்டைச் சிறந்தது என்று
வாதிப்பர். மேலும் முன்பே சில அறியப்பட்ட குறியீட்டுத் தரங்கள்
புழக்கத்தில் இருந்தாலும் சில மின்னிதழ்கள் தேவையில்லாமல் ஒழுங்கற்ற
குறியீடுகளை பயன்படுத்துகின்றன. எனவே பெயருக்கு ஆக்கங்கள் மின் வடிவில்
இருந்தும் அவ்வாக்கங்கள் பயனுள்ளவையாயிருந்தால்கூட பிறருடன்
பரிமாறிக்கொள்ளவோ அல்லது தொகுத்து வைக்கவோ இயலுவதில்லை. தமிழில்
மின் பதிப்புக்கள் போதிய அளவில் இல்லாத நிலையில் இம்மாதிரியான
குழறுபடிகள் வேறு.
Unicode - முதலில் அதன் பெயரே அதன் அடிப்படையை உணர்த்துவதாக
அமைந்துள்ளது. UNI(que)CODE -
ஓர் அலாதியான தனி குறியீட்டு முறை.
(Universal coding
என்று எடுத்துக் கொண்டாலும் தப்பில்லைதான்!).
இதைப் பற்றி நம்மிடையே இப்போதுதான் கவனம் திரும்பியிருந்தாலும் மற்ற
மொழி எழுத்துருக்கள் முன்பே புழக்கதில் இருக்கின்றன. இந்த யுனிகோடு
எழுத்துக் குறியீட்டிற்குச் சொந்தக் காரர்கள் யார்? Unicode Consortium
எனப்படும் ஓர் அமைப்புத்தான். இந்த அமைப்பால் உலகில் எழுத்து வழக்கில் உள்ள
மொழிகள் எல்லாவற்றிற்கும் எழுத்துரு குறியீடுகள் வரையறுக்கப் பட்டுள்ளன.
நம்
தமிழ் மொழிக்கும் அவ்வாறான வரையரை செய்யப் பட்டுள்ளது. மேலும்
குறியீட்டுப் பகுதியில் போதுமான இடமும் ஒதுக்கப் பட்டுள்ளது. இந்த
யுனிகோடு முறையைப் பாவிப்பதால் கிட்டும் மற்றுமோர் அனுகூலம் என்னவென்றால்
பன்மொழி உள்ளடக்கிய ஒரே எழுத்துருவை
(font) பாவிக்க உதவுவது. இன்று
நம்மிடையே இருக்கும் TAB, TSCII
குறியீட்டு முறைகள் இரண்டு
மொழிகளை (ஆங்கிலம், தமிழ்) மட்டுமே உள்ளடக்கக் கூடியன. ஆனால்
யுனிகோடு முறையில் எல்லா மொழி எழுத்துக்களும் ஒரே வகையில் வரையறுக்கப்
பட்டிருப்பதால் அத்துனை மொழிகளின் எழுத்துகளையும் ஒரே எழுதுரு
கோப்பில் (font file) அடக்கிவிடலாம். இது பல மொழிகளை ஒரே
நேரத்தில் கையாளுவோருக்கு பெரிதும் உதவும்.
சாதரண பயனரைப் பொறுத்தவரையில் முரசு அஞ்சல் அல்லது எகலப்பை
போன்றவற்றைப் பயன்படுத்தி யுனிகோடில் தட்டச்சு செய்யும்போது
மேலோட்டமாக எந்த வித்தியாசத்தையும் அறியப் போவதில்லை. ஆனால்
யுனிகோட் குறியீடு முறையும் அதன் முழு இயங்கு முறையும் அலாதியானது.
ஒவ்வொரு எழுத்தும், குறியும் அதற்குரிய யுனிகோட் எண்ணைப் பெற்றிருக்கும்.
எடுத்துக்காட்டாக 'ர்' எனப்படுவதில் "ர" வுக்கு ஒரு குறியீட்டு எண்ணும்
அதன்
மேலுள்ள புள்ளிக்கு ஒரு குறியீட்டு எண்ணுமாக இருக்கும். "க்" என்பது "க"
என்ற
உயிர்மெய்யும் மேலே குறிப்பிட்ட புள்ளியும் சேர்ந்ததாகும். இதை வேறு
வகையில் சொல்லப் போனால் நாம் கையால் எழுதும்போது எவ்விதமாக
எழுதுவோமோ அம்முறையில்தான் யுனிகோடு அமைப்பும் இருக்கிறது. "த்" என்ற
மெய் எழுத்தை எழுத "த" என்ற உயிர்மெய்யெழுத்தை எழுதி அதன்மேல் ஒரு
புள்ளியை வைக்கிறோமல்லவா அதே மாதிரி. அதைப் போலவே எல்லா
எழுத்துக்களின் இகர, ஈகார, உகர, ஊகார
வடிவங்குக்கு
அவைகளுக்குரிய யுனிகோடு குறீடுகளை இட வேண்டும். சரி, "கு"வை நாம்
என்று
எழுவதிலேயே? ஆனால் யுனிகோடு பக்கங்களில் "கு" என்றே
சரியாகக் காண முடிகிறதே? ஆம், எப்படி சரியாக காட்ட வேண்டும் விபரப்
பட்டியல் அந்த எழுத்துரு கோப்பிலேயே அடங்கி இருக்கிறது. மேலும்
அப்பட்டியலில் உள்ளபடி சரியாக எழுத்துகளைக் காட்ட உதவும் ஒரு சிறப்புக்
கோப்பு (unicode script processor -
usp10.dll) உங்கள்
கணினியிலும் இருக்கிறது. உங்களில் யாரேனும் யுனிகோடு பக்கங்களை
சரியாக இல்லாமல் மேலே கண்டதுபோல் குழறுபடியாக ("கு" வை
ஆக)
காண நேர்தால் ups10.dll பழுதடைந்திருக்கலாம் (அல்லது இல்லாதிருக்கலாம்).
(மேலதிக விபரங்களுக்கு
இங்கே அழுத்துங்கள்)
அதுவும் இல்லயென்றால் அந்தப் பக்கங்களில் கையாளப்பட்டிருக்கும் யுனிகோடு
எழுத்துருவில் மேற்கண்ட விபரப் பட்டியல் இல்லாதிருக்கலாம்.
Open type font என்ற முறை எழுத்துருவில் கையாளப்பட்டவுடன் இந்த
வித்தைகளைச் செய்வது எளிதாகிறது. எழுத்துரு உலகில் முன்னோடியான அடோப்
நிறுவனமும் மைக்ரோசாப்ட் நிறுவனமும் கூடி ஒத்துக்கொண்ட முறைதான் இது. நம்
தமிழாவது பரவாயில்லை. அரபு, மற்றும் வட இந்தியாவில் பேசப் படும் பல
மொழிகளில் எழுதும்போது ஏற்படும் வேறுபாடுகள் மிக அதிகம். ஒரே எழுத்து
சொல்லின் தொடக்கதில் ஒரு விதமாகவும் நடுவில் ஒரு விதமாகவும்,
சொல்லின் இறுதியில் வேறு விதமாகவும் இருக்கும். நாம் ஓர் எழுத்திற்கு ஒரு
குறியீடுதான் என்றறிவோம். மூன்று வெவ்வேறான வடிவங்களை இடத்திற்கு
தக்கவாறு எப்படி தானாகவே அமைத்துக் கொள்ளச் செய்வது? இந்தச் சிக்கலுக்கு
தீர்வளித்து திரையில் சரியான எழுத்துக்களை காண வைப்பதுதான் இந்த முறை.
இறுதியாக யுனிகோடினால் என்ன பயன் என்று தெரிய வேண்டுமல்லவா?
முதலாவதாக, தமிழுக்கென்று தனி இடம். இதுவரை கையாளப்படும் TAM, TAB,
TSCII போன்ற குறியீடுகள் மற்ற வேற்று
மொழி எழுத்துருக்களில் இருக்கும்
வடிவங்களை களைந்து விட்டு தமிழ் வரி வடிவங்களை உட்கொண்டதாக
இருக்கின்றன. 256 கட்டங்களில்தான் விளையாட்டை வைத்துக் கொள்ள முடியும்.
அதில் ஒரு குறியீட்டு முறை "அ" வை 140 வது கட்டத்தில் புகுத்தியிருந்தால்
வேறொரு குறியீட்டு முறை "ன" வை புகுத்தி இருக்கும். ஆனால் யுனிகோடில்
அப்படி இல்லை. எண் 2946 இலிருந்து எண் 3071 (0B80 - 0BFF Hex)
வரை தமிழுக்காக மட்டும்தான். நீங்களோ அல்லது ஓர் ஆப்பிரிக்காக்காரனோ
அல்லது ஒரு சீனாக்காரனோ 2949 என்ற எண்ணை யுனிகோடில் எழுதினால் அது
தமிழ் "அ" தான். இவ்வாறாக ஒரே குறியீடு மட்டும் உலகெங்கும் பாவிக்கப்
பட்டால் செய்தி பரிமாற்றத்தில் குழப்பமேற்பட வழியில்லை. தேடு
தளங்களில் தமிழில் தேடும்போது என்ன தேடுகிறீர்களோ அது சரியாகக்
கிடைக்கும்.
யுனிகோடு எல்லா இடங்களிலும் இப்போது இல்லாவிட்டாலும் இனி அதுதான்
எதிர்காலம். win95
வைத்திருப்போர் யுனிகோடில் காண இயலாது என்றாலும்
அது முடிந்துவிட்ட கதை. குறைந்த பட்சம்
Win98 இல் யுனிகோடு இணையத்
தளங்களைப் பார்க்க இயலும். இப்பொழுது
XP
ஆட்கொண்டு இருப்பதால் இணையத்
தளங்களை மெல்ல யுனிகோடிற்கு மாற்றுவது உத்தமம். சில உலாவிகள், இயக்கு
தளங்கள் ஆகியவற்றில் சிக்கல்கள் இருப்பது உண்மைதான் என்றாலும் இது
உலகலாவியது என்பதால் விரைவில் சிக்கல் தீர்ந்தே ஆக வேண்டும்.
மைக்ரோசாப்ட் "லதா" என்ற யுனிகோடு
எழுத்துருவை மட்டுமே தருகிறது. என்றாலும் புழக்கத்திலிருக்கும்
எழுத்துருக்களுக்குள்ளும் யுனிகோடு குறியீடுகளை உட்புகுத்த முடியும்.
அந்தந்த
எழுத்துரு தயாரிப்பளர்களை அனுகினால் செய்து கொடுப்பார்கள். அந்தவகையில்
முரசு எழுத்துருக்கள் யுனிகோடு குறியீடுகளுடன் வருகின்றன. (TSCu....
என்பதில் u என்பது யுனிகோடு உள்ளடக்கியது என்பதைக்
குறிக்கிறது).
கணினியுலகில் 'யாதும் ஊரே யாவரும் கேளிர்' என ஆகவேண்டுமானால்
யுனிகோடிற்கு தாவுவதற்கு தயாராக வேண்டும்.
அன்புடன்,
உமர் |
| |
|
|
 |
|
|