Астана. 28 қазан. Baq.kz – Қазақ тілінің мемлекеттік тіл статусына сәйкес елімізде жасалынып жатқан электрондық ақпараттық ресурстар қазақ тілінде болғаны жөн. Ақпараттық ресурстарды жасау көп қаржы мен жұмысты талап ететін үдеріс болғандықтан, оларды барлық компьютердің пернетақталарында бар 26 әріптік классикалық латын әліпбиінде жасаған тиімді.
Себебі, оларды басқа ұлттық әліпбиде жасау үшін қосымша қаржысыз әзірленбейтін шрифтер, драйверлер және сұрыптау мен іздеу программаларын қолдану қажет. Ғаламдану дәуірінде ғаламдық ақпараттық кеңістіктің бір ғана ортақ әліпбиі болғанын қалап, көптеген елдерде ақпараттық ресурстарды классикалық латын әліпбиінде жасау мәселесі талқыланып жүр.
Классикалық латын әліпбиі 26 әріптен тұрады: Аa, Bb, Cc, Dd, Ee, Ff, Gg, Hh, Ii, Jj, Kk, Ll, Mm, Nn, Oo, Pp, Qq, Rr, Ss,Tt, Uu,Vv,Ww, Xx,Yy, Zz. Ол роман, герман және басқа тілдердердің жазбаларының негізі.
Кейбір тілде белгілеуге сәйкес латын әріптері жоқ дыбыстарды белгілеу үшін латын әліпбиі кеңейтіледі. Кеңейтудің мынадай әдістері бар:
— әліпбиге жаңа әріптер қосу, мысалы, ŋ, ç, ş;
— диакритикаларды қосу, мысалы, á, ä, ğ;
— теріс диакритиканы қолдану, мысалы, ı — нүктесіз i;
— бір дыбысты белгілеу үшін бірнеше әріп қолдану, мысалы, ш дыбысы sh немесе sch арқылы белгіленеді;
— бір дыбысты белгілеу үшін бірнеше әріп және диакритикалық белгі қолдану, мысалы, x үшін c’h;
— әліпбидегі жеке әріптердің мәндерін өзгерту, мысалы, x әріпі
1) португал тілінде ш дыбысын белгілейді;
2) поляк тілінде ы дыбысын белгілейді.
Енді қазақ тілінің жазбасын осы әдістердің бірін пайдаланып латын әліпбиіне көшіруді талқыламас бұрын, осындай көшуді жүргізген түркі тілдес елдердің (Түркия, Түркменстан, Өзбекстан, Әзірбайжан) тәжірибелерін қарастырайық:
• 1928 жылы қабылданған түрік тілінің әліпбиі 29 әріптен тұрады, олардың ішінде классикалық латын әліпбиінен тыс 6 әріп ğ, ü, ş, ı, ö, ç бар;
• 1990-шы жылдары бірнеше рет өзгерген туркмен тілінің әліпбиі 30 әріптен тұрады, олардың ішінде классикалық латын әліпбиінен тыс 8 әріп ç, ä, ž, ň, ö, ş, ü, ẏ бар;
• 1993 жылы қабылданған өзбек тілінің әліпбиі классикалық латын әліпбиінен тыс 6 әріп ç, ş, ğ, ö, ñ, ɉ қамтыды, ал 1995 жылы оларды әліпбиден алып тастап, орфографиялық ережелерді қайта жазды: аталған әріптер ch, sh, g’, o’, ng және j-ға сәйкес ауыстырылды, мұндағы ‘ – аксант эгю (апостроф) таңба алдында ‘ түрінде, ал таңба соңында ‘ түрінде жазылады, мысалы, ‘alphabet – алфавит’;
• 2004 жылы қабылданған әзірбайжан әліпбиі 32 әріптен тұрады, онда классикалық латын әліпбиінен тыс 13 әріп ä, ö, ө, ç, ñ, ň, ſ, ü, ž, ş, ə, ẏ, ӱ бар.
Қазақ тілі жазуының түп тамыры V ғ. б.з.б пайда болған көне түркі жазулары екендігі белгілі. Ол VIII ғасырдан бастап ислам дінімен бірге енген араб әліпбиін қолданды. Ал 1912 жылы Ахмет Байтұрсынұлы қазақ тілінің дыбыстық жүйесін айқындап, құрамында 28 әрпі бар араб графикасы негізінде жаңа әліпби жасап, төте жазу ережесін анықтады. Кейін қазақ жазуы 1929 жылы 29 әрпі бар латын графикасы негізіндегі әліпбиге, ал 1940 жылы орыс тілінің дыбыстары үшін қосымша 13 әріп кіргізілген 42 әріптік кирилл графикасы негізіндегі әліпбиге ауыстырылды.
Соңғы реформа қазақ тілінің ерекшеліктері ескерілмей жүргізілді, ол қазақ мәтінінде ендірілген орыс сөздерін жазу мен оқуды орыс тілінің нормасына сәйкес орындауды талап етті. Нәтижесінде қазақ тілінің айтылым және жазылым емлелерінде көптеген шытырмауық жиналып, ана тіліміздің табиғи заңдылықтары бұзылды (мысалы, орыс тілінің дауысты «и» және «у» дыбыстарының қолдануын қарастырсақ, онда «и», «у» дауыстыларына аяқталатын «би, «ми», «бу», «су» сияқты сөздердің жіктелуінің үшінші жағында «би+i», «ми+ы», «бу+ы», «су+ы» болады. Бұлар қазақ тіліндегі «i» және «ы» жалғауы дауыссыздармен аяқталатын сөздерге жалғанады, ал дауыстыларға аяқталатын сөздерге «сі» және «сы» жалғауы жалғанады деген ережеге қайшы болады. Егер қазақ тілінде «и» және «у» дыбыстарын дауыссыздар деп есептесек, онда «би», «ми», «бу», «су», «ту» деген сөздерде бір де буын болмайды екен. Осыдан мынадай 2 сұрақ туады: «Жалғауды жалғау ережесі дұрыс па?», «Бір де буынсыз сөз бола ма?»). Осы күнге шейін қазақ тіліне қатысты бір-біріне қарама-қайшы оқулықтар мен ғылыми еңбектер шығуда. Бұлар мемлекеттік тілдің дамуына кедергі болып тұр.
Осы айтылғандар қазақ тілінің жазуына жаңа реформа жасау керектігін айғақтады. Реформаны қазақ тілінің дыбыстық жүйесіне негіздеп, ақпараттық технологияларды оңай пайдалану және оларды тиімді жасауға мүмкіндік беретін латын әліпбиіне көшіп жасау керектігі айқын. Реформа жүзеге асыру кезінде қазақ тілінің жаңа орфографиялық, орфоэпиялық, морфологиялық және синтаксистік ережелерін анықтап, оны компьютермен өңдейтін технологияларды жасап, білім берудің барлық деңгейіне арналған оқу құралдарын дайындау қажет.
Қазақ тілінің 28 төл дыбысы бар, оның ішінде 9 дауысты және 19 дауыссыз. 1929 жылғы реформа кезінде дауыссыз «хы» дыбысы қосылып, жалпы дыбыстар саны 29 болды. Олар қолданыстағы әліпбиде былай таңбаланады: а, ә, е, о, ө, ұ, ү, ы, і ̶ дауыстылар; б, ғ, г, д, ж, з, й, қ, к, л, м, н, ң, п, р, с, т, у, ш, һ ̶ дауыссыздар (мұнда а, о, ұ, ы, е – фонемалар, ал ә, ө, ү, і – олардың алафондары және ғ-г мен қ-к ̶ бір дыбысқа біріккен бір фонеманың үндесім түрлері). Ал 1940 жылғы реформа кезінде орыс тілінен 11 дыбыс енген, олар орыс қолданыстағы әліпбиде в, ё, и, ц, ч, щ, ф, х, э, ю, я деп белгіленеді. Кейінгілердің ішінде қазақ тілінің фонологиялық заңдарын бүлдірмейтін в, х және ф дыбыстарына тоқталайық. Оның біріншісі адамдардың тегін (фамилиясын) жазуда кеңінен қолданып кеткен. Сонымен қатар, қазақ тіліне аударылмай етене еніп кеткен «валюта, вакуум, вакцина, вариант, вектор, вексель, викторина, вирус, виртуал, вице, вокал», «хаки, хаос, химия, хлор, хроника, хром, хрусталь» және «факт, факультет, фаза, файл, фауна, федерация, фельетон, физика, филармония, фильм, фонетика, формула, фракция, функция» сияқты көптеген термин сөздердің маңыздылығын ескеріп, кірме в, х және ф дыбыстарын қазақ дыбыстарының қатарында қалдыруға болады деген ой келеді. Бұдан қазақ тілі зиян шекпейді, қайта ол халықаралық терминдердің дұрыс айтылуына көмектеседі. Сонымен, қазақ тілінде 31 дыбыс болады, олар: а, ә, б, в, ғ, г, д, ж, з, е, й, к, қ, л, м, н, ң, о, ө, п, р, с, т, у, ұ, ү, ф, х, ш, ы, і.
Осы айтылғандарды ескеріп, қазақ әліпбиінің латын графикасына көшірудің мынадай қағидаларын ұсынуға болады:
1. Жаңа әліпби тек қана қазақ тілінің дыбыстық жүйесіне негізделіп жасалуы керек. Бұл қазақ тілін оқуды жеңілдететін қазақша айту мен жазуды сәйкестендіреді және оны мемлекеттік тіл ретінде басқа тілдерге тәуелсіз дамытады.
2. Қазақ тілі дыбыстарын классикалық латын әліпбиі қамтылған пернетақтадағы таңбалармен ғана белгілеу керек. Бұл компьютер және телекоммуникациялық құралдар арқылы қазақ тілінде ешқандай кедергісіз жазбаша қатынасуға мүмкіндік береді. Себебі олардың кейбірінде классикалық латын әліпбиінен тыс әріпі бар ұлттық тілдерді қолдауға мүмкіндік беретін қажетті пернетақта және шрифтер мен драйверлерді орнатуға мүмкіндік жоқ.
3. Қазақ тілі дыбыстар белгілерінің орналасу реті классикалық латын әріптерінің кодтауымен сәйкес және болуы қажет. Бұл қазақ тілін компьютер арқылы тиімді өңдеу мен дамытуға кең мүмкіншілік береді. Себебі, ұлттық әліпбилерді пайдаланып жасалынған ақпараттық ресурстар тек қажетті қаріптер мен драйверлерді ғана емес, оларға қоса, әліпбидегі әріптердің ретіне негізделіп құрылған барлық ақпараттық технологияларда қолданылатын сұрыптау (реттеу) және іздеу программаларын да талап етеді. Ал оларды жеке ұлттық тілге арнап жасау және мыңдап тарап жатқан ақпараттық технологияларда орнату тым қымбат. Сонымен қатар, оларды үзілмей шығып жатқан жаңа ақпараттық технологияларға да бағыттап жасау керек, яғни, осы мәселелермен тұрақты айналасу қажет.
Енді осы қағидаларға сәйкес қазақ тілінің дыбыстарын классикалық латын әріптерімен белгілеуін қарастырайық. Бізге берілгені классикалық латын әліпбиінде 26 әріп бар, ал қазақ тіліндегі дыбыс саны одан көп: төл дыбыстар саны 28, қосатын дыбыстар саны 3. Сондықтан біз мынадай 3 есепті шешуіміз керек:
1) Жалғыз әріппен ғана белгіленетін дыбыстарды анықтау.
2) Әріп пен арнаулы таңба тіркесімен белгіленетін дыбыстарды анықтау.
3) Көмекші таңбаны анықтау.
Осы есептерді шешу үшін біз компьютер арқылы қазақтың дыбыстық жүйесіндегі дыбыстардың түрлері мен қасиеттерін талқыладық және құрамында қолданыстағы әліпбидің 100 миллион әріптері бар қазақ мәтініндер жинағындағы әріптердің кездесу жиілігі анықтадық. Бұл ұсынылатын әліпбиде қазақ тілінің қай дыбысын қай әріппен және қай дыбысты қай әріпке қандай таңбаны тіркеу арқылы тиімді (сөздің жазуын ұзартпайтындай) етіп белгілеуді анықтауға қажет.
Енді қазақ тілінің фонемалырының ұсынылатын әліпбидегі белгілеулерін көрсетейік: а, о, ұ, ы, е дауыстылары Aa, Oo, Uu, Yy, Ee әріптерімен белгіленеді, ал б, в, д, з, й, л, м, н, п, р, с, т, у, ф, х, ш дауыссыздары Bb, Vv, Dd, Zz, Jj, Ll, Mm, Nn, Pp, Ss, Tt, Ww, Ff, Хх, Сс әріптерімен белгіленеді.
Бір фонеманың үндесім жұптары г, ғ және к, қ дыбыстарының әрқайсысын жеке әріппен белгілеген жөн, себебі олардың кездесу жиіліктері жоғары. Олардың бірінші жұбын Gg, Hh әріптерімен белгілеуді, ал екінші жұппен ‘қазақ’ дегенді ‘kazak’ немесе ‘qazaq’ деп жазғанның соңғысы дұрыс сияқты болғандықтан к, қ дыбыстарын Kk, Qq әріптерімен белгілеуді ұсынамыз. Осыдан кейін бізде қолданылмаған 1 ғана Ii әріпі қалды.
Біздің зерттеумен анықталған жиілігі жоғары i дыбысы жұрнақ пен жалғауларға қатысып, бір сөзде бірнеше рет кездеседі (мысалы, ‘бiлiктiлiктің’ дегенде оның саны 5). Кейбiр сөздердің жазылуын тым ұзын қылмас үшін, i дыбысын да жалғыз Ii әрiпімен белгілейміз.
Сонымен біз классикалық латын әліпбиінің барлық 26 әріпін қолдандық. Ал бізде белгілеуі әлі анықталмаған 5 қазақтың дыбысы бар: ә, ө, ү, ж, ң. Оларды басқа тілдердегі сияқты екі таңбаның тіркесі арқылы белгілеуге болады. Әдеттегідей, тіркестің біріншісі ретінде белгілейтін дыбысқа жақын фонеманың әріпі Aa, Oo, Uu, Yy , Z z, Nn сәйкес болуы керек. Кейбір тілде тіркестің екіншісі ретінде де осы тілдің әліпбиінің әріпі алынады. Мысалы, ағылшын және өзбек тілінде ң дыбысы латын әліпбиінің n мен g әрпінің тіркесі арқылы белгіленген. Қазақ тілінде бұл әдісті қолданғанда «Кейбір сөздердің оқылуы дұрыс болмайды немесе бөлек сөздердің жазылулары бірдей болып кетеді» деген проблема шығады. Мысалы, егер біз г дыбысын g әріпімен белгілісек, онда «күнгі, күңі» сөздері «ku`ngі» болып бірдей жазылады. Енді біз зерттеген мәтіндік корпуста ә, ө, ү, ж, ң әріптеріне тіркеспейтін әріп жоқ екендігін ескеріп, оларды белгілегенде Aa, Oo, Uu, Yy , Zz, Nn әріптерінің сыңары ретінде әріптен басқа таңба аламыз.
Әдетте біз мәтінді пернетақтаның тек төменгі регистрі арқылы (shif батырмасын баспай) тереміз. Бізге цифрлар, жақшалар, арифметикалық амалдар таңбалары, тыныс белгілері, тырнақшалар және көлденең сызықшалардан басқа таңба керек. Ондай таңбалар екеу ғана: ‘ аксант эгю (э батырмасы) және ` аксант граф (ё батырмасы). Мұндағы аксант эгю таңбасы қосақталып мәтіндегі тырнақша ретінде, ‘ ‘ жиі кездеседі, себебі ол кез келген таңбаның алдында ‘ түрінде, ал таңбадан кейін ‘ түрінде бейнеленеді. Мысалы, жоғарыда ‘қазақ’ деген сөзде пайдаланылған.
Сонымен пернетақтада қолданылмаған жалғыз аксант граф таңбасы қалды. Оны қазақтың ә, ө, ү, ң, ж дыбыстарын қос таңба арқылы белгілеу үшін қолданамыз, яғни, олар мынадай A`a`, O`o`, U`u`, N`n`, Z`z` болады. Бұл сөздердің жазылуын тым ұзартпайды. Мысалы, әке = a`ke, өмір = o`mir, үміт = u`mit, теңге = ten`ge, жыл = z`yl.
Әліпби белгілі болғаннан кейін сөздердің жазу емлелерін анықтап, тілдің морфологиялық және синтаксистік ережелерін айқындау қажет. Оларды компьютерде жиналған тілдің мәтіндік корпусын зерттеу нәтижесін және осы күнге дейін жасалған морфологиялық және синтаксистік ережелердің математикалық моделдерін ескеріп жасау керек.
Енді ә, ө, ү дыбыстарына сәйкес белгілердің, яғни, a`, o`, u` қатысуымен жазылатын кейбір сөздерді көрсетейік:
1. Құрамында осы дыбыстар бір-ақ рет кездесетін жалаң сөздер: әдіскер=a`disker, әзірлеу=a`zirlew, әкімшілік=a`kimcilik, әңгіме=a`n`gime, бәйге=ba`jge, бәсеке=ba`seke, өгейшілік=o`gejcilik, өміршең=o`mircen`, өңгерілген=o`n`gerilgen, өшіргіш=o`cirgic, бөбек=bo`bek, үбірлі=u`birli.
2. Құрамындады осы дыбыстар бірнеше рет кездесетін күрделі сөздер: көздәрі=ko`zda`ri, көзкөрген=ko`zko`rgen, көзмөлшер=ko`zmo`lcer, көкбасгүл=ko`kbasgu`l, көкгүл=ko`kgu`l, көкжөтел=ko`kz`o`tel, көкөніс=ko`ko`nis, көпмәнді=ko`pma`ndi, көркемөнер=ko`rkemo`ner.
3. Құрамында осы дыбыстар бірнеше рет кездесетін жалаң сөздер: әзәзіл = a`za`zil, әңгүдік = a`n`gu`dik, әшмүшке = a`cmu`cke, дәстүр=da`stu`r, дүдәмал=du`da`mal, зәйтүн= za`jtu`n, зәмзәм= za`mza`m, мәмлүк = ma`mlu`k, нәмәрт = na`ma`rt, нәркүмән = na`rku`ma`n, тәбәрік= ta`ba`rik.
Алтынбек Әмірұлы Шәріпбай,
т.ғ.д, профессор,
ҚР Мемлекеттік сыйлығының лауреаты,
Л.Н.Гумилев атындағы ЕҰУ-нің
«Жасанды интеллект» институты