Ovim tekstom ću pokušati da skrenem pažnju na neke probleme na koje se može naići prilikom korištenja
latinice i
ćirilice u informatici. Pod primjenom u informatici najčešće mislim u primjenu na Internetu, ali to ne isključuje korištenje ova dva pisma u korisničkim programima ili samom operativnom sistemu.
Osnovni problem latiničnog pisma je u slovima
lj,
nj i
dž, koja u našem jeziku predstavljaju jedno slovo, odnosno jedan glas, ali se u računarskoj primjeni umjesto jednog slova koristi grupa slova. Tako se umjesto jednog slova
nj koristi grupa slova
n+
j. Ovo je posljedica ograničenja jednobajtnih kodnih rasporeda koji su kod nas najčešće u upotrebi (
ISO-8859-2 i
Windows-1250). Ovi kodni rasporedi nemaju slova
lj,
nj i
dž. Problem koji se javlja zbog ovoga je problem sortiranja. Praktično je nemoguće naučiti računar kada da grupu slova
n+
j smatra jednim slovom, a kada da podrazumijeva da su to dva slova. Tako je nemoguće dobiti da riječ
njuška dolazi nakon riječi
noga, jer u našem jeziku slovo
nj dolazi nakon slova
n. Nezgoda je sa riječima kao što su
injekcija,
ninja i dr. kod kojih grupa slova
n+
j prestavlja dva slova.
Djelomično rješenje ovog problema su ponudili
Unicode kodni rasporedi (kao što je
UTF-8). Ovi kodni rasporedi, pored uobičajenih latiničnih slova, sadrže i posebna slova
lj,
nj i
dž. Korištenjem ovih "posebnih" slova bi se riješio problem sortiranja, jer bi se sada koristilo slovo
nj samo onda kada to treba da bude jedno slovo. Sada se javlja drugi problem. Svima koji su koristili neki tekst procesor je poznato da postoje komande koji odabrani tekst mijenjaju tako da budu sva slova velika, sva slova mala ili da prvo slovo svake riječi bude veliko, a ostala mala. Problem je kako implementirati ove komande tako da se ne dese neprirodne konstrukcije kao što su
NJuška ili
NjUŠKA, jer imajući u vidu specifičnost ovih slova u
Unicode-u sada ne postoje samo
uppercase (
NJ) i
lowercase (
nj), već i "
mixedcase" (
Nj). Kako
Unicode kodni rasporedi pretenduju da preuzmu primat nad svim ostalim, jer koriste znakove iz svih svjetskih jezika (čak i mrtvih jezika) javlja se još jedan problem - problem pretrage. Trenutno skoro svi tektovi na našem jeziku koriste
n+
j kao jedno slovo. Sa sve većim korištenjem
Unicode kodnih rasporeda za očekivati je da će se sve više koristiti
Unicode lj,
nj i
dž. Problem je kako pronaći neki pojam koji sadrži ova slova. Moguće je obaviti dvije pretrage ili naučiti program za pretraživanje da to radi automatski.
Kod ćirilice je mnogo manje problema. Problem sortiranja ćirilice ne postoji, kao ni problem pretrage. Jedinan od problema sa ćirilicom je što neki ćirilični tekst u
UTF-8 kodnom rasporedu zauzima dvostruko više memorije nego isti tekst u
ISO-8859-5 kodnom rasporedu. Zato je preporučljivo koristiti jednobajtne kodne rasporede za isključivo ćirilične tekstove. Treba napomenuti da je isključivo ćiriličnih tektova veoma malo. To posebno važi za informatiku gdje se koriste mnogi izrazi koji se ne mogu prevesti na ćirilicu npr. Web adrese, riječi iz engleskog jezika i dr. Drugi problem sa ćirilicom je upravo pomenuto miješanje ćirilice sa pojmovima iz engleskog jezika. Ukoliko pišete ovakav tekst biće vam prilično naporno mijenjati set slova na tastaturi radi svake latinične riječi.
Na kraju se čini da je ćirilicu mnogo lakše implementirati u informacione tehnologije nego latinicu.
(Napomena: u ovom tekstu je umjesto slova
lj,
nj i
dž korištena grupa slova
l+
j,
n+
j i
d+
ž zbog praktičnih razloga - nepostojanje odgovarajućih tastera koji bi ispisivali ova slova i još uvijek nepotpune
Unicode podrške u većini fontova koji su u upotrebi.)
Pomenuta
Unicode slova su:
lj ~
LJ Lj lj,
nj ~
NJ Nj nj,
dž ~
DŽ Dž dž. Nadam se da ih vidite.