Latinica i ćirilica u informatici

Index boarda » Računari i Internet » Software

Sva vremena su u UTC [ DST ]

Latinica i ćirilica u informatici

Stranica 1 od 1

[ 4 Posta ]

Prethodna tema | Sledeća tema

Autoru

Poruka

Not now, John!

Tema posta: Latinica i ćirilica u informatici

Poslato: 01 Apr 2005, 14:14

Veteran

Pridružio se: 12 Jul 2001, 01:00
Postovi: 3131
Lokacija: Kod roditelja

Ovim tekstom ću pokušati da skrenem pažnju na neke probleme na koje se može naići prilikom korištenja latinice i ćirilice u informatici. Pod primjenom u informatici najčešće mislim u primjenu na Internetu, ali to ne isključuje korištenje ova dva pisma u korisničkim programima ili samom operativnom sistemu.

Osnovni problem latiničnog pisma je u slovima lj, nj i dž, koja u našem jeziku predstavljaju jedno slovo, odnosno jedan glas, ali se u računarskoj primjeni umjesto jednog slova koristi grupa slova. Tako se umjesto jednog slova nj koristi grupa slova n+j. Ovo je posljedica ograničenja jednobajtnih kodnih rasporeda koji su kod nas najčešće u upotrebi (ISO-8859-2 i Windows-1250). Ovi kodni rasporedi nemaju slova lj, nj i dž. Problem koji se javlja zbog ovoga je problem sortiranja. Praktično je nemoguće naučiti računar kada da grupu slova n+j smatra jednim slovom, a kada da podrazumijeva da su to dva slova. Tako je nemoguće dobiti da riječ njuška dolazi nakon riječi noga, jer u našem jeziku slovo nj dolazi nakon slova n. Nezgoda je sa riječima kao što su injekcija, ninja i dr. kod kojih grupa slova n+j prestavlja dva slova.

Djelomično rješenje ovog problema su ponudili Unicode kodni rasporedi (kao što je UTF-8). Ovi kodni rasporedi, pored uobičajenih latiničnih slova, sadrže i posebna slova lj, nj i dž. Korištenjem ovih "posebnih" slova bi se riješio problem sortiranja, jer bi se sada koristilo slovo nj samo onda kada to treba da bude jedno slovo. Sada se javlja drugi problem. Svima koji su koristili neki tekst procesor je poznato da postoje komande koji odabrani tekst mijenjaju tako da budu sva slova velika, sva slova mala ili da prvo slovo svake riječi bude veliko, a ostala mala. Problem je kako implementirati ove komande tako da se ne dese neprirodne konstrukcije kao što su NJuška ili NjUŠKA, jer imajući u vidu specifičnost ovih slova u Unicode-u sada ne postoje samo uppercase (NJ) i lowercase (nj), već i "mixedcase" (Nj). Kako Unicode kodni rasporedi pretenduju da preuzmu primat nad svim ostalim, jer koriste znakove iz svih svjetskih jezika (čak i mrtvih jezika) javlja se još jedan problem - problem pretrage. Trenutno skoro svi tektovi na našem jeziku koriste n+j kao jedno slovo. Sa sve većim korištenjem Unicode kodnih rasporeda za očekivati je da će se sve više koristiti Unicode lj, nj i dž. Problem je kako pronaći neki pojam koji sadrži ova slova. Moguće je obaviti dvije pretrage ili naučiti program za pretraživanje da to radi automatski.

Kod ćirilice je mnogo manje problema. Problem sortiranja ćirilice ne postoji, kao ni problem pretrage. Jedinan od problema sa ćirilicom je što neki ćirilični tekst u UTF-8 kodnom rasporedu zauzima dvostruko više memorije nego isti tekst u ISO-8859-5 kodnom rasporedu. Zato je preporučljivo koristiti jednobajtne kodne rasporede za isključivo ćirilične tekstove. Treba napomenuti da je isključivo ćiriličnih tektova veoma malo. To posebno važi za informatiku gdje se koriste mnogi izrazi koji se ne mogu prevesti na ćirilicu npr. Web adrese, riječi iz engleskog jezika i dr. Drugi problem sa ćirilicom je upravo pomenuto miješanje ćirilice sa pojmovima iz engleskog jezika. Ukoliko pišete ovakav tekst biće vam prilično naporno mijenjati set slova na tastaturi radi svake latinične riječi.

Na kraju se čini da je ćirilicu mnogo lakše implementirati u informacione tehnologije nego latinicu.

(Napomena: u ovom tekstu je umjesto slova lj, nj i dž korištena grupa slova l+j, n+j i d+ž zbog praktičnih razloga - nepostojanje odgovarajućih tastera koji bi ispisivali ova slova i još uvijek nepotpune Unicode podrške u većini fontova koji su u upotrebi.)

Pomenuta Unicode slova su: lj ~ Ǉ ǈ ǉ, nj ~ Ǌ ǋ ǌ, dž ~ Ǆ ǅ ǆ. Nadam se da ih vidite.

_________________
"I'd take the awe of understanding over the awe of ignorance any day."
- Douglas Adams

Vrh

FLASH

Tema posta:

Poslato: 01 Apr 2005, 23:02

Urednik

Pridružio se: 12 Sep 2003, 21:58
Postovi: 6871
Lokacija: BL / London

Da, vidim(o) ih.
Ja sam prvo gledao kakva je razlika, ali je tek vidite kada markirate posebno Ǉ i posebno LJ...
Markirajte sada ova dva slova, pa cete primijetiti.

_________________
There are ways of saying what you think that make people think what you're thinking is actually more thoughtful than you actually think it is.

Vrh

Kolja

Tema posta:

Poslato: 02 Apr 2005, 18:38

Majstorski kandidat

Pridružio se: 03 Feb 2003, 22:48
Postovi: 542
Lokacija: Gradiška :: Banja Luka

Ekšli, ne vidim(o) ih! Je l' do kodiranja?

Vrh

Not now, John!

Tema posta:

Poslato: 02 Apr 2005, 20:15

Veteran

Pridružio se: 12 Jul 2001, 01:00
Postovi: 3131
Lokacija: Kod roditelja

Kolja je napisao:

Ekšli, ne vidim(o) ih! Je l' do kodiranja?

Ne, nego do fonta. Font koji koristiš u Web pretraživaču nema "sličice" tih znakova. Probaj sa Arial Unicode MS ili tako nešto. Probaj Copy/Paste u MS Word.

_________________
"I'd take the awe of understanding over the awe of ignorance any day."
- Douglas Adams

Vrh

Stranica 1 od 1

[ 4 Posta ]

Index boarda » Računari i Internet » Software

Sva vremena su u UTC [ DST ]

Ko je OnLine

Korisnici koji su trenutno na forumu: Anthropic [ClaudeBot] i 7 gostiju

Ne možete postavljati nove teme u ovom forumu
Ne možete odgovarati na teme u ovom forumu
Ne možete monjati vaše postove u ovom forumu
Ne možete brisati vaše postove u ovom forumu
Ne možete slati prikačene fajlove u ovom forumu

Idi na:

banjalukaforum.com

Latinica i ćirilica u informatici

Ko je OnLine