Una spiegazione della codifica dei caratteri Unicode

Affinché un computer sia in grado di memorizzare testo e numeri comprensibili agli umani, è necessario un codice che trasforma i caratteri in numeri. Lo standard Unicode definisce tale codice usando la codifica dei caratteri.

Il motivo per cui la codifica dei caratteri è così importante è che ogni dispositivo può visualizzare le stesse informazioni. Uno schema di codifica dei caratteri personalizzato potrebbe funzionare in modo brillante su un computer, ma si verificheranno problemi se si invia lo stesso testo a qualcun altro. Non saprà di cosa stai parlando a meno che non capisca anche lo schema di codifica.

Codifica dei caratteri

La codifica di tutti i caratteri è assegnare un numero a ogni carattere che può essere utilizzato. Puoi creare una codifica dei personaggi in questo momento.

Ad esempio, potrei dire che la lettera UN diventa il numero 13, a = 14, 1 = 33, # = 123 e così via.

È qui che entrano in vigore gli standard di settore. Se l'intero settore dei computer utilizza lo stesso schema di codifica dei caratteri, ogni computer può visualizzare gli stessi caratteri.

Cos'è Unicode?

ASCII (American Standard Code for Information Interchange) divenne il primo schema di codifica diffuso. Tuttavia, è limitato a solo 128 definizioni di caratteri. Questo va bene per i più comuni caratteri inglesi, numeri e punteggiatura, ma è un po 'limitante per il resto del mondo.

Naturalmente, il resto del mondo vuole lo stesso schema di codifica anche per i loro personaggi. Tuttavia, per un po ', a seconda di dove eravate, potrebbe esserci stato un carattere diverso visualizzato per lo stesso codice ASCII.

Alla fine, le altre parti del mondo hanno iniziato a creare i propri schemi di codifica e le cose hanno iniziato a diventare un po 'confuse. Non solo gli schemi di codifica avevano lunghezze diverse, ma i programmi dovevano capire quale schema di codifica avrebbero dovuto usare.

È diventato evidente che era necessario un nuovo schema di codifica dei caratteri, ovvero quando è stato creato lo standard Unicode. L'obiettivo di Unicode è unificare tutti i diversi schemi di codifica in modo che la confusione tra i computer possa essere limitata il più possibile.

Al giorno d'oggi, lo standard Unicode definisce valori per oltre 128.000 caratteri e può essere visto presso il consorzio Unicode. Ha diverse forme di codifica dei caratteri:

UTF-8: Utilizza solo un byte (8 bit) per codificare i caratteri inglesi. Può utilizzare una sequenza di byte per codificare altri caratteri. UTF-8 è ampiamente utilizzato nei sistemi di posta elettronica e su Internet.
UTF-16: Utilizza due byte (16 bit) per codificare i caratteri più comunemente utilizzati. Se necessario, i caratteri aggiuntivi possono essere rappresentati da una coppia di numeri a 16 bit.
UTF-32: Utilizza quattro byte (32 bit) per codificare i caratteri. È diventato evidente che con la crescita dello standard Unicode, un numero di 16 bit è troppo piccolo per rappresentare tutti i caratteri. UTF-32 è in grado di rappresentare ogni carattere Unicode come un numero.

Nota: UTF significa Unicode Transformation Unit.

Punti di codice

Un punto di codice è il valore assegnato a un carattere nello standard Unicode. I valori secondo Unicode sono scritti come numeri esadecimali e hanno un prefisso di U+.

Ad esempio, per codificare i caratteri che abbiamo visto in precedenza:

UN è U + 0041
un' è U + 0061
1 è U + 0031
# è U + 0023

Scienza