personale January 27, 2008 7:45 pm (Save post)
Assumo per un momento che tu, Caro Lettore, non abbia idea di cosa sia unicode.
In pratica, ricordati che tutte le lettere che ci sono in questa pagina sono memorizzate come sequenze di uni e zeri. Da qualche parte tra me e te il computer ha una tabella dove sta scritto che “1000010″ corrisponde a “B”.
Però la domanda è: perché B deve essere proprio “1000010″? Avrebbe potuto essere “1010010″ a rappresentare questa lettera.
La realtà infatti, è questa. A seconda di quale encoding abbia un testo, il computer te lo mostra diversamente. In principio fu ASCII, dove semplici stringhe di 7 bit permettevano di avere 18128 caratteri. Poi ci siamo allargati, abbiamo usato un bit in più e ci siamo trovati con 256 caratteri.
Cavolo, 26 lettere, più 26 maiuscole, più un po’ di simboli matematici, un po’ cose tipo spazio, a capo e ritorno a inizio linea (che son due cose diverse, come è ovvio a chiunque abbia mai avuto una macchina da scrivere).. e un po’ di cose strane.
Poi, un bel giorno, la gente si è resa conto che i giapponesi non potevano uare il computer perché non esistevano le accentate, e si sono inventati unicode[1].
[1] i fatti qui descritti potrebbero non essere accaduti
Unicode era una listona di 65536 caratteri, rappresentabili con 16 bit.
Tutti quelli che usano gli ideogrammi cinesi son stati felici, anche se avevano vissuto bene fino a quel momento usando i loro encoding.
In pratica, invece di usare 8 bit, hanno deciso di usarne 16. Questo significa che ci sono 65536 caratteri a disposizione.
Ah! -hanno pensato gli astuti autori di unicode- 65k sono abbastanza per chiunque!
Ovviamente, no. Siccome gli autori dello standard erano dei simpatici occidentali, e non avevano cagato di striscio le persone a cui questo cambiamento sarebbe interessato, essi pensarono bene di unificare un po’ di roba, voglio dire una volta che sai che la “é” è una e accentata non è che devi stare lì a fare il pignolo se pende di qua o di là.
E ovviamente, hanno pensato gli autori, questi caratteri inutili e desueti non è che servano poi a granché, per cui possiamo anche ometterli. Cavolo, abbiamo solo 65k non è che possiamo metterci proprio tutto tutto. E poi non è che qualcuno voglia davvero digitalizzare quelle poesie di un secolo fa, cazzarola, ormai nessuno scrive più figlî, devi andare a cercare dentro Moravia per trovare una i con accento circonflesso.
E così dopo un sacco di tempo siamo arrivati ad avere 32 bit, 4 miliardi di caratteri possibili, anche se c’è gente che dice che comunque lo standard fa schifo.
Quattromiliardidicaratteri. Parecchi, e per lo più al momento sono tutti “casella vuota”. Però ne abbiamo già riempite circa novantottomila. Altro che ventisei lettere e dieci cifre. Ricordo che comunque lo standard TRON ne ha già centoventimila.
La ovvia eurocentricità dell’Autore, di fronte a tale numero reagisce nell’unico modo possibile: ma guarda ’sti cavolo di cinesi quanta roba inutile.
Eppure, Caro Lettore, non è tanto l’astuto cinese ad aver riempito le caselle, ma l’insieme di tutte quelle piccole etnie che tu non sapevi nemmeno fossero in grado di scrivere.
Guarda che figata che è l’alfabeto myanmar, usato per scrivere il burmese(?). Il motivo per cui è fatto così è che si scriveva su delle foglie, e se avessi tirato una riga dritta la foglia si sarebbe rotta.
Il gruppo di lettere da 16A0(
) a 16FF(
) è l’alfabeto runico, solo che non si chiama alfabeto.
L’alfabeto si chiama così perché inizia in quel modo, ma gli alfabeti runici iniziano per cose tipo FUTHORK o FUTHARK e quindi si chiamano così.
Un po’ più in fondo, da
a
c’è “l’antico italico”, che non so se sia l’etrusco o che altro, ma posso dirvi che la freccetta qui rappresentata rappresenta il numero 50.
Girando nei piani astrali dei caratteri unicode trovi delle cose incredibili. Per esempio c’è un gruppo di caratteri per i simboli musicali, ovvio, ma ce n’è uno per i simboli musicali bizantini, tu lo sapevi che esistevano?
Certe cose ti aprono dei mondi, come ad esempio
, che è una lettera N’Ko. La scrittura N’Ko è stata inventata da un certo Soulemayne Kante, un genio o un folle nato in guinea nel 1922, che inventò questi caratteri in modo che gli africani avessero a disposizione una scrittura adeguata. Cavolo, e voi ancora con le magliette “africa unite” in inglese, quando potreste usare questi caratteri che sono largamente più fighi.
Alcuni caratteri sono in grado di farti crollare delle certezze. Tu, che hai impiegato trent’anni a costruire nella tua mente il concetto che qualunque simbolo di valuta è rappresentato con una lettera e due sbarrette, ti trovi di fronte allo pfennig tedesco,
, e subito diventi dubbioso.
E vogliamo parlare del blocco 2200-22FF, gli operatori matematici? sono 256 per la miseria, che minchia vuol dire
? E perché in un decennio di ingegneria non ho mai visto l’operatore a forma di figa
?
No lettore, non rispondere.
Questo delirio è stato anche troppo lungo, e poi non voglio rovinarti il divertimento, vai anche tu su decodeunicode.org e passaci una giornata, io ti lascio con un link a miscellaneous symbols, invitandoti a notare: 26A7 (cambiamento di sesso), 2619 (cuore floreale ruotato ??) e 26B1 (urna funeraria ???).
Ci sono più cose in cielo e in terra, Caro Lettore, di quante ne possa sognare dopo una pentola di peperonata alle 3 del mattino.


Azz, non sapevo la figa fosse una roba matematica. ;-D
Btw, è 128, non 18, ovviamente.
Comment by Nicola Larosa — January 28, 2008 @ 7:13 am
no, ovviamente è 18, in base 7.1 periodico.
Comment by gabriele — January 28, 2008 @ 8:23 am
nn so come mai mi stupisce ancora notare che viviamo in un mondo(virtuale?)cosí affollata di cose interessente peró é bello che scrivi cose di genere…jó téged olvasni reggel:)
Comment by kicsilány — January 28, 2008 @ 9:15 am
Per [1] (anzi ①) in effetti i giapponesi si erano risolti ben prima il problema tamponando con JIS (singolo o doppio byte), Shift-JIS (variazione di JIS) e EUC-JP (variabile). Ovviamente erano 3 soluzioni diverse ognuna caratterizzata da alcune estensioni: il solito casino, in pratica
Comment by NRK — January 28, 2008 @ 10:25 am
Fantastica riflessione che a questo punto sarà costretto a fare anche io, da Caro Lettore. Specialmente sui caratteri del Myanmar.
Comment by Dario Salvelli — January 28, 2008 @ 11:16 am
kicsilány: non ti stupirà sapere che un articolo stupido ma stupendo su stupore e stupefacenti, ma devi avere pazienza
NRK: scusa il commento era finito in moderazione. Mi stupisco di te che non hai notato che il propblema dei giapponesi da me espost5o sono le accentate e non kanji e kana
Dario: attebdo di leggere, e ti faccio nmotare che anche quello tibetano è fichissimo, specie i simboli-tipo-tao ma con tre e quattro parti
Comment by gabriele — January 28, 2008 @ 4:37 pm
gabriele: no problem tra captcha e antispam so di essere antipatico al tuo blog, ad ogni modo nel turbinio di N’Ko e operatori figa sono giunto a fine messaggio con un ricordo evidentemente distorto di [1]… dici che devo smetterla di leggere alcuni tuoi post mentre sono in ufficio?
Ad ogni modo ora i giapponesi saranno contenti che con unicode hanno codificato anche il simbolo delle stazioni termali…
Comment by NRK — January 28, 2008 @ 7:58 pm
si ma poi, con tutti ’sti simboli, che se dovemo da dì?
Comment by deeproland — January 29, 2008 @ 12:37 pm
deeproland: dice il saggio, è diverso stare zitti e basta o stare zitti in 5 lingue diverse
Comment by gabriele — January 31, 2008 @ 10:10 pm