Informazione classica

Per descrivere l'informazione quantistica e il suo funzionamento, inizieremo con una panoramica dell'informazione classica. È naturale chiedersi perché si presti così tanta attenzione all'informazione classica in un corso sull'informazione quantistica, ma le ragioni sono valide.

Da un lato, sebbene l'informazione quantistica e quella classica differiscano in modi spettacolari, le loro descrizioni matematiche sono in realtà molto simili. L'informazione classica funge anche da punto di riferimento familiare nello studio dell'informazione quantistica, nonché da fonte di analogie che si rivelano sorprendentemente utili. È comune che le persone pongano domande sull'informazione quantistica che hanno analoghi classici naturali, e spesso quelle domande hanno risposte semplici che possono fornire chiarezza e intuizione riguardo alle domande originali sull'informazione quantistica. In effetti, non è affatto irragionevole affermare che non si possa comprendere davvero l'informazione quantistica senza comprendere quella classica.

Alcuni lettori potrebbero già avere familiarità con il materiale che verrà discusso in questa sezione, mentre altri no — ma la discussione è pensata per entrambi i tipi di pubblico. Oltre a mettere in evidenza gli aspetti dell'informazione classica più rilevanti per un'introduzione all'informazione quantistica, questa sezione introduce la notazione di Dirac, spesso utilizzata per descrivere vettori e matrici nell'informazione e nel calcolo quantistico. Come si scoprirà, la notazione di Dirac non è specifica dell'informazione quantistica; può essere utilizzata ugualmente bene nel contesto dell'informazione classica, nonché in molti altri ambiti in cui compaiono vettori e matrici.

Stati classici e vettori di probabilità

Supponiamo di avere un sistema che memorizza informazioni. Più precisamente, assumeremo che questo sistema possa trovarsi in uno tra un numero finito di stati classici in ogni istante. Il termine stato classico va inteso in senso intuitivo, come una configurazione che può essere riconosciuta e descritta senza ambiguità.

L'esempio archetipico, a cui torneremo ripetutamente, è quello di un bit, ovvero un sistema i cui stati classici sono $0$ e $1.$ Altri esempi includono un dado standard a sei facce, i cui stati classici sono $1,$ $2,$ $3,$ $4,$ $5$ e $6$ (rappresentati dal numero corrispondente di punti sulla faccia rivolta verso l'alto); una base azotata in un filamento di DNA, i cui stati classici sono A, C, G e T; e un interruttore di un ventilatore elettrico, i cui stati classici sono (tipicamente) alto, medio, basso e spento. In termini matematici, la specifica degli stati classici di un sistema è, in effetti, il punto di partenza: definiamo un bit come un sistema che ha stati classici $0$ e $1,$ e analogamente per sistemi con insiemi di stati classici diversi.

Per comodità, diamo il nome $\mathsf{X}$ al sistema in esame, e usiamo il simbolo $\Sigma$ per indicare l'insieme degli stati classici di $\mathsf{X}.$ Oltre all'assunzione che $\Sigma$ sia finito, già menzionata, assumiamo naturalmente che $\Sigma$ sia non vuoto — poiché non avrebbe senso che un sistema fisico non avesse alcuno stato. E sebbene abbia senso considerare sistemi fisici con un numero infinito di stati classici, ignoreremo questa possibilità, che è certamente interessante ma non rilevante per questo corso. Per questi motivi, e per comodità e brevità, useremo d'ora in poi il termine insieme di stati classici per indicare qualsiasi insieme finito e non vuoto.

Ecco alcuni esempi:

Se $\mathsf{X}$ è un bit, allora $\Sigma = \{0,1\}.$ In parole, chiamiamo questo insieme alfabeto binario.
Se $\mathsf{X}$ è un dado a sei facce, allora $\Sigma = \{1,2,3,4,5,6\}.$
Se $\mathsf{X}$ è un interruttore di ventilatore elettrico, allora $\Sigma = \{\mathrm{alto}, \mathrm{medio}, \mathrm{basso}, \mathrm{spento}\}.$

Quando si pensa a $\mathsf{X}$ come portatore di informazione, i diversi stati classici di $\mathsf{X}$ potrebbero avere certi significati, portando a esiti o conseguenze diversi. In tali casi, potrebbe essere sufficiente descrivere $\mathsf{X}$ come semplicemente trovarsi in uno dei suoi possibili stati classici. Per esempio, se $\mathsf{X}$ è un interruttore di ventilatore, potremmo sapere con certezza che è impostato su alto, il che potrebbe portarci a spostarlo su medio.

Spesso nell'elaborazione dell'informazione, tuttavia, la nostra conoscenza è incerta. Un modo per rappresentare la nostra conoscenza dello stato classico di un sistema $\mathsf{X}$ è associare probabilità ai suoi diversi possibili stati classici, ottenendo quello che chiameremo uno stato probabilistico.

Per esempio, supponiamo che $\mathsf{X}$ sia un bit. In base a ciò che sappiamo o ci aspettiamo riguardo a ciò che è accaduto a $\mathsf{X}$ in passato, potremmo credere che $\mathsf{X}$ si trovi nello stato classico $0$ con probabilità $3/4$ e nello stato $1$ con probabilità $1/4.$ Possiamo rappresentare queste credenze scrivendo:

\operatorname{Pr}(\mathsf{X}=0) = \frac{3}{4} \quad\text{e}\quad \operatorname{Pr}(\mathsf{X}=1) = \frac{1}{4}.

Un modo più sintetico per rappresentare questo stato probabilistico è tramite un vettore colonna.

\begin{pmatrix} \frac{3}{4}\\[2mm] \frac{1}{4} \end{pmatrix}

La probabilità che il bit sia $0$ è posta in cima al vettore e la probabilità che il bit sia $1$ è posta in fondo, poiché questo è il modo convenzionale di ordinare l'insieme $\{0,1\}.$

In generale, possiamo rappresentare uno stato probabilistico di un sistema con qualsiasi insieme di stati classici allo stesso modo, come un vettore di probabilità. Le probabilità possono essere ordinate in qualsiasi modo si scelga, ma di solito esiste un modo naturale o predefinito per farlo. Per essere precisi, possiamo rappresentare qualsiasi stato probabilistico tramite un vettore colonna che soddisfa due proprietà:

Tutte le componenti del vettore sono numeri reali non negativi.
La somma delle componenti è uguale a $1.$

Al contrario, qualsiasi vettore colonna che soddisfa queste due proprietà può essere preso come rappresentazione di uno stato probabilistico. D'ora in poi, ci riferiremo a vettori di questa forma come vettori di probabilità.

Insieme alla sintesi di questa notazione, identificare gli stati probabilistici come vettori colonna ha il vantaggio che le operazioni sugli stati probabilistici sono rappresentate dalla moltiplicazione matrice–vettore, come verrà discusso a breve.

Misura degli stati probabilistici

Consideriamo ora cosa succede quando misuriamo un sistema che si trova in uno stato probabilistico. In questo contesto, misurare un sistema significa semplicemente osservarlo e riconoscere senza ambiguità lo stato classico in cui si trova. In senso intuitivo, non possiamo "vedere" uno stato probabilistico di un sistema; quando lo osserviamo, vediamo semplicemente uno dei possibili stati classici.

Misurando un sistema, possiamo anche cambiare la nostra conoscenza di esso, e quindi lo stato probabilistico che gli associamo può cambiare. Cioè, se riconosciamo che $\mathsf{X}$ si trova nello stato classico $a\in\Sigma,$ allora il nuovo vettore di probabilità che rappresenta la nostra conoscenza dello stato di $\mathsf{X}$ diventa il vettore con un $1$ nella componente corrispondente ad $a$ e $0$ per tutte le altre componenti. Questo vettore indica che $\mathsf{X}$ si trova nello stato classico $a$ con certezza — come sappiamo avendolo appena riconosciuto — e denotiamo questo vettore con $\vert a\rangle,$ che si legge "ket $a$ " per una ragione che verrà spiegata a breve. I vettori di questo tipo sono anche chiamati vettori della base standard.

Per esempio, assumendo che il sistema in questione sia un bit, i vettori della base standard sono dati da

\vert 0\rangle = \begin{pmatrix}1\\[1mm] 0\end{pmatrix} \quad\text{e}\quad \vert 1\rangle = \begin{pmatrix}0\\[1mm] 1\end{pmatrix}.

Si noti che qualsiasi vettore colonna bidimensionale può essere espresso come combinazione lineare di questi due vettori. Per esempio,

\begin{pmatrix} \frac{3}{4}\\[2mm] \frac{1}{4} \end{pmatrix} = \frac{3}{4}\,\vert 0\rangle + \frac{1}{4}\,\vert 1\rangle.

Questo fatto si generalizza naturalmente a qualsiasi insieme di stati classici: qualsiasi vettore colonna può essere scritto come combinazione lineare di vettori della base standard. Spesso esprimiamo i vettori esattamente in questo modo.

Tornando al cambiamento di uno stato probabilistico in seguito alla misurazione, possiamo notare la seguente connessione con le nostre esperienze quotidiane. Supponiamo di lanciare una moneta equa, ma di coprirla prima di guardarla. Diremmo quindi che il suo stato probabilistico è

\begin{pmatrix} \frac{1}{2}\\[2mm] \frac{1}{2} \end{pmatrix} = \frac{1}{2}\,\vert\text{testa}\rangle + \frac{1}{2}\,\vert\text{croce}\rangle.

Qui, l'insieme degli stati classici della nostra moneta è $\{\text{testa},\text{croce}\}.$ Scegliamo di ordinare questi stati con testa per prima e croce per seconda.

\vert\text{testa}\rangle = \begin{pmatrix}1\\[1mm] 0\end{pmatrix} \quad\text{e}\quad \vert\text{croce}\rangle = \begin{pmatrix}0\\[1mm] 1\end{pmatrix}

Se scoprissimo la moneta e la guardassimo, vedremmo uno dei due stati classici: testa o croce. Supponendo che il risultato fosse croce, aggiorneremmo naturalmente la nostra descrizione dello stato probabilistico della moneta in modo che diventi $|\text{croce}\rangle.$ Ovviamente, se poi coprissimo di nuovo la moneta, e poi la scoprissimo e la guardassimo di nuovo, lo stato classico sarebbe ancora croce, il che è coerente con lo stato probabilistico descritto dal vettore $|\text{croce}\rangle.$

Questo potrebbe sembrare banale, e in un certo senso lo è. Tuttavia, mentre i sistemi quantistici si comportano in modo del tutto analogo, le loro proprietà di misurazione sono spesso considerate strane o insolite. Stabilendo le proprietà analoghe dei sistemi classici, il funzionamento dell'informazione quantistica potrebbe sembrare meno insolito.

Un'ultima osservazione riguardo alla misurazione degli stati probabilistici: gli stati probabilistici descrivono conoscenza o credenza, non necessariamente qualcosa di reale, e misurare cambia semplicemente la nostra conoscenza e non il sistema stesso. Per esempio, lo stato di una moneta dopo che l'abbiamo lanciata, ma prima di guardarla, è testa o croce — non sappiamo quale fino a quando non la guardiamo. Vedendo che lo stato classico è croce, ad esempio, aggiorneremmo naturalmente il vettore che descrive la nostra conoscenza a $|\text{croce}\rangle,$ ma per qualcun altro che non ha visto la moneta quando è stata scoperta, lo stato probabilistico rimarrebbe invariato. Questo non è un motivo di preoccupazione; individui diversi possono avere conoscenze o credenze diverse riguardo a un particolare sistema, e quindi descrivere quel sistema con vettori di probabilità diversi.

Operazioni classiche

Nell'ultima parte di questa breve sintesi dell'informazione classica, considereremo i tipi di operazioni che possono essere eseguite su un sistema classico.

Operazioni deterministiche

Prima di tutto, ci sono le operazioni deterministiche, in cui ogni stato classico $a\in\Sigma$ viene trasformato in $f(a)$ per qualche funzione $f$ della forma $f:\Sigma\rightarrow\Sigma.$

Per esempio, se $\Sigma = \{0,1\},$ ci sono quattro funzioni di questa forma, $f_1,$ $f_2,$ $f_3$ e $f_4,$ che possono essere rappresentate da tabelle di valori come segue:

\begin{array}{c|c} a & f_1(a)\\ \hline 0 & 0\\ 1 & 0 \end{array} \qquad \begin{array}{c|c} a & f_2(a)\\ \hline 0 & 0\\ 1 & 1 \end{array} \qquad \begin{array}{c|c} a & f_3(a)\\ \hline 0 & 1\\ 1 & 0 \end{array} \qquad \begin{array}{c|c} a & f_4(a)\\ \hline 0 & 1\\ 1 & 1 \end{array}

La prima e l'ultima di queste funzioni sono costanti: $f_1(a) = 0$ e $f_4(a) = 1$ per ogni $a\in\Sigma.$ Le due centrali non sono costanti, sono bilanciate: ciascuno dei due valori di output compare lo stesso numero di volte (una volta, in questo caso) al variare dei possibili input. La funzione $f_2$ è la funzione identità: $f_2(a) = a$ per ogni $a\in\Sigma.$ E $f_3$ è la funzione $f_3(0) = 1$ e $f_3(1) = 0,$ più nota come funzione NOT.

Le azioni delle operazioni deterministiche sugli stati probabilistici possono essere rappresentate dalla moltiplicazione matrice-vettore. Più precisamente, la matrice $M$ che rappresenta una data funzione $f:\Sigma\rightarrow\Sigma$ è quella che soddisfa

M \vert a \rangle = \vert f(a)\rangle

per ogni $a\in\Sigma.$ Tale matrice esiste sempre ed è univocamente determinata da questo requisito. Le matrici che rappresentano operazioni deterministiche hanno sempre esattamente un $1$ in ogni colonna, e $0$ per tutte le altre componenti.

Per esempio, le matrici $M_1,\ldots,M_4$ corrispondenti alle funzioni $f_1,\ldots,f_4$ sopra sono le seguenti:

M_1 = \begin{pmatrix} 1 & 1\\ 0 & 0 \end{pmatrix}, \hspace{4mm} M_2 = \begin{pmatrix} 1 & 0\\ 0 & 1 \end{pmatrix}, \hspace{4mm} M_3 = \begin{pmatrix} 0 & 1\\ 1 & 0 \end{pmatrix}, \hspace{4mm} M_4 = \begin{pmatrix} 0 & 0\\ 1 & 1 \end{pmatrix}.

Ecco una rapida verifica che mostra che la prima matrice è corretta. Le altre tre possono essere verificate in modo analogo.

\begin{aligned} M_1 \vert 0\rangle & = \begin{pmatrix} 1 & 1\\ 0 & 0 \end{pmatrix} \begin{pmatrix} 1\\ 0 \end{pmatrix} = \begin{pmatrix} 1\\ 0 \end{pmatrix} = \vert 0\rangle = \vert f_1(0)\rangle \\[4mm] M_1 \vert 1\rangle & = \begin{pmatrix} 1 & 1\\ 0 & 0 \end{pmatrix} \begin{pmatrix} 0\\ 1 \end{pmatrix} = \begin{pmatrix} 1\\ 0 \end{pmatrix} = \vert 0\rangle = \vert f_1(1)\rangle \end{aligned}

Un modo conveniente per rappresentare matrici di queste e altre forme fa uso di una notazione analoga per i vettori riga a quella discussa in precedenza per i vettori colonna: denotiamo con $\langle a \vert$ il vettore riga con un $1$ nella componente corrispondente ad $a$ e zero per tutte le altre componenti, per ogni $a\in\Sigma.$ Questo vettore si legge "bra $a.$ "

Per esempio, se $\Sigma = \{0,1\},$ allora

\langle 0 \vert = \begin{pmatrix} 1 & 0 \end{pmatrix} \quad\text{e}\quad \langle 1 \vert = \begin{pmatrix} 0 & 1 \end{pmatrix}.

Per qualsiasi insieme di stati classici $\Sigma,$ possiamo vedere i vettori riga e colonna come matrici, ed eseguire la moltiplicazione matriciale $\vert b\rangle \langle a\vert.$ Otteniamo una matrice quadrata con un $1$ nella componente corrispondente alla coppia $(b,a),$ nel senso che la riga della componente corrisponde allo stato classico $b$ e la colonna corrisponde allo stato classico $a,$ con $0$ per tutte le altre componenti. Per esempio,

\vert 0 \rangle \langle 1 \vert = \begin{pmatrix} 1\\ 0 \end{pmatrix} \begin{pmatrix} 0 & 1 \end{pmatrix} = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}.

Usando questa notazione, possiamo esprimere la matrice $M$ che corrisponde a qualsiasi funzione $f:\Sigma\rightarrow\Sigma$ come

M = \sum_{a\in\Sigma} \vert f(a) \rangle \langle a \vert.

Per esempio, consideriamo la funzione $f_4$ sopra, per cui $\Sigma = \{0,1\}.$ Otteniamo la matrice

M_4 = \vert f_4(0) \rangle \langle 0 \vert + \vert f_4(1) \rangle \langle 1 \vert = \vert 1\rangle \langle 0\vert + \vert 1\rangle \langle 1\vert = \begin{pmatrix} 0 & 0\\ 1 & 0 \end{pmatrix} + \begin{pmatrix} 0 & 0\\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 0 & 0\\ 1 & 1 \end{pmatrix}.

Il motivo per cui questo funziona è il seguente. Se pensiamo di nuovo ai vettori come matrici, e questa volta consideriamo la moltiplicazione $\langle a \vert \vert b \rangle,$ otteniamo una matrice $1\times 1,$ che possiamo pensare come uno scalare (cioè, un numero). Per semplicità, scriviamo questo prodotto come $\langle a \vert b\rangle$ anziché $\langle a \vert \vert b \rangle.$ Questo prodotto soddisfa la seguente semplice formula:

\langle a \vert b \rangle = \begin{cases} 1 & a = b\\[1mm] 0 & a \neq b. \end{cases}

Usando questa osservazione, insieme al fatto che la moltiplicazione matriciale è associativa e lineare, otteniamo

M \vert b \rangle = \Biggl( \sum_{a\in\Sigma} \vert f(a) \rangle \langle a \vert \Biggr) \vert b\rangle = \sum_{a\in\Sigma} \vert f(a) \rangle \langle a \vert b \rangle = \vert f(b)\rangle,

per ogni $b\in\Sigma,$ che è esattamente ciò che richiediamo alla matrice $M.$

Come discuteremo in modo più dettagliato in una lezione successiva, $\langle a \vert b \rangle$ può essere visto anche come un prodotto interno tra i vettori $\vert a\rangle$ e $\vert b\rangle.$ I prodotti interni sono di fondamentale importanza nell'informazione quantistica, ma ne rimandiamo la discussione a quando saranno necessari.

A questo punto i nomi "bra" e "ket" potrebbero essere evidenti: mettendo insieme un "bra" $\langle a\vert$ con un "ket" $\vert b\rangle$ si ottiene una "parentesi" (in inglese "bracket") $\langle a \vert b\rangle.$ Questa notazione e terminologia si deve a Paul Dirac, e per questo motivo è nota come notazione di Dirac.

Operazioni probabilistiche e matrici stocastiche

Oltre alle operazioni deterministiche, abbiamo le operazioni probabilistiche.

Per esempio, consideriamo la seguente operazione su un bit. Se lo stato classico del bit è $0,$ viene lasciato invariato; se lo stato classico del bit è $1,$ viene invertito, in modo che diventi $0$ con probabilità $1/2$ e $1$ con probabilità $1/2.$ Questa operazione è rappresentata dalla matrice

\begin{pmatrix} 1 & \frac{1}{2}\\[1mm] 0 & \frac{1}{2} \end{pmatrix}.

Si può verificare che questa matrice si comporta correttamente moltiplicando i due vettori della base standard per essa.

Per una scelta arbitraria di un insieme di stati classici, possiamo descrivere l'insieme di tutte le operazioni probabilistiche in termini matematici come quelle rappresentate da matrici stocastiche, ovvero matrici che soddisfano queste due proprietà:

Tutte le componenti sono numeri reali non negativi.
La somma delle componenti in ogni colonna è uguale a $1.$

In modo equivalente, le matrici stocastiche sono matrici le cui colonne formano tutte vettori di probabilità.

Possiamo pensare alle operazioni probabilistiche a livello intuitivo come quelle in cui la casualità potrebbe essere in qualche modo usata o introdotta durante l'operazione, proprio come nell'esempio precedente. Riguardo alla descrizione tramite matrice stocastica di un'operazione probabilistica, ogni colonna può essere vista come una rappresentazione vettoriale dello stato probabilistico che viene generato dato l'input di stato classico corrispondente a quella colonna.

Possiamo anche pensare alle matrici stocastiche come esattamente quelle matrici che mappano sempre i vettori di probabilità in vettori di probabilità. Vale a dire, le matrici stocastiche mappano sempre i vettori di probabilità in vettori di probabilità, e qualsiasi matrice che mappa sempre i vettori di probabilità in vettori di probabilità deve essere una matrice stocastica.

Infine, un modo diverso di pensare alle operazioni probabilistiche è che sono scelte casuali di operazioni deterministiche. Per esempio, possiamo pensare all'operazione nell'esempio sopra come applicare la funzione identità o la funzione costante 0, ciascuna con probabilità $1/2.$ Questo è coerente con l'equazione

\begin{pmatrix} 1 & \frac{1}{2}\\[1mm] 0 & \frac{1}{2} \end{pmatrix} = \frac{1}{2} \begin{pmatrix} 1 & 0\\[1mm] 0 & 1 \end{pmatrix} + \frac{1}{2} \begin{pmatrix} 1 & 1\\[1mm] 0 & 0 \end{pmatrix}.

Tale espressione è sempre possibile, per una scelta arbitraria di un insieme di stati classici e qualsiasi matrice stocastica con righe e colonne identificate con quell'insieme di stati classici.

Composizioni di operazioni probabilistiche

Supponiamo che $\mathsf{X}$ sia un sistema con insieme di stati classici $\Sigma,$ e che $M_1,\ldots,M_n$ siano matrici stocastiche che rappresentano operazioni probabilistiche sul sistema $\mathsf{X}.$

Se la prima operazione $M_1$ viene applicata allo stato probabilistico rappresentato da un vettore di probabilità $u,$ lo stato probabilistico risultante è rappresentato dal vettore $M_1 u.$ Se poi applichiamo la seconda operazione probabilistica $M_2$ a questo nuovo vettore di probabilità, otteniamo il vettore di probabilità

M_2 (M_1 u) = (M_2 M_1) u.

L'uguaglianza segue dal fatto che la moltiplicazione matriciale (che include la moltiplicazione matrice-vettore come caso speciale) è un'operazione associativa. Quindi, l'operazione probabilistica ottenuta componendo la prima e la seconda operazione probabilistica, dove prima applichiamo $M_1$ e poi applichiamo $M_2,$ è rappresentata dalla matrice $M_2 M_1,$ che è necessariamente stocastica.

Più in generale, la composizione delle operazioni probabilistiche rappresentate dalle matrici $M_1,\ldots,M_n$ in questo ordine, cioè $M_1$ viene applicata per prima, $M_2$ per seconda, e così via, con $M_n$ applicata per ultima, è rappresentata dal prodotto matriciale

M_n \,\cdots\, M_1.

Si noti che l'ordine è importante qui: sebbene la moltiplicazione matriciale sia associativa, non è un'operazione commutativa. Per esempio, se

M_1 = \begin{pmatrix} 1 & 1\\[1mm] 0 & 0 \end{pmatrix} \quad\text{e}\quad M_2 = \begin{pmatrix} 0 & 1\\[1mm] 1 & 0 \end{pmatrix},

allora

M_2 M_1 = \begin{pmatrix} 0 & 0 \\[1mm] 1 & 1 \end{pmatrix} \quad\text{e}\quad M_1 M_2 = \begin{pmatrix} 1 & 1\\[1mm] 0 & 0 \end{pmatrix}.

Vale a dire, l'ordine in cui le operazioni probabilistiche vengono composte è importante; cambiare l'ordine in cui le operazioni vengono applicate in una composizione può cambiare l'operazione risultante.

Stati classici e vettori di probabilità​

Misura degli stati probabilistici​

Operazioni classiche​

Operazioni deterministiche​

Operazioni probabilistiche e matrici stocastiche​

Composizioni di operazioni probabilistiche​