Computación cuántica y aprendizaje automático

(1)

Universidad Aut´ onoma de Madrid Escuela Polit´ ecnica Superior

Máster en Investigación e Innovación en Inteligencia Computacional y Sistemas Interactivos

Computación cuántica y aprendizaje automático

Jaime S´ anchez Fern´ andez

Tutor:

Bryan Zaldivar

Ponente:

Alberto Su´arez

Junio de 2020

(2)

Abstract: El reciente interés por los métodos de aprendizaje automático es el resultado del incremento en la capacidad de procesamiento computacional, sumado a la disponibilidad de grandes cantidades de datos en formato digital. Sin embargo, puesto que el volumen de datos a procesar aumenta de manera continuada, mientras que el incremento en la potencia computacional en ordenadores clásicos parece estar llegando a su l´ımite f´ısico, es necesario explorar paradigmas de computación alternativos que permitan abordar estos problemas de escalado como puede ser el uso de ordenadores cuánticos. El propósito de este trabajo es estudiar los llamados circuitos variacionales, un tipo de algoritmos h´ıbridos cuántico-clásicos adaptado a los ordenadores cuánticos disponibles actualmente con el fin de llevar a cabo tareas de aprendizaje automático supervisado. La pregunta a la que se pretende contestar es: ¿Cuál es la importancia de ser capaz de explorar completamente el espacio de soluciones al usar este tipo de circuitos?

El proceso de clasificación, propuesto por investigadores de IBM en [1], consiste en codificar primero el vector de caracter´ısticas de un punto en el estado del sistema, sobre el que se actuará después con un operador parametrizado que será el objeto a optimizar a fin de obtener el estado final deseado. En la literatura existen otros trabajos ([1, 2])que han medido la eficiencia de estos clasificadores para circuitos de 2 y 3 qubits en simuladores ideales. En este trabajo se ha propuesto un nuevo tipo de circuito variacional y se ha comparado con otros ya existentes, realizando pruebas con el dataset MNIST tanto en dispositivos reales como en un simulador.

(3)

´ Indice

1. Introducción a la Mecánica Cuántica 4

1.1. Herramientas matem´aticas 4

1.2. Postulados de la Mec´anica Cu´antica 8

1.3. Entrelazamiento cu´antico 11

2. Computaci´on cu´antica 12

2.1. Qubits 13

2.2. Circuitos cu´anticos 15

3. Circuitos variacionales 20

3.1. Feature encoders 22

3.2. Circuitos variacionales 23

3.3. Optimizaci´on 25

3.4. SPSA 25

3.5. Sistema de clasificaci´on 26

4. Resultados 28

4.1. Ad hoc Dataset 29

4.2. MNIST Dataset 30

5. Discusi´on y conclusiones 38

(4)

Introducci´ on

Desde que fueran propuestos en la década de 1980 como una herramienta para resolver problemas en f´ısica y qu´ımica cuántica, los ordenadores cuánticos han recorrido un largo camino. Gracias a los avances realizados en ciencia de materiales, fabrica- ción de dispositivos electrónicos y en teor´ıa de la información cuántica se han logrado hitos como la ejecución de una tarea en un ordenador cuántico en cuestión de minu- tos que hubiera supuesto miles de años de procesamiento para un supercomputador actual [3]. Sin embargo, la llamada era de la supremac´ıa cuántica aún, parece algo lejana dado que los dispositivos actuales se encuentran muy limitados tanto en escala como al perder las propiedades cuánticas del sistema tras unos pocos microsegundos debido a un proceso conocido como decoherencia cuántica.

En los próximos años, los dispositivos conocidos como Noisy Intermediate Scale Quantum computers [4] (NISQ), ordenadores cuánticos con más de 50 qubits in- capaces aún de ejecutar corrección de errores completa, podr´ıan encontrar sus primeras aplicaciones comerciales en distintos campos como simulaciones de sistemas f´ısicos en qu´ımica cuántica [5] o incluso en aprendizaje automático [6–8]. Debido a las limitaciones de los dispositivos NISQ, la mayor´ıa de los algoritmos adaptados a estos recurren a métodos h´ıbridos que dividen de manera estratégica las subrutinas ejecutadas entre dispositivos cuánticos y clásicos para as´ı reducir enormemente los requerimientos en número de qubits, complejidad del circuito y tiempo de coherencia de la información necesario. Uno de los métodos h´ıbridos más prometedor es el uso de circuitos cuánticos parametrizados, estos están formados por puertas fijas (como podr´ıa ser una puerta cNOT) y puertas cuya actuación depende de una va- riable ajustable (como por ejemplo una rotación cuántica de un ángulo determinado).

Este tipo de circuitos suele poseer un número de puertas lógicas que escala linealmente con el número de qubits, para as´ı poder ejecutarse correctamente en los ordenadores actuales. Pese a su aparente simplicidad, estos circuitos pueden producir resultados dif´ıciles de replicar por ordenadores clásicos [9]. Además, dentro del campo del aprendizaje automático cuántico, existen distintos esfuerzos por establecer cotas a la capacidad de aprendizaje de los dispositivos cuánticos desde un marco teórico [10,11], descubriendo que algunas clases de funciones que no pod´ıan ser eficientemente aprendidas usando ordenadores clásicos podrán serlo para sus análogos cuánticos [12]. Este tipo de resultados, unido a la dificultad de simular los cálculos de circuitos variacionales parece indicar que, aunque, el tipo de clasificadores que estamos estudiando no suponen una mejora sobre la velocidad con respecto a métodos ya usados, s´ı que pueden mejorar el rendimiento de los modelos clásicos para algunas tareas.

Los circuitos variacionales son matem´aticamente equivalentes a operadores unitarios

(5)

en un espacio cuya dimensión crece exponencialmente con el número de qubits, por lo que la pregunta de investigación de este trabajo será si es posible aprovechar las ventajas para el aprendizaje automático de este tipo de métodos limitando nuestra capacidad de explorar el espacio de soluciones al usar circuitos variacionales senci- llos. Para ello, propondremos un nuevo tipo de circuito variacional que represente a un operador genérico y probaremos su rendimiento en un clasificador, comparándolo con otras soluciones ya existentes.

El esquema t´ıpico usado al aplicar estos circuitos a tareas de aprendizaje autom´ati-

Figura 1. Esquema general seguido por la mayor´ıa de algoritmos h´ıbridos.

co se puede encontrar en la figura 1. En este contexto la palabra aprendizaje hace referencia a la actualización iterativa de los parámetros del circuito hasta conseguir que este consiga un objetivo dado. Un ejemplo del uso de esta técnica es [13] donde se proponen redes generativas antagónicas con circuitos paramétricos que sustituyen a las redes neuronales usuales con el fin de preparar eficientemente estados cuánticos que sigan una distribución de probabilidad determinada, puesto que, este procedimiento es importante para poder realizar ciertas integraciones de manera eficiente y por tanto crucial para numerosos algoritmos cuánticos [14].

La estructura del trabajo será la siguiente: Una introducción a los principios fundamentales de la mecánica cuántica se presenta en el Cap´ıtulo 1 mientras que el Cap´ıtulo 2 consistirá en la aplicación de estos a la computación cuántica para crear circuitos cuánticos. En el Cap´ıtulo 3 se pretende explicar el funcionamiento general del clasificador as´ı como analizar cada una de sus componentes tras el que se exponen los resultados obtenidos en el entrenamiento de distintos modelos en el Cap´ıtulo

(6)

4. Finalmente, el Cap´ıtulo 5 presenta los resultados obtenidos adem´as de proponer posibles mejoras y recomendaciones para futuras investigaciones.

1. Introducci´ on a la Mec´ anica Cu´ antica

Hacia el final del siglo XIX, quedó patente la incapacidad de la f´ısica clásica a la hora de aportar predicciones que coincidieran con varios experimentos de la época. Este hecho supuso el nacimiento de una nueva teor´ıa que propon´ıa un profundo cambio en nuestra manera de entender procesos fundamentales en la naturaleza, la mecánica cuántica. Esta describe el comportamiento de la luz y la materia a escala macroscópi- ca otorgando los mismos resultados que su contraparte clásica siendo, además, capaz de predecir correctamente procesos a escala atómica y subatómica en concordancia con todos los resultados experimentales obtenidos hasta la fecha.

El propósito de este cap´ıtulo es el de presentar las ideas básicas y fundamentales de la mecánica cuántica que nos permitan desarrollar y entender posteriormente las propuestas de la computación cuántica. Para ello, definiremos primero los conceptos matemáticos que nos permitirán dar una descripción completa y rigurosa de esta teor´ıa.

Una vez desarrollado todo el formalismo matemático pasaremos a establecer los postulados de la mecánica cuántica del mismo modo que lo hicieron Paul Adrien Maurice Dirac [15] y John von Neumann [16] ya en 1930, cuando esta se encontraba aún en sus primeras etapas.

Por último, pasaremos a describir sistemas de múltiples part´ıculas (que pasarán a ser múltiples qubits en las siguientes secciones) y veremos como esto da lugar al fenómeno del entrelazamiento cuántico.

1.1. Herramientas matem´ aticas

A pesar del cambio radical de paradigma que supuso la mecánica cuántica, sus principios se fueron estableciendo muy gradualmente. Ya, a principios del siglo XIX, Thomas Young[17] y Augustin-Jean Fresnel[18] realizaron una serie de experimentos que requer´ıan pensar en la luz como una onda para poder explicar su comportamien- to. Para el final de ese mismo siglo, las ecuaciones de Maxwell hicieron patente que la luz no era más que una onda de radiación electromagnética. En 1924, Louis de Broglie fue más allá y presentó en su tesis la idea de la dualidad onda-corpúsculo para toda la materia inspirado por la teor´ıa de la relatividad especial de Einstein, según sus propias palabras [19]:

(7)

The fact that, following Einstein’s introduction of photons in light waves, one knew that light contains particles which are concentrations of energy incorporated into the wave, suggests that all particles, like the electron, must be transported by a wave into which it is incorporated... My essential idea was to extend to all particles the coexistence of waves and particles discovered by Einstein in 1905 in the case of light and photons.

Esta manera de entender la realidad se verá reflejada en la mecánica ondulatoria desa- rrollada en 1925 por Erwin Schrödinger, es en esta teor´ıa donde aparece por primera vez uno de los elementos centrales de la mecánica cuántica: la función de onda ψ(r, t).

Funci´on de onda

Esta función sustituye el concepto de trayectoria clásica puesto que, ahora la posi- ción de una part´ıcula ya no estará perfectamente definida sino que tendremos una probabilidad de encontrarla en un punto r y en un instante t proporcional a ψ(r, t).

M´as concretamente, la densidad de probabilidad de encontrar a la part´ıcula en ese lugar e instante ser´a:

dP(x, t) = C |ψ(r, t)|²

Donde hemos usado la notación de valor absoluto para denotar al módulo de ψ ya que, su imagen estará en general en el cuerpo de los números complejos.

Para una única part´ıcula, la probabilidad total de encontrarla en cualquier punto del espacio debe ser igual a uno, de esta manera usando la ecuación anterior podremos escribir la siguiente condición:

Z

R³

drC |ψ(r, t)|² = 1

El convenio habitual es tomar C como 1 y reescalar la funci´on de onda para que est´e normalizada.

La ecuación anterior nos lleva a estudiar todas las funciones en las que la integral converge, por lo que, serán candidatas a ser funciones de onda. Este conjunto es conocido como funciones de cuadrado integrable por los matemáticos y se suele denotar como L². En realidad, nuestro interés se limitará a un subconjunto de L² dado que, para obtener resultados f´ısicos podemos imponer además sobre nuestras funciones de onda varias restricciones de regularidad como son que la función de onda esté definida en todo punto y, que sea continua e infinitamente diferenciable, de cualquier

(8)

otro modo se obtendr´ıan resultados carentes de significado f´ısico. Llamaremos F a este subespacio de L².

El conjunto L² tiene estructura de espacio de Hilbert, que es la extensión de la noción de un espacio vectorial a un número de dimensiones que ya no es necesariamente finito. Para ver que F es un subespacio propiamente dicho tendremos que comprobar si este es cerrado frente a la suma de elementos. Esta condición significa:

λ₁ψ₁(r, t) + λ2ψ₂(r, t) ∈ F si ψ1, ψ₂ ∈ F Para cualesquiera λ1 y λ2 complejos.

Podemos adem´as dotar a F de un producto escalar definido de la siguiente manera:

hφ, ψi = Z

R³

drφ^∗(r, t)ψ(r, t)

Donde φ^∗ denota el conjugado complejo de φ. Cabe destacar que, debido a la forma del producto escalar, si intercambiamos la posici´on de las funciones de onda (es decir hψ, φi) obtendremos el complejo conjugado de hφ, ψi.

Este modo (h, i) de denotar al producto escalar inspir´o a Dirac a introducir su notaci´on bra-ket, en esta se asocia un vector ket a cada elemento de F de la siguiente manera:

ψ(r, t) ∈ F ⇐⇒ |ψ(t)i ∈ E

Para definir el otro tipo de elementos de esta notaci´on, los vectores bra, primero tenemos que definir el espacio dual de F, es decir, el espacio de las aplicaciones lineales que asignan un escalar complejo a cada elemento ψ(x, t) ∈ F:

φ(ψ) = λ con φ() ∈ Dual(F) φ(aψ1+ bψ2) = aφ(ψ1) + bφ(ψ2) = aλ1 + bλ2

Los vectores bra se definen entonces a trav´es de los elementos de Dual(F) con la siguiente transformaci´on:

φ() ∈ Dual(F) ⇐⇒ hφ| ∈ E^∗

Usando el producto escalar definido antes, podemos asignar un bra a cada ket de la siguiente manera:

|φi ⇐⇒ φ() = hφ, i ⇐⇒ hφ|

(9)

Y as´ı reescribir el producto escalar como:

hφ|ψi = hφ, ψi

El uso de esta notación está ampliamente extendido en mecánica cuántica puesto que, facilita un gran número de cálculos habituales en el campo.

Observables

Los operadores lineales son funciones que asocian a cada ket |ψi otro ket |ψi⁰ de la siguiente manera:

A |ψi= |ψi⁰

A(|ψ1i + |ψ2i) = A |ψ1i + A |ψ2i

Por analog´ıa con el algebra lineal en espacios vectoriales usuales es habitual definir el elemento de matriz de un operador lineal A como el siguiente escalar:

A_i,j = hψi| (A |ψji)

El producto de dos de estos operadores A y B, se define a trav´es de su acci´on sobre un ket:

(AB) |ψi = A(B |ψi)

Como se puede ver, este producto no es conmutativo en general por lo que nos ser´a

´

util en adelante definir el conmutador de dos operadores lineales como:

[A, B] = AB − BA

Si ahora usamos la correspondencia que vimos en la secci´on anterior entre kets y bras, podemos definir el adjunto de un operador A (Para el que usaremos el super´ındice daga †):

|φ⁰i = A |φi ⇐⇒ hφ|⁰ = hφ| A^†

Calculando ahora el elemento de matriz de este nuevo operador:

A^†_i,j = (hψi| A^†) |ψji = (hψj| (A |ψii))^∗ = A^∗_j,i

Los operadores que cumplan A = A^† son llamados operadores herm´ıticos y poseen un rol central dentro de mec´anica cu´antica ya que sus autovalores corresponden a

(10)

cantidades f´ısicas medibles, hecho que hace que reciban el nombre de observables.

Los autovectores y autovalores de un operador lineal se definen mediante la misma ecuaci´on que para una matriz en ´algebra lineal:

A |uii = ai|uii

Los autovalores de un operador lineal ser´an en general complejos pero en el caso de los observables es f´acil demostrar que estos han de ser reales.

1.2. Postulados de la Mec´ anica Cu´ antica

Para entender mejor la novedad que supuso la mecánica cuántica vamos primero a repasar los axiomas sobre los que se construye la mecánica clásica.

Esta última, es sin duda uno de los mayores éxitos de la f´ısica moderna. Su desarrollo se inició en el sXVII por Isaac Newton y Gottfried Wilhelm Leibniz entre otros para explicar el movimiento de los cuerpos celestes dando lugar a la teor´ıa conocida como mecánica Newtoniana. Durante los siglos XVIII y XIX se profundizo y extendió el trabajo de Newton mediante métodos más abstractos dando lugar a la mecánica anal´ıtica[20], que sigue siendo utilizada hoy en d´ıa en todos los campos de la f´ısica moderna siempre que no estén involucradas escalas muy pequeñas (para las cuales es necesario el uso de la mecánica cuántica, como ya hemos visto) u objetos muy masivos (donde se hace imprescindible el uso de la relatividad general).

La descripci´on cl´asica de un sistema f´ısico se resume en los siguientes enunciados:

1. El estado de un sistema en un momento a tiempo t0 quedar´a totalmente determinado al especificar la posici´on y el momento de las N part´ıculas que lo componen.

2. El valor de cualquier magnitud f´ısica estará de igual manera completamente determinado en un tiempo t0 si el estado del sistema en ese momento es conocido. Y por tanto, se podrá predecir con seguridad el resultado de cualquier medición.

3. La evoluci´on temporal del sistema a partir de un tiempo t0se obtendr´a mediante las ecuaciones de Hamiston-Jacobi¹.

1Las ecuaciones de Hamilton-Jacobi[20, Cap´ıtulo 10] son un sistema de ecuaciones diferenciales de primer orden para la posición y el momento de las part´ıculas del sistema. Esto hace que su solución dadas unas condiciones iniciales es única, por lo que el sistema quedará determinado para cualquier tiempo.

(11)

En contraposición a la definición clásica de un sistema f´ısico (enunciado 1) tenemos el primer postulado de la mecánica cuántica[21]:

El estado del sistema en un tiempo t0 quedar´a determinado al especificar un ket

|ψ(t0)i perteneciente al espacio de estados E.

Aqu´ı se formaliza la intuición que vimos al definir la función de onda de que esta era un análogo a las trayectorias clásicas. Para ver el análogo a cuántico a las magnitudes f´ısicas (enunciado 2) tenemos el segundo postulado:

Toda cantidad f´ısica medible corresponderá a la actuación de un observable (sección 1.1) sobre el espacio de estados E.

Vemos que esto establece una diferencia radical con la mecánica clásica, donde las magnitudes f´ısicas eran funciones de las variables de estado de nuestro sistema, mientras que ahora son operadores que actúan sobre vectores ket, que son los que contienen el estado de nuestro sistema.

De esta manera, el resultado clásico de la medición de una magnitud será el valor de la función que la representa lo que hace que surja la cuestión de cómo se determina el valor de la medición de la magnitud en mecánica cuántica, para lo que está el siguiente postulado:

El único resultado posible de la medición de un observable cualquiera (A) será uno de los autovalores de este (ai).

Vemos que se ha perdido la certeza cl´asica sobre las mediciones ya que ahora podemos obtener de manera aleatoria cualquier autovalor del observable como resultado.

El siguiente postulado nos da informaci´on acerca de la probabilidad de obtener cada resultado posible:

La probabilidad de obtener el autovalor ai en una medici´on ser´a igual a:

P(ai) = |hui|ψi|² (1.1)

Donde |uii es el autovector del observable A con autovalor ai, en caso de que el autovalor est´e degenerado, la probabilidad ser´a:

P(ai) =

gi

X

n=1

|huⁿ_i|ψi|² (1.2)

Donde gi es la degeneraci´on de este.

(12)

Este postulado se puede extender a casos en los que los posibles resultados de la medición no pertenezca a un conjunto discreto de posibilidades sino que estos for- men un continuo pero en este trabajo no será necesario dado que, en computación cuántica no se dan este tipo de situaciones.

El quinto postulado sirve para establecer qué sucede con la función de onda después de una medición puesto que, aunque no podamos saber el resultado de esta a prio- ri, una vez que hemos medido tenemos nueva información y hemos de integrarla en nuestra función de onda:

La medici´on de un sistema har´a que este colapse al estado:

|ψi −→

ai

P_i|ψi

phψ|Pi|ψi (1.3)

Donde Pi es el proyector en el espacio de los autovectores con autovalor ai, {|uⁿ_ii}, definido como:

P_i =

gi

X

n=1

|uⁿ_ii huⁿ_i| (1.4)

El último postulado es el análogo al Enunciado3 de la mecánica clásica:

La evolución del sistema vendrá dada por la ecuación de Schrödinger:

i~d

dt|ψ(t)i = H(t) |ψ(t)i (1.5)

Una de las consecuencias más importantes de este último postulado es el principio de superposición, este se deriva de la homogeneidad y linealidad de la ecuación de Schrödinger.

Para ilustrar este concepto supongamos que |ψ1(t)i y |ψ2(t)i son soluciones de (1.5), entonces

ψ(t)ˆ E

= λ1|ψ₁(t)i + λ2|ψ₂(t)i Tambi´en lo ser´a, siempre que cumplaD ˆψ(t)

ψ(t)ˆ E

= 1 para que se cumpla la conser- vaci´on de la probabilidad.

(13)

1.3. Entrelazamiento cu´ antico

Descrito por Einstein como una “escalofriante acción a distancia” e incluso tratado como una prueba de la inconsistencia de la mecánica cuántica, el entrelazamiento cuántico ha llegado a convertirse en uno de los aspectos más peculiares de la mecáni- ca cuántica además de la pieza más importante dentro de las diferencias entre la mecánica clásica y cuántica.

Para entender en qu´e consiste este fen´omeno tendremos primero que definir el producto tensorial de los espacios de Hilbert de dos part´ıculas distintas:

E = EA⊗ EB

Tendremos que para cada ket |uii_A perteneciente al espacio EA y cada ket |vji_B perteneciente al espacio EB tendremos un ket:

|u_ii_A⊗ |v_ji_B ≡ |u_i, v_ji ∈ E

Este producto será por definición distributivo y lineal con respecto a la multiplicación de escalares:

De esta manera, los kets pertenecientes a este nuevo espacio serán los que describan el sistema f´ısico de dos part´ıculas. Por lo que, si una se encuentra en el estado |φi_A y otra en |ξi_B, el sistema será |φi_A⊗ |ξi_B. Este tipo de estados se denomina estados separables o estados producto y las probabilidades de obtener un resultado para la medición también se podrán factorizar como un producto de las probabilidades in- dividuales para cada part´ıcula.

El entrelazamiento cu´antico aparece cuando nos damos cuenta de que el estado m´as general de E se puede escribir como:

|ψi_AB =X

i,j

c_i,j|u_i, v_ji

Y no tiene por qué ser un estado separable, esto implica que entre las dos part´ıculas pueden estar correlacionadas y de esta manera las mediciones que se realicen sobre una no sólo nos darán información sobre el estado de la otra, sino que podr´ıan afectar a este debido al colapso de la función de onda.

Veamos ahora un ejemplo ilustrativo, imaginemos que tenemos dos part´ıculas en el

(14)

siguiente estado:

|ψi_AB = 1

√2(|0i_A⊗ |1i_B+ |1i_A⊗ |0i_B)

Donde los kets cumplen las siguientes relaciones con los operadores XA y XB: X_A|0i_A= a0|0i_A X_A|1i_A= a1|1i_A

X_B|0i_B = b0|0i_B X_B|1i_B = b1|1i_B

Si al medir el observable Xa obtenemos el autovalor a0, nuestro estado colapsar´a a:

|ψ⁰i_AB = P_0,A|ψi

hψ| P_0,A|ψi = |0i_Ah0|_A(|0i_A⊗ |1i_B+ |1i_A⊗ |0i_B)

= |0i_Ah0|_A|0i_A⊗ |1i_B+ |0i_Ah0|_A|1i_A⊗ |0i_B

= |0i_Ah0|_A|0i_A⊗ |1i_B = |0i_A⊗ |1i_B Mientras que si obtenemos el valor a1, el estado final ser´a:

|ψ⁰i_AB = |1i_A⊗ |0i_B

Vemos que al medir la part´ıcula A, también queda totalmente determinado el estado de la part´ıcula B. Durante mucho tiempo se pensó que la mecánica cuántica era una teor´ıa incompleta cuya naturaleza probabil´ıstica era debida a la existencia de una serie de variables ocultas que, de ser tomadas en cuenta, predecir´ıan de manera determinista el resultado de cualquier medición. No fue hasta los años 60, con las desigualdades propuestas por John Stewart Bell (y que más tarde recibir´ıan su nombre), que se demostró la incompatibilidad de la mecánica cuántica con las teor´ıas de variables ocultas.

En su art´ıculo titulado “Sobre la paradoja de Einstein Podolsky Rosen”[22], Bell llevaba un paso más allá el análisis del entrelazamiento y despertó el interés por este, ya que, la correlación entre las mediciones y la información mutua de las distintas part´ıculas entrelazadas puede ser explotada y de hecho es una parte central de campos como la criptograf´ıa cuántica y la computación cuántica.

2. Computaci´ on cu´ antica

A principios de los años 70 surgió un gran interés por conseguir controlar de manera precisa un sistema cuántico aislado para estudiar sus propiedades, este tipo de ex-

(15)

perimentos inspiraron a Paul Benioff para que en el a˜no 1979 publicara su art´ıculo

“The computer as a physical system: A microscopic quantum mechanical Hamilto- nian model of computers as represented by Turing machines”[23]. En este se sugiere y explora el uso de la mecánica cuántica como un nuevo paradigma de la computación.

Poco despu´es, tanto Yuri Manin en su libro C¸ omputable and Non-Computable”[24]

(escrito originalmente en ruso y no traducido hasta años más tarde) como Richard Feynman en su charla ”Simulating Physics with Computers”[25] ayudaron a definir aspectos básicos de la computación cuántica, as´ı como proponer posibles usos dando el pistoletazo de salida a la investigación de algoritmos que aprovecharan las cuali- dades de estos curiosos ordenadores. En 1985 David Deutsch publicó un art´ıculo[26]

donde formalizaba la noción de máquina de Turing cuántica y formulaba una versión más fuerte del principio de Church–Turing para teor´ıa de complejidad, que expone que cualquier proceso f´ısico puede ser simulado eficientemente por una máquina de Turing cuántica.

Gran parte del interés por los ordenadores cuánticos es debido a su capacidad de resolver varios problemas en tiempo polinomial que se sospecha que no podr´ıan ser resueltos en el mismo orden de tiempo por una máquina de Turing clásica², algunos de estos son:

La factorización de enteros: Uno de los algoritmos cuánticos más famosos propuesto por Peter Shor en 1999[27] donde, además, se detalla un método para el cálculo eficiente de logaritmos discretos.

La simulación de sistemas cuánticos demasiado complejos para su estudio, tanto en laboratorio como su simulación en superordenadores clásicos[28].

La b´usqueda de soluciones aproximadas para el polin´omio de Jones en teor´ıa de nudos[29].

Este conjunto de problemas, que pueden ser resueltos por un ordenador cu´antico en un tiempo polinomial con un error acotado es denominado BQP.

2.1. Qubits

De la misma manera que un bit es la unidad básica de información en computación clásica y se implementa f´ısicamente con un sistema f´ısico que puede tomar dos estados distintos, un qubit será su versión cuántica y se implementará mediante un sistema

2P es el conjunto que engloba a todos estos problemas.

(16)

cu´antico con dos estados, por lo que como vimos en la secci´on anterior, si llamamos a esos estados |0i o |1i, tendremos que, en general:

|xi = α |0i + β |1i Donde α y β son complejos.

Vemos, que gracias al uso de un sistema cuántico para la codificación de un qubit (este puede ser la polarización de un fotón o el esp´ın de un electrón aunque también existen propuestas más complejas que usan circuitos electrónicos en materiales superconductores) podremos aprovechar propiedades de la mecánica cuántica como la superposición o el entrelazamiento.

Añadir más qubits es equivalente al caso de múltiples part´ıculas que vimos en la sección anterior. Por ejemplo, si tenemos dos qubits:

|xi = α |00i + β |01i + γ |10i + η |11i Y con un n´umero n de qubits:

|xi =

1

X

i0,i1,...,in=0

c_i₀_,i₁_,...,i_n|i₀, i₁, . . . , i_ni

A veces, puede ser ´util representar los kets en notaci´on vectorial, de esta manera:

|xi = (c0,...,0, c_0,...,1, . . . , c_1,...,1)^T

El número de parámetros necesario para describir un sistema de n qubits será 2ⁿ, mientras que, en un sistema clásico sólo necesitamos n (para especificar en estado de cada bit), esto supone un aumento exponencial de la información que almacena un estado con respecto al caso clásico para ver lo que supone este hecho, imaginemos que tuviéramos 500 qubits totalmente conectados en un ordenador cuántico, podr´ıamos en teor´ıa almacenar 2⁵⁰⁰ coeficientes en el estado que representa nuestro sistema,

¡Más que el número de átomos del universo!

El precio a pagar por la capacidad de operar sobre tal cantidad de información es que no podemos acceder a ella directamente puesto que, está codificada en la función de onda del sistema y la única manera de obtener el resultado de nuestro cálculo será mediante mediciones, que como ya hemos visto destruyen el estado haciendo

(17)

que colapse. Podemos reconstruir la funci´on de onda repitiendo el c´alculo y viendo la cantidad de veces que obtenemos cada resultado, pero necesitar´ıamos repetir este proceso una cantidad exponencial de veces con lo que perder´ıamos cualquier ventaja obtenida.

2.2. Circuitos cu´ anticos

La computación clásica se cimenta sobre circuitos electrónicos y de manera análoga se construye la computación cuántica, usando cables que transmiten la información y puertas cuánticas que actúan sobre esta para representar nuestros cálculos.

Comenzaremos describiendo las puertas más sencillas, que solo actúan sobre un qubit. En computación clásica, podemos definir dos puertas lógicas sobre un bit: la puerta NOT, que lo invierte y un buffer, que lo deja exactamente igual. En compu- tación cuántica sin embargo podemos definir infinidad de transformaciones sobre un qubit, siempre que cumplan ciertos requisitos para ser coherentes con los postulados de la mecánica cuántica.

Lo primero que impondremos será que actúe linealmente sobre los estados de la base computacional, por lo que, nos bastará con especificar su acción sobre estos.

Conociendo esto ya podemos imaginar como será la versión cuántica de una puerta NOT:

X |0i = |1i X |1i = |0i X(α |0i + β |1i) = α |1i + β |0i

A continuación, se exponen algunas de las puertas de un qubit más habituales, junto con su representación matricial:

Puerta S´ımbolo Matriz

Pauli-Z Z 1 0

0 −1

Pauli-X X 0 1

1 0

Pauli-Y Y

0 −i i 0

Hadamard H ^√¹2

1 1 1 −1

Rotaci´on-Z Rz ^√¹2

1 1 1 −1

(18)

Rotaci´on-Y Ry ^√¹₂1 1 1 −1

Rotaci´on-X Rx ^√¹2

1 1 1 −1

En la práctica todos estos operadores se crearán a partir de tres puertas f´ısicas definidas en la representación intermedia para instrucciones cuánticas Open Quantum Assembly Language [30]:

Puerta S´ımbolo Matriz

U1(λ) U1 1 0

0 e^iλ

U2(λ, φ) U2 1 e^−iλ

e^iφ e^−i(λ+φ)

U3(λ, φ, θ) U3

"

cos^θ₂ e^−iλsin^θ₂ e^iφsin^θ₂ e−i(λ+φ) cos^θ₂

#

El uso de estas tres puertas permite optimizar las implementaciones reduciendo as´ı el error en la ejecuci´on de los circuitos.

La última restricción que impondremos sobre las transformaciones será que sean unitarias. Por lo que, toda puerta lógica representada por un operador U cumplirá:

hx|xi = (hx| U⁻¹)(U |xi) U⁻¹U = I

Esta condición asegura que se conserve la probabilidad total, pero tiene una conse- cuencia aún más profunda, todas las operaciones que se realizan durante un cálculo cuántico (exceptuando las mediciones) son reversibles, para ello, nos bastará con aplicar la transformación inversa. ¿Significa esto que no existe un análogo cuánti- co a puertas lógicas tan básicas como AND u OR? La respuesta es que s´ı, ya que, para cualquier función binaria f : {0, 1}^m → {0, 1}ⁿ podremos definir una función invertible:

fˆ: {0, 1}^m+n→ {0, 1}^m+n Tal que:

f(xˆ 0,...,m−1, xm,...,n+m−1) = (x0,...,m−1, xm,...,m+n−1⊕ f (x0,...,m−1))

De esta manera, su imagen será un vector binario con los m primeros bits iguales a los de su entrada y los n siguientes iguales a la suma módulo 2 de los últimos n bits

(19)

de la entrada y el resultado de f evaluado en x0,...,m−1.

Es fácil ver que esta nueva función será biyectiva, de modo que, podremos imple- mentarla en una puerta lógica cuántica que aplique ˆf a cada elemento de la base computacional.

Veamos como ejemplo la implementaci´on una puerta AND en un circuito cu´antico:

|ai

|bi

|0i X

a b a b c

0 0 0 0 0

0 1 0 1 0

1 0 1 0 0

1 1 1 1 1

Para ello, hemos utilizado una puerta NOT (o Pauli-X) doblemente controlada que actúa sobre un qubit ancilla fijado inicialmente en |0i. El uso de ancillas es muy habitual en computación cuántica para evitar tener que perder la información de alguno de los bits iniciales, lo que provocar´ıa que la operación no fuera reversible.

Por último, para representar las mediciones que se usaremos al final de los circuitos para obtener información sobre el estado final de los qubits proyectando en la base computacional se usará el s´ımbolo:

Las mediciones constituyen la única operación no reversible de todas las que hemos visto dado que rompen la superposición y coherencia del sistema, por esta razón se suelen reservar para el final del circuito, con el fin de aprovechar los estados cuánticos lo máximo posible.

Construcci´on de una puerta universal de n-qubits

Hasta ahora, nos hemos limitado al estudio de puertas lógicas que actúan sobre un solo qubit, ya sea directamente o bien de manera controlada. Su importancia radica en lo sencillo que supone replicar su efecto en un sistema cuántico y por tanto en lo fácil que resulta su implementación, no siendo este el caso para puertas de varios qubits.

Por este motivo ser´a fundamental que seamos capaces de crear puertas que act´uen de manera arbitraria sobre varios qubits a partir solamente de un subconjunto de las

(20)

puertas simples vistas anteriormente. Para ello, al igual que en computación clási- ca se demuestra la universalidad de las puertas NAND y COPY capaces de crear cualquier función booleana, aqu´ı desarrollaremos un algoritmo capaz de construir un operador general de n a n qubits usando como conjunto universal puertas cNOT y rotaciones de un solo qubit.

Un requisito previo importante es conseguir desarrollar puertas de un sólo qubit múltiplemente controladas usando únicamente nuestro set de puertas universales.

Este problema fue resuelto por Barenco et al. en su art´ıculo [31] donde proponen un m´etodo para conseguir esto mismo. Un ejemplo para el caso de una puerta U doblemente controlada en un circuito de 3 qubits puede verse en la figura:

Donde V cumple que V² = U .

U

=

V V^† V

Una vez que podemos usar puertas de un qubit m´ultiplemente controladas podemos resolver nuestro problema principal haciendo uso de la siguiente descomposici´on, tal cual se muestra en [32]:

U⁽ⁿ⁾ =

2ⁿ−1

Y

i=1 i−1

Y

j=0

V_ij (2.1)

V_ij actuará de forma trivial sobre los 2ⁿelementos del espacio de Hilbert exceptuando a los kets |ii ≡ |i0i₁i₂i₃i y |ji ≡ |j0j₁j₂j₃i sobre los que aplicará una transformación general. La idea principal de este procedimiento es reducir la relación de estos dos elementos a la aplicación de una rotación genérica entre ellos como si se trataran de los dos estados de un solo qubit y al hacerlo para todos los pares i y j, poder imitar el efecto de cualquier operador elemento a elemento.

Para construir un circuito equivalente a Vij comenzaremos escribiendo un c´odigo Gray entre las expresiones binarias de i y j. Por ejemplo si tenemos i = 1001 y j = 0100, este ser´a:

i₃ i₂ i₁ i₀

(21)

i= 1 0 0 1 i⁰ = 1 0 0 0 i⁰⁰ = 1 1 0 0 j = 0 1 0 0

Puesto que, cada uno de los números en este código solo difiere en un bit del siguiente, podemos usar una puerta C⁽ⁿ⁻¹⁾− N OT para pasar de un elemento del código Gray al siguiente como se puede apreciar en el siguiente circuito:

|i₀i |j₀i

|i₁i |j₁i

|i₂i |j₂i

|i₃i |j₃i

Donde los puntos sin relleno son controles que se activan con el estado |0i. Si en lugar de la ´ultima puerta, colocamos un operador U que corresponda a cualquier rotaci´on de un qubit y tras ello deshacemos el efecto de las C⁽ⁿ⁻¹⁾− N OT aplicadas, obtendremos el siguiente circuito (en este caso concreto para i = 1001 y j = 0100):

R

Si analizamos en detalle la acci´on de este circuito veremos que las dos primeras puertas se activar´an solamente con los kets |ii = |i0i₁i₂i₃i = |1001i y |i⁰i = |i0i₁j₂j₃i =

|1001i transformándolos en |i⁰⁰i = |i0j₁j₂j₃i = |1100i. La rotación R actuará entonces

(22)

sobre el primer qubit (|i0i = |1i = (0, 1)^T para este caso concreto) de la siguiente manera:

R(θ, φ, λ) |i0i ⊗ |j₁j₂j₃i =

"

cos ^θ₂

e^−iλsin ^θ₂ e^iφsin ^θ₂ e^{i(φ+λ) cos}(^θ2)

!

|i₀i

#

⊗ |j₁j₂j₃i

=

e^iφsin θ 2

|0i + e^{i(φ+λ) cos}(^θ2) |1i

⊗ |j₁j₂j₃i

= e^iφsin θ 2

|ji + e^{i(φ+λ) cos}(^θ2) |i⁰⁰i

Las dos últimas puertas transformarán el ket |i⁰⁰i devolviéndolo a su estado original

|ii. Siguiendo un desarrollo similar para la componente |ji, obtenemos el siguiente mapeo para el circuito anterior:

|ii , |i⁰i , |i⁰⁰i → e^iφsin θ 2

|ji + e^{i(φ+λ) cos}(^θ2) |ii

|ji → cos θ 2

|ji e^−iλsin θ 2

|ii

La actuación de este será trivial para el resto de componentes de la base. Una vez visto como crear y cómo actúa Vij solo tendremos que colocar estos circuitos en serie según nos indica2.1 y habremos terminado nuestra implementación de U⁽ⁿ⁾.

Este procedimiento es válido para cualquier puerta pero en general no será eficiente puesto que necesitaremos ⁽²ⁿ⁻¹⁾²₂ ⁿ⁻¹ puertas Vij (lo que supone un crecimiento O(2ⁿ× 2ⁿ) = O(4ⁿ)) y cada una de estas necesitará además O(n²) puertas elementales.

Encontrar qu´e transformaciones unitarias se pueden representar usando un n´umero polinomial de puertas elementales es a d´ıa de hoy un problema abierto en el campo.

3. Circuitos variacionales

Una gran parte de los algoritmos cuánticos propuestos para aprendizaje automático consisten en codificar primero los datos que poseamos en las 2ⁿ amplitudes de un estado cuántico para más tarde operar sobre este mediante circuitos con n qubits, que podrán procesar estos datos entonces en un tiempo polilogar´ıtmico, siempre y cuando nuestro circuito posea un número de puertas de orden O(poly(n)). Sin embargo en la práctica nos encontramos con que gran parte de los algoritmos propuestos no puedan ser implementados en los dispositivos disponibles hoy en d´ıa ya que poseen qubits imperfectos que intercambian calor con el entorno haciendo que pierdan sus

(23)

propiedades cu´anticas en pocos microsegundos.

Los métodos h´ıbridos hacen uso de ordenadores clásicos para simplificar los algoritmos usados ya que limitan el uso de ordenadores cuánticos a tareas concretas en las que su uso suponga una ventaja. Esto los convierte en candidatos perfectos para las primeras aplicaciones reales de ordenadores cuánticos en el futuro cercano.

Centrándonos, además, en el campo del aprendizaje automático, destacan los circuitos variacionales 1 que utilizan circuitos parametrizados que se optimizan con el fin de minimizar una función de coste dada.

En nuestro caso crearemos un clasificador bas´andonos en esta familia de algoritmos.

Como base para entrenar y calcular la precisi´on de los modelos estudiados emplea- remos llamada librer´ıa Variational Quantum Classifier (VQC) nativa de Qiskit [33].

Para la creación, entrenamiento y validación de un modelo usaremos un conjunto de puntos de entrenamiento y otro de test, estos puntos serán una tupla (x, y) donde x la representación del punto en el feature space elegido e y la clase de este.

Nuestro modelo nos dará una predicción en función de un vector de parámetros θ mediante el siguiente proceso:

1. Se parte de un vector de estado |0^⊗ni donde n es el n´umero de qubits del circuito

2. Aplicaremos un circuito que llamaremos feature encoder (sección3.1) al estado inicial. La acción de este será codificar x en el vector de estado |φii = F (x) |0^⊗ni donde F (x) es el operador unitario que representa al feature encoder.

3. Por último, se aplicará el circuito variacional (sección 3.2) Uθ de modo que:

|φ_fi = Uθ|φ_ii

4. Clasificación del punto (ver sección 3.5 para más detalles) a partir de la medi- ción de múltiples ejecuciones del circuito que permitan muestrear las probabilidades de cada estado de φf.

Por otra parte, los parámetros θ se actualizarán mediante un método estocástico de descenso de gradiente (sección 3.3) usando una función de coste que compara las predicciones realizadas por nuestro modelo para los puntos de entrenamiento con sus respectivas clases.

(24)

3.1. Feature encoders

Los feature encoders se encargarán de generar un circuito que codifique nuestros datos en las amplitudes de un estado cuántico. Este circuito, al que denominaremos F(x) poseerá una serie de puertas, cuyos parámetros, serán función del punto que estamos clasificando.

En este trabajo hemos estudiado dos opciones distintas, que se detallan a continuaci´on.

Raw Feature Vector

Este feature encoder consiste en asignar cada componente del punto x normalizado de nuestros datos a una de las 2ⁿ componentes del estado cu´antico, rellenando el resto con ceros si fuera necesario. De esta manera:

x=





 x0

x₁ ...

x_D−1







−→ |ψ(x)i = 1

|x|

D−1

X

i=0

x_i|ii

!

Deberemos tener en cuenta al usar este feature encoder, que estamos perdiendo in- formación sobre los puntos codificados al normalizarlos ya que todos los puntos que sean un múltiplo de ˆx ≡ x/|x| generarán el mismo circuito.

En el caso de m´as simple posible —codificar x = (x1, x2) en un solo qubit— el circuito obtenido tendr´a la siguiente forma:

U3(θ, 0, 0) U1(φ)

|0i cos(θ) sin(θ) sin(θ) cos(θ)

1 0

0 e^iφ

|ψ(x)i ≡

√1

2 cos(θ) |0i + e^iφsin θ |1i

Donde θ = tg⁻¹(

x2

x1

) y φ será π si sgn(x2/x₁) = −1 y 0 de otro modo. En el caso general de n qubits se hará uso de la descomposición propuesta en [34].

Second Order Expansion

Este método propone un esquema más complejo con el fin de crear estados con un mayor entrelazamiento que pueda ser aprovechado más tarde por el resto del circuito.

(25)

Utilizaremos un circuito que aplique la siguiente transformaci´on sobre nuestro regis- tro inicial en funci´on del punto x:

U_Φ(~_x)= exp



i X

S⊆[n]

φ_S(~x)Y

i∈S

Z_i





Donde Ziser´a el operador Z de Pauli aplicado sobre el i-´esimo qubit, S ∈ {0, 1, . . . , n−

1, (0, 1), (0, 2), . . . , (n − 2, n − 1)} y la funci´on φS(x) = xS 0 o φS(x) = (π − xS0)(π − xS1) si S contiene solamente un elemento o 2 respectivamente.

Siguiendo esta f´ormula, generar´ıamos, por ejemplo, para el caso de 2 qubits y x = (x1, x₂):

|0i H U1(2φ0(x))

|0i H U1(2φ1(x)) X U1(2φ1,2(x)) X

Las puertas H al comienzo del circuito transformar´an el estado inicial |00i en una superposici´on de todos los estados posibles ¹₂

P1

i0,i1=0|i₀i₁i .

3.2. Circuitos variacionales

Tras aplicar al estado inicial alguno de los dos feature encoders vistos en la secci´on anterior tendremos nuestro punto codificado en las amplitudes del vector de estado.

Para procesar el punto y poder obtener después una predicción aplicaremos ahora otro circuito al que llamaremos circuito variacional y denotaremos por Uθ. Este será en general un circuito con poca profundidad con una serie de puertas parametrizadas según el vector θ.

En este trabajo, se han usado 2 tipos distintos de arquitecturas o formas variacionales para la parte optimizable del circuito.

Circuito Universal

Uno de los grandes retos a la hora de decidir cual es la arquitectura a usar en el circuito variacional del clasificador es asegurarnos de que esta sea capaz de explorar adecuadamente el espacio de soluciones, es decir, que tenga la capacidad de, variando sus parámetros, aproximar con precisión arbitraria cualquier aplicación lineal unitaria

(26)

de R²ⁿ → R²ⁿ, de manera similar al Universal Approximation Theorem para redes neuronales. Para asegurar que nuestro circuito cumple esta propiedad usaremos los circuitos definidos en la Sección 2.1. Dado que cada rotación controlada posee 3 parámetros ajustables, el número total de estos será:

Nparams = 3Nrotations = 3(2ⁿ− 1) 2ⁿ⁻¹ 2

Se puede ver que tanto el número de parámetros como el número de puertas lógicas a usar crecerá exponencialmente, por lo que, esta arquitectura no será escalable, sin embargo, supone un ejercicio académico interesante comparar el rendimiento de esta con otras que poseen un número de parámetros y puertas que aumenten linealmente con el número de qubits.

En el caso de un sólo qubit, nuestro circuito se reducirá a la aplicación de una puerta U3, mientras que en el caso de n = 2 tendremos:

V_1,0 V_2,0 V_2,1 V_3,0 V_3,1 V_3,2

U3 U3 U3 U3

U3 U3

RYRZ

Este circuito consiste en la aplicación sucesiva de capas con rotaciones en los ejes Z e Y concatenadas con capas de entrelazamiento —Que estarán compuestas por puertas H y puertas cNOT para cada par de qubits— de esta manera, los circuitos generados siguiendo este esquema tendrán la forma:

RY(θ0) RZ(θ1)

H

U3(θ0,0, 0) U1(θ1) U3(θ4,0, 0) U1(θ5)

U3(θ2,0, 0) U1(θ3) U2(0, π)) X U2(0, π)) U3(θ6,0, 0) U1(θ7)

Esta estructura puede repetirse varias veces para aumentar el número de parámetros y la expresividad del circuito. De esta manera, el número de parámetros total será:

N_params= 2n(d + 1)

(27)

Donde n ser´a el n´umero de qubits y d las veces que se repita el circuito.

3.3. Optimizaci´ on

Para encontrar los parámetros de las formas variacionales del clasificador que minimicen la función de coste se usará un método de descenso por gradiente estocástico llamado Simultaneous perturbation stochastic approximation (SPSA) debido a su ro- bustez frente al ruido en la estimación de los gradientes, además, la función de coste a minimizar será cross entropy loss definida de la siguiente manera:

CE = 1 N

N −1

X

i=0

t_ilog (P(ti))

Donde t es un vector con las misma dimensión que el número de clases nulo en todas sus componentes excepto en la clase correcta a la muestra i-ésima mientras que P(ti) es un vector con las probabilidades asignadas por el clasificador a la clase de la muestra.

El esquema de actualizaci´on de los par´ametros se puede ver en la Figura 3.3.

Figura 2. Esquema seguido para la actualizaci´on de los par´ametros.

3.4. SPSA

El objetivo de este algoritmo propuesto en [35] será obtener los parámetros u∗ que minimicen nuestra función de coste:

u^∗ = arg m´ın

u∈U J(u)

(28)

Esto lo conseguiremos mediante un procedimiento iterativo idéntico al seguido en el método aproximación estocástica de diferencias finitas (FDSA):

u_n+1 = un− a_ngˆ_n(un)

Donde un será el vector de parámetros en la época n, ˆg_n será una estimación para el gradiente de la función de coste y {an} una serie discreta de números positivos que converja a 0. La diferencia con FDSA viene dada por la estimación del gradiente ˆg_n, en SPSA se calcula el gradiente mediante:

ˆ

g_n(un) = J(un+ cn∆_n) − J(un− c_n∆_n) 2cn

∆⁻¹_n

Donde ∆n es el vector correspondiente a una perturbación aleatoria generada en el paso n y ∆⁻¹_n un vector donde cada componente es la inversa de ∆n. Una de las mayores ventajas de este método es que solo requiere dos llamadas a la función de coste para cada paso ya que perturba todas las direcciones al mismo tiempo, en cambio, FDSA necesitará 2D evaluaciones, donde D es la dimensión del espacio de parámetros puesto que perturba una dirección cada vez.

Aunque SPSA no sigue directamente el camino de máxima pendiente por ser un método estocástico, en promedio su trayectoria no será muy distinta de este puesto que ˆg_n es un estimador no sesgado del gradiente real.

3.5. Sistema de clasificaci´ on

Para clasificar un punto x en funci´on del estado final del circuito |φfi asignaremos una clase mediante un procedimiento arbitrario a los distintos estados de la base computacional, por lo que, a partir de las probabilidades de obtener cada elemento de la base podremos obtener las probabilidades que asigna nuestro modelo a las distintas clases.

La asignación de las clases usada dependerá del número de clases C de nuestro problema y del número n de qubits:

C = 2

En caso de una clasificaci´on binaria se decidir´a la clase por paridad del estado si n es par. De esta manera, obtendremos la siguiente correspondencia entre los estados de la base computacional y las clases 0 y 1 para 2 qubits:

Mientras que, para n = 4 obtendr´ıamos la siguiente asignaci´on (pese a que no vaya a ser necesaria en el trabajo por usarse solamente 2 y 3 qubits):

(29)

|00i |01i |10i |11i

Clase 0 1 1 0

|0i₀⊗ |0i₁ |0i₀⊗ |1i₁ |1i₀⊗ |0i₁ |1i₀ ⊗ |1i₁

|0i₂⊗ |0i₃ 0 1 1 0

|0i₂⊗ |1i₃ 1 0 0 1

|1i₂⊗ |0i₃ 1 0 0 1

|1i₂⊗ |1i₃ 0 1 1 0

En el caso, de un n´umero impar de qubits se optar´a por usar un sistema de voto mayoritario. Por ejemplo, para 3 qubits:

|0i₀⊗ |0i₁ |0i₀⊗ |1i₁ |1i₀⊗ |0i₁ |1i₀⊗ |1i₁

|0i₂ 0 0 0 1

|1i₂ 0 1 1 1

C = 3

La clase se asignar´a ahora mediante la suma de las paridades de distintos segmentos del elemento de la base. Por ejemplo, para asignar una clase a |i0i₁. . . i_ni miraremos la paridad de los primeros_n

2 (esto es calcular la suma m´odulo 2 de

i₀i₁. . . ibⁿ₂c E) y luego la de los restantes, siendo la suma de las paridades la clase asignada. Con n= 2

|00i |01i |10i |11i

Clase 0 1 1 2

Mientras que, para n = 3

|0i₀⊗ |0i₁ |0i₀⊗ |1i₁ |1i₀⊗ |0i₁ |1i₀⊗ |1i₁

|0i₂ 0 1 1 0

|1i₂ 1 2 2 1

C > 3

Si tenemos un número de clases mayor a 3, se calculará el valor decimal de los bits del vector i0i1. . . in ≡ N y se asignará la clase segúnj

N class step

k

donde class step ≡ ₂ⁿ

C.

(30)

Por lo que, para n=2 tendremos:

|00i |01i |10i |11i

Clase 0 1 2 3

Mientras que, para n = 3

|0i₀⊗ |0i₁ |0i₀⊗ |1i₁ |1i₀⊗ |0i₁ |1i₀⊗ |1i₁

|0i₂ 0 0 1 1

|1i₂ 2 2 3 3

4. Resultados

En esta sección se recogen los resultados obtenidos para las pruebas realizadas sobre los distintos circuitos variacionales con dos datasets distintos, primero, con unos datos generados artificialmente y pensados para este tipo de clasificadores y por último, usando el dataset MNIST reduciendo el número de clases.

Figura 3. Conectividad de los qubits en el ordenador ibm burlington as´ı como la tasa de error para las distintas puertas en este en el momento de ejecuci´on en la Versi´on 1.1.4.

Todas las pruebas fueron ejecutadas en una máquina virtual de Google Cloud con 8 hilos y 28gb de memoria RAM. Para la ejecución de los circuitos cuánticos, se usaron

(31)

dos backends: el simulador Qiskit Aer escrito en C++ que nos permitir´a estudiar los circuitos en un entorno idealizado antes de ejecutarlos en un ordenador cu´antico real.

En nuestro caso, enviaremos nuestros circuitos al Centro de Computación Cuántica de IBM situado en Burlington, este posee un ordenador con 5 qubits implementados en circuitos electrónicos superconductores formando una estructura de T como se puede ver en la figura 3.

4.1. Ad hoc Dataset

A modo de calentamiento y con el fin de visualizar la acción de nuestro clasificador, lo probaremos usando datos generados de manera artificial y que simulan la acción de un circuito variacional con unos parámetros desconocidos, es decir, la aplicación un operador unitario generado aleatoriamente aplicado sobre el vector F (x) |0^⊗ni, siguiendo la propuesta de [1].

Para esta primera prueba, se usó solamente nuestro esquema de circuito universal y Second Order Expansion como feature encoder en sus versiones de 2 qubits. Además se generaron 75 puntos de cada clase para el entrenamiento y 25 para el test, la evolu- ción de la función de coste para el entrenamiento tras 150 épocas puede encontrarse en la Figura 4.

Para este primer dataset, se obtuvo una precisión final del 100 %, los márgenes de clasificación obtenidos además de los puntos de entrenamiento y test pueden observarse en la Figura 5 mientras que la evolución de la precisión sobre el conjunto de test puede verse en la tabla 4.1.

# qubits QVC FE # comp. PCA Epoca Precisi´on (test)´

2 UC SOE 2 25 0.78

2 UC SOE 2 50 0.98

2 UC SOE 2 75 0.98

2 UC SOE 2 100 0.98

2 UC SOE 2 125 1.00

2 UC SOE 2 150 1.00

Cuadro 1. Resultados para clasificaci´on binaria de datos sint´eticos usando el simulador qiskit aer.

(32)

Figura 4. Márgenes de clasificación obtenidos a distintas épocas usando SOE como feature encoder y Universal Circuit como circuito variacional usando 2 qubits.

4.2. MNIST Dataset

Para probar la viabilidad en la práctica de la forma variacional propuesta se usó MNIST, uno de los conjuntos de datos más habituales. Este, está compuesto por 70000 imágenes de d´ıgitos desde 0 hasta 9 escritos a mano alzada con un tamaño de 8x8 p´ıxeles y una intensidad codificada en un entero sin signo en un byte (de 0 a 255) que se dividirán en 60000 muestras para entrenamiento y 10000 para test.

Puesto que, las dimensiones de los puntos a clasificar que acepte nuestro clasificador dependerá del número de qubits y del feature encoder se decidió por usar técnicas de reducción de dimensionalidad (Principal Component Analisis) para as´ı adecuarse a la dimensión nativa del clasificador en cada caso.

C = 2

Comenzamos simplificando el problema de clasificación al máximo reduciéndolo a una clasificación binaria entre las clases 0 y 1. La primera prueba se realizó en un simulador y no un ordenador cuántico real. Los simuladores, pese a incorporar modelos

(33)

Figura 5. Márgenes de clasificación obtenidos a distintas épocas usando SOE como feature encoder y Universal Circuit como circuito variacional usando 2 qubits.

de ruido que intentan imitar el de un dispositivo real, acaban obteniendo resultados muy idealizados por lo que nos servirán para evaluar el impacto del ruido en nuestro modelo cuando lo ejecutemos en un ordenador cuántico. Como feature encoders se usaron Second Order Expansion (ver 3.1) y Raw Feature Vector (ver 3.1). Además, también se entrenó un circuito variacional con la arquitectura RYRZ, estando todos ellos disponibles por defecto en la librer´ıa de qiskit.

En la figura 6 puede observarse la evolución de la función de coste durante el entrenamiento (que será la media de las dos evaluaciones usadas para la estimación del gradiente en cada época). Para el entrenamiento, se usaron 30 muestras de cada clase mientras que para el test se usaron 15 por clase. Los resultados finales para cada modelo se pueden ver en la tabla 4.2.

Los resultados usando RawFV como feature encoder son notablemente mejores que los obtenidos con SOE sin importar la forma variacional elegida, probablemente de-

(34)

Figura 6. Resultados para el entrenamiento para clasificaci´on binaria de los distintos modelos ejecutado en el simulador qiskit aer.

# qubits QVC FE # comp. PCA Par´ametros libres Epocas Precisi´on (test)´

2 Custom RawFV 4 18 100 1.00

2 RYRZ RawFV 4 16 100 1.00

2 Custom SOE 2 18 100 0.77

2 RYRZ SOE 2 16 100 0.80

Cuadro 2. Resultados para clasificaci´on binaria de distintos modelos ejecutado en el simulador qiskit aer.

bido a su capacidad para codificar un mayor número de componentes en un número limitado de qubits. Por ello en el resto del trabajo se usará exclusivamente RawFV.

La precisión obtenida con SOE es ligeramente peor que la obtenida por ?? quizás debido a la elección de la forma variacional.

En la tabla3pueden observarse los resultados obtenidos para todos los clasificadores binarios entrenados. Las gr´aficas de entrenamiento para los clasificadores de 2 qubits

(35)

Figura 7. Comparación para el entrenamiento y la precisión en clasificación binaria de distintos modelos de 2 qubits ejecutados en el tanto en el simulador qiskit aer como en la instancia ibm burlington.

pueden encontrarse en la figura 7, los resultados obtenidos para las dos formas variacionales no difieren en gran medida, dado que, ambos clasificadores consiguen una precisión del 100 % muy pronto en el conjunto de test (antes de la época 60), donde, si se observan diferencias es entre el simulador y la realización de ordenador cuántico de IBM. En esta última, la precisión es peor al inicio y, además, se puede observar que la as´ıntota horizontal de la función de coste es mayor que para el simulador, probablemente, debido a que la decoherencia hace disminuir la confianza de las predicciones obtenidas. Pese a todo lo anterior, todos los clasificadores consiguieron una precisión final del 100 %.

En el caso de los clasificadores de tres qubits solamente se incluyen los resultados (figura8) para el simulador. Esto es debido, al enorme aumento en complejidad que sufre el circuito universal con respecto al de dos qubits (puesto que se pasa de 18 parámetros a 84) de manera que, al ejecutarlo en una instancia real el sistema perd´ıa toda la coherencia cuántica y sólo se obten´ıan resultados triviales.

Para los circuitos de 3 qubits se observa mucha m´as disparidad en el entrenamien-

(36)

Figura 8. Resultados para el entrenamiento para clasificaci´on con C=2 de los distintos modelos ejecutado en el simulador qiskit aer.

# qubits QVC Backend # comp. PCA Epocas # par´ametros Precisi´on (test)´

2 UC Simulador 4 150 18 1.00

2 RYRZ Simulador 4 150 16 1.00

2 UC ibm burlington 4 150 18 1.00

2 RYRZ ibm burlington 4 150 16 1.00

3 UC Simulador 8 150 84 1.00

Cuadro 3. Resultados para clasificaci´on binaria.

to de las dos formas variacionales usadas, posiblemente debido a la diferencia en el número de parámetros ya que, el circuito RYRZ consigue una precisión del 100 % hacia la época 50 mientras que el circuito UC tarda casi 200 épocas en estabilizarse, sin embargo, ambos circuitos consiguieron clasificar perfectamente el conjunto de test.

(37)

Figura 9. Comparación para el entrenamiento y la precisión en clasificación con C=3 de distintos modelos de 2 qubits ejecutados en el tanto en el simulador qiskit aer como en la instancia ibm burlington.

C = 3

Para esta clasificación, se usaron imágenes correspondientes a 0, 1 y 2, tomando de nuevo 30 datos por clase para el entrenamiento y 15 para calcular la precisión. Los resultados para todos los simuladores entrenados para clasificación ternaria se encuentran en la tabla4.

# qubits QVC Backend # comp. PCA Epocas # par´ametros Precisi´on (test)´

2 UC Simulador 4 150 18 0.88

2 UC ibm burlington 4 150 18 0.93

2 RYRZ ibm burlington 4 150 16 0.91

3 UC Simulador 8 300 84 0.93

Cuadro 4. Resultados para clasificaci´on ternaria.