Future Computers Will Be Radically Different (Analog Computing)

– Durante cientos de años, las computadoras analógicas fueron las más
poderosas de la Tierra, prediciendo eclipses, mareas
y guiando cañones antiaéreos. Luego, con la llegada de los
transistores de estado sólido, las computadoras digitales despegaron. Ahora, prácticamente todas las
computadoras que utilizamos son digitales. Pero hoy, una tormenta perfecta de
factores está preparando el terreno para un resurgimiento de la tecnología analógica. Esta es una computadora analógica y, al conectar estos
cables de maneras particulares, puedo programarla para resolver una amplia gama de ecuaciones diferenciales. Por ejemplo, esta configuración
me permite simular una masa amortiguada que oscila sobre un resorte.

Entonces, en el osciloscopio se
puede ver la posición de la masa a lo largo del tiempo. Y puedo variar la amortiguación, la constante del resorte o la masa, y podemos
ver cómo cambian la amplitud y la duración de las oscilaciones. Ahora bien, lo que hace que esta sea una computadora analógica es que aquí no hay
ceros ni unos. En cambio, en realidad hay
un voltaje que oscila hacia arriba y hacia abajo exactamente
como una masa sobre un resorte. El circuito eléctrico es análogo al problema físico, sólo que ocurre mucho más rápido.

Ahora, si cambio las
conexiones eléctricas, puedo programar esta computadora para resolver otras ecuaciones diferenciales, como el sistema de Lorenz, que es un modelo básico de
convección en la atmósfera. Ahora el sistema de Lorenz es
famoso porque fue uno de los primeros ejemplos de caos descubiertos. Y aquí puedes ver el atractor de Lorenz con su hermosa forma de mariposa. Y en esta computadora analógica puedo cambiar los parámetros y ver sus efectos en tiempo real. Estos ejemplos ilustran algunas de las ventajas de las computadoras analógicas. Son
dispositivos informáticos increíblemente potentes y pueden completar
muchos cálculos rápidamente. Además, no necesitan mucho poder para hacerlo. Con una computadora digital, si quieres sumar dos números de ocho bits, necesitas alrededor de 50 transistores, mientras que con una computadora analógica, puedes sumar dos corrientes, simplemente conectando dos cables. Con una computadora digital
para multiplicar dos números, necesita del orden de 1000 transistores, todos conmutando ceros y unos, mientras que con una computadora analógica, puede pasar una corriente a través de una resistencia, y luego el voltaje a través de esta resistencia será I multiplicado por R.

Entonces, efectivamente, has multiplicado dos números. Pero las computadoras analógicas también
tienen sus inconvenientes. Por un lado, no son
dispositivos informáticos de uso general. Quiero decir, no vas a ejecutar
Microsoft Word en esta cosa. Y además, dado que las entradas
y salidas son continuas, no puedo ingresar valores exactos. Entonces, si intento repetir
el mismo cálculo, nunca obtendré
exactamente la misma respuesta. Además, piense en
fabricar computadoras analógicas. Siempre habrá alguna variación en el valor exacto de los componentes, como resistencias o condensadores. Entonces, como regla general, puede esperar un error de alrededor del 1%. Entonces, cuando piensas en computadoras analógicas, puedes pensar en potentes,
rápidas y energéticamente eficientes, pero también de propósito único,
no repetibles e inexactas. Y si eso suena como un factor decisivo, es porque probablemente lo sea.

Creo que éstas son las razones principales por las que las computadoras analógicas cayeron en desgracia tan pronto como
las digitales se volvieron viables. Ahora bien, he aquí por qué las computadoras analógicas
pueden estar regresando. (Las computadoras pitan) Todo comienza con la
inteligencia artificial. – [Narrador] Se
ha programado una máquina para ver y mover objetos. – La IA no es nueva. El término fue acuñado en 1956. En 1958, el psicólogo de la Universidad de Cornell, Frank Rosenblatt, construyó el perceptrón, diseñado para imitar cómo se
activan las neuronas en nuestro cerebro.

He aquí un modelo básico de cómo
funcionan las neuronas de nuestro cerebro. Una neurona individual
puede activarse o no, por lo que su nivel de activación
puede representarse como uno o cero. La entrada a una neurona es la salida de muchas otras neuronas, pero la fuerza de estas conexiones entre neuronas varía, por lo que a cada una se le puede dar
un peso diferente. Algunas conexiones son excitadoras, por lo que tienen pesos positivos, mientras que otras son inhibidoras, por lo que tienen pesos negativos. Y la forma de determinar si una neurona en particular se activa es tomar la activación
de cada neurona de entrada y multiplicarla por su peso, y luego sumarlos todos.

Si su suma es mayor que
algún número llamado sesgo, entonces la neurona se activa, pero si es menor que eso,
la neurona no se activa. Como entrada, el perceptrón de Rosenblatt
tenía 400 fotocélulas dispuestas en una cuadrícula para capturar una imagen de 20 por 20 píxeles. Puedes pensar en cada
píxel como una neurona de entrada, siendo su activación
el brillo del píxel. Aunque estrictamente hablando, la activación debe
ser cero o uno, podemos dejar que tome cualquier
valor entre cero y uno. Todas estas neuronas están conectadas a una única neurona de salida, cada una mediante su propio peso ajustable. Entonces, para ver si la neurona de salida se activa, multiplica la activación
de cada neurona por su peso y las sumas. Este es esencialmente un producto escalar vectorial. Si la respuesta es mayor que
el sesgo, la neurona se activa, y si no, no lo hace.

Ahora el objetivo del perceptrón era distinguir de forma fiable
entre dos imágenes, como un rectángulo y un círculo. Por ejemplo, la neurona de salida siempre podría dispararse cuando se le presenta un círculo, pero nunca cuando se le presenta un rectángulo. Para lograr esto,
fue necesario entrenar la percepción, es decir, mostrarle una serie
de círculos y rectángulos diferentes y
ajustar sus pesos en consecuencia. Podemos visualizar los pesos como una imagen, ya que hay un peso único
para cada píxel de la imagen. Inicialmente, Rosenblatt puso
todos los pesos a cero. Si la salida del perceptrón es correcta, por ejemplo, aquí se muestra un rectángulo y la neurona de salida no se activa, no se realizan cambios en los pesos. Pero si está mal, entonces se
ajustan los pesos. El algoritmo para actualizar los pesos es notablemente simple.

Aquí, la neurona de salida no se
disparó cuando se suponía que debía hacerlo porque se le mostró un círculo. Entonces, para modificar los pesos, simplemente agrega las
activaciones de entrada a los pesos. Si la neurona de salida
se activa cuando no debería, como aquí, cuando se muestra un rectángulo , entonces restas
las activaciones de entrada de los pesos y continúas haciendo esto hasta que el perceptrón identifique correctamente todas las imágenes de entrenamiento.

Se demostró que este
algoritmo siempre convergerá, siempre que sea posible
asignar las dos categorías a grupos distintos. (pasos fuertes) El perceptrón era
capaz de distinguir entre diferentes formas,
como rectángulos y triángulos, o entre diferentes letras. Y según Rosenblatt, incluso podría
diferenciar entre perros y gatos. Dijo que la máquina era capaz de generar lo que equivale a un pensamiento original, y los medios lo aplaudieron. El "New York Times" llamó al perceptrón "el embrión de una computadora electrónica que la Marina espera que
pueda caminar, hablar, ver, escribir, reproducirse y ser consciente de su existencia". – [Narrador] Después de entrenar
con muchos ejemplos, se le presentan caras nuevas que nunca había visto y es capaz de distinguir con éxito
al hombre de la mujer. Ha aprendido. – En realidad, el perceptrón
estaba bastante limitado en lo que podía hacer. De hecho, no podía
distinguir a los perros de los gatos. Esta y otras críticas fueron planteadas en un libro de los gigantes del MIT,
Minsky y Papert, en 1969. Y eso condujo a un período de crisis para las redes neuronales artificiales
y la IA en general.

Se le conoce como el primer invierno de la IA. Rosenblatt no sobrevivió este invierno. Se ahogó mientras navegaba en la Bahía de Chesapeake en su 43 cumpleaños. (música suave y alegre) – [Narrador] El NAV Lab
es un camión apto para circular, modificado para que los investigadores o las computadoras puedan controlar el vehículo
según lo requiera la ocasión. – [Derek] En la década de 1980,
hubo un resurgimiento de la IA cuando investigadores de
Carnegie Mellon crearon uno de los primeros automóviles autónomos. El vehículo era dirigido por una red neuronal artificial
llamada ALVINN. Era similar al perceptrón, excepto que tenía una
capa oculta de neuronas artificiales entre la entrada y la salida. Como entrada, ALVINN recibió
imágenes de 30 por 32 píxeles del camino por delante.

Aquí los muestro como 60 por 64 píxeles. Pero cada una de estas
neuronas de entrada estaba conectada mediante un peso ajustable a una
capa oculta de cuatro neuronas. Cada uno de ellos estaba conectado
a 32 neuronas de salida. Entonces, para pasar de una capa de
la red a la siguiente, se realiza una multiplicación de matrices: la activación de entrada multiplicada por los pesos. La neurona de salida con
mayor activación determina el ángulo de dirección. Para entrenar la red neuronal, un humano conducía el vehículo, proporcionando el ángulo de dirección correcto para una imagen de entrada determinada. Todos los pesos de la
red neuronal se ajustaron mediante el entrenamiento para que la salida de ALVINN
coincidiera mejor con la del conductor humano. El método para ajustar los pesos se llama retropropagación, en el que no entraré aquí, pero Welch Labs tiene una gran serie sobre esto, a la que vincularé en la descripción. Nuevamente, puedes visualizar los pesos de las cuatro neuronas ocultas como imágenes.

Inicialmente, los pesos están
configurados para que sean aleatorios, pero a medida que avanza el entrenamiento, la computadora aprende a
detectar ciertos patrones. Puedes ver las marcas viales
emerger en las pesas. Al mismo tiempo, el
ángulo de dirección de salida se fusiona con el ángulo de dirección humano. El ordenador condujo el
vehículo a una velocidad máxima de aproximadamente uno o dos kilómetros por hora. Estaba limitado por la velocidad a la que la computadora podía
realizar la multiplicación de matrices. A pesar de estos avances, las redes neuronales artificiales todavía luchaban con tareas aparentemente simples, como distinguir perros y gatos. Y nadie sabía si el hardware o el software era el eslabón débil. Quiero decir, ¿teníamos un buen
modelo de inteligencia, sólo necesitábamos más potencia informática? ¿ O teníamos una idea equivocada sobre cómo crear
sistemas de inteligencia en conjunto? Así que la inteligencia artificial
experimentó otra pausa en la década de 1990. A mediados de la década de 2000, la mayoría de los investigadores de IA se
centraban en mejorar los algoritmos.

Pero un investigador, Fei-Fei Li, pensó que tal vez había
un problema diferente. Quizás estas redes neuronales artificiales simplemente necesitaban más datos para entrenar. Así que planeó trazar un mapa de
todo el mundo de los objetos. De 2006 a 2009, creó ImageNet, una base de datos de 1,2 millones de
imágenes etiquetadas por humanos, que en ese momento era el conjunto de datos de imágenes etiquetadas más grande
jamás construido. Y de 2010 a 2017, ImageNet organizó un concurso anual: el ImageNet Large Scale
Visual Recognition Challenge, donde los programas de software
compitieron para detectar y clasificar imágenes correctamente. Las imágenes se clasificaron en
1.000 categorías diferentes, incluidas 90 razas de perros diferentes. Una red neuronal que compita
en esta competición tendría una
capa de salida de 1.000 neuronas, cada una de las cuales correspondería a una categoría de objeto que podría aparecer en la imagen.

Si la imagen contiene,
digamos, un pastor alemán, entonces la neurona de salida
correspondiente al pastor alemán debería tener la mayor activación. Como era de esperar,
resultó ser un desafío difícil. Una forma de juzgar el desempeño de una IA es ver con qué frecuencia las cinco
activaciones neuronales más altas no incluyen la categoría correcta. Ésta es la llamada tasa de error del top 5. En 2010, el mejor desempeño
tuvo una tasa de error entre los cinco primeros del 28,2%, lo que significa que
casi 1/3 de las veces, la respuesta correcta no estaba
entre sus cinco principales conjeturas. En 2011, la tasa de error
del mejor desempeño fue del 25,8%, una mejora sustancial. Pero al año siguiente, una red neuronal artificial de la Universidad de
Toronto, llamada AlexNet, arrasó con la competencia con una tasa de error entre los cinco primeros de sólo el 16,4%. Lo que distinguió a AlexNet
fue su tamaño y profundidad.

La red constaba de ocho capas y en total 500.000 neuronas. Para entrenar AlexNet, fue necesario ajustar cuidadosamente 60 millones de pesos y sesgos
utilizando la base de datos de entrenamiento. Debido a todas las grandes
multiplicaciones de matrices, procesar una sola imagen
requirió 700 millones de operaciones matemáticas individuales. Por tanto, el entrenamiento fue computacionalmente intensivo. El equipo lo logró siendo
pionero en el uso de GPU, unidades de procesamiento gráfico, que se utilizan tradicionalmente
para controlar pantallas. Por eso están especializados en
cálculos paralelos rápidos. El artículo de AlexNet
que describe su investigación es un éxito de taquilla. Ha sido citado más de 100.000 veces e identifica la
escala de la red neuronal como clave de su éxito.

Se necesita mucha computación
para entrenar y ejecutar la red, pero la mejora en el
rendimiento vale la pena. Con otros siguiendo su ejemplo, la tasa de error entre los cinco primeros en la competencia ImageNet se desplomó en los años siguientes,
hasta el 3,6% en 2015. Eso es mejor que el desempeño humano. La red neuronal que logró esto tenía 100 capas de neuronas. Así que el futuro está claro: veremos una demanda cada vez mayor de redes neuronales cada vez más grandes. Y esto es un problema por varias razones: una es el consumo de energía. Entrenar una red neuronal
requiere una cantidad de electricidad similar
al consumo anual de tres hogares.

Otro problema es el llamado
cuello de botella de Von Neumann. Prácticamente todas las computadoras digitales modernas almacenan datos en la memoria y luego acceden a ellos según sea necesario a través de un bus. Al realizar las enormes
multiplicaciones de matrices requeridas por las redes neuronales profundas, la mayor parte del tiempo y la energía se destinan a obtener esos valores de peso en lugar de realizar el cálculo. Y finalmente, están las
limitaciones de la Ley de Moore. Durante décadas, el número de transistores en un chip se ha duplicado
aproximadamente cada dos años, pero ahora el tamaño de un transistor se acerca al tamaño de un átomo. Por lo tanto, existen algunos
desafíos físicos fundamentales para una mayor miniaturización. Así que ésta es la
tormenta perfecta para las computadoras analógicas. Las computadoras digitales están
llegando a sus límites. Mientras tanto, las redes neuronales
están ganando popularidad y gran parte de lo que hacen se reduce a una sola tarea: la multiplicación de matrices. Lo mejor de todo es que las redes neuronales
no necesitan la precisión de las computadoras digitales.

Si la red neuronal
tiene un 96% o un 98% de confianza en que la imagen contiene un pollo, realmente no importa,
sigue siendo un pollo. Por lo tanto, se puede tolerar una ligera variabilidad en los componentes o las condiciones. (música rock alegre) Fui a una
startup de informática analógica en Texas, llamada Mythic AI. Aquí están creando
chips analógicos para ejecutar redes neuronales. Y
me demostraron varios algoritmos de IA. – Ah, ahí lo tienes. Mira, te está atrapando.
(Derek se ríe) Sí.
– Eso es fascinante. – El mayor caso de uso es la
realidad virtual aumentada. Si tu amigo está en otro lugar, él está en su casa
y tú en la tuya, pueden representarse
mutuamente en el mundo virtual.

Por lo tanto, necesita
capturar muy rápidamente tu pose y luego renderizarla en el mundo de la realidad virtual. – Entonces, espera, ¿esto es
por lo del metaverso? – Sí, esta es una
aplicación muy metaversa. Esta es una estimación de profundidad
de una sola cámara web. Simplemente se toma esta escena y luego se hace un mapa de calor. Entonces, si es brillante, significa que está cerca. Y si está lejos, lo pone negro. – [Derek] Ahora bien, todos estos
algoritmos se pueden ejecutar en computadoras digitales, pero aquí, la multiplicación de matrices en
realidad se lleva a cabo en el dominio analógico.
(música ligera) Para que esto sea posible, Mythic ha reutilizado
celdas de almacenamiento flash digitales. Normalmente se utilizan como memoria para almacenar un uno o un cero. Si aplica un voltaje positivo grande
a la puerta de control, los electrones atraviesan
una barrera aislante y quedan atrapados en la puerta flotante. Elimine el voltaje y los electrones podrán
permanecer en la puerta flotante durante décadas, evitando que la
celda conduzca corriente.

Y así es como puedes almacenar
un uno o un cero. Puede leer el valor almacenado aplicando un pequeño voltaje. Si hay electrones
en la puerta flotante, no fluye corriente, entonces eso es cero. Si no hay electrones, entonces la corriente sí fluye, y ese es uno. Ahora la idea de Mythic es utilizar estas celdas no como interruptores de encendido/apagado,
sino como resistencias variables. Lo hacen poniendo una
cantidad específica de electrones en cada puerta flotante,
en lugar de todo o nada. Cuanto mayor sea el número de electrones, mayor será la resistencia del canal. Cuando luego aplica un voltaje pequeño, la corriente que fluye
es igual a V sobre R. Pero también puede pensar en esto
como voltaje multiplicado por conductancia, donde la conductancia es solo
el recíproco de la resistencia. Por lo tanto, se puede usar una sola celda flash para multiplicar dos valores,
voltaje por conductancia. Entonces, para usar esto para ejecutar una
red neuronal artificial, primero escriben todos los
pesos en las celdas flash como conductancia de cada celda.

Luego, ingresan los valores de activación como voltaje en las celdas. Y la corriente resultante es el producto del voltaje por la conductancia, que es la activación por el peso. Las celdas están conectadas entre sí de tal manera que la corriente de cada
multiplicación se suma, completando la multiplicación de la matriz. (música ligera) – Este es nuestro primer producto. Esto puede realizar 25 billones de
operaciones matemáticas por segundo. – [Derek] 25 billones. – Sí, 25 billones de
operaciones matemáticas por segundo, en este pequeño chip, que quema unos tres vatios de potencia. – [Derek] ¿Cómo se
compara con un chip digital? – Los sistemas digitales más nuevos
pueden realizar entre 25 y 100 billones de
operaciones por segundo, pero son sistemas grandes, de miles de dólares, que generan entre 50
y 100 vatios de potencia.

– [Derek] Obviamente esto no es como una comparación de manzanas y manzanas, ¿verdad? – No, no son manzanas con manzanas. Quiero decir, para entrenar esos algoritmos, necesitas un hardware grande como este. Puedes hacer todo tipo
de cosas en la GPU, pero si específicamente
estás haciendo cargas de trabajo de IA y quieres implementarlas,
puedes usar esto en su lugar. Puedes imaginarlos en cámaras de seguridad, sistemas autónomos, equipos de inspección para fabricación. Cada vez que fabrican un chip Frito-Lay, lo inspeccionan con una cámara y los Fritos malos salen volando
de la cinta transportadora. Pero están usando inteligencia artificial para detectar qué fritos son buenos y malos. – Algunos han propuesto
usar circuitos analógicos en parlantes domésticos inteligentes, únicamente para escuchar la
palabra de activación, como Alexa o Siri.

Utilizarían mucha menos
energía y podrían encender de forma rápida y fiable los
circuitos digitales del dispositivo. Pero aún hay que afrontar
los desafíos de lo analógico. – Entonces, para una de las redes populares, habría 50 secuencias de multiplicaciones de matrices que estás haciendo. Ahora, si lo hiciste completamente
en el dominio analógico, cuando llegue a la salida, estará tan distorsionado que no obtendrás ningún resultado en absoluto. Entonces lo convierte del dominio analógico de nuevo al dominio digital, lo envía al siguiente bloque de procesamiento y luego lo convierte
nuevamente al dominio analógico. Y eso te permite
preservar la señal. – Sabes, cuando Rosenblatt
estaba configurando su perceptrón por primera vez, usó una computadora IBM digital. Al encontrarlo demasiado lento, construyó una computadora analógica personalizada, completa con resistencias variables y pequeños motores para accionarlas.

Al final, su idea de las redes neuronales resultó ser correcta. Quizás también tenía razón respecto a lo analógico. Ahora bien, no puedo decir si las
computadoras analógicas despegarán como lo hizo la digital el siglo pasado, pero sí parecen adaptarse mejor a muchas de las tareas
que queremos que realicen las computadoras hoy en día, lo cual es un poco gracioso porque creo que Siempre pensé en lo digital como la forma óptima de
procesar la información. Todo, desde la música hasta las imágenes y el vídeo, se ha vuelto
digital en los últimos 50 años. Pero tal vez dentro de 100 años miremos hacia atrás a lo digital, no como el punto final
de la tecnología de la información, sino como un punto de partida. Nuestros cerebros son digitales en el sentido de que una neurona
se activa o no, pero también son analógicos en el sentido de que el pensamiento tiene lugar
en todas partes, al mismo tiempo. Entonces, tal vez lo que necesitamos para lograr una verdadera inteligencia artificial, máquinas que piensen como
nosotros, es el poder de lo analógico.

(música suave) Oye, aprendí mucho
mientras hacía este video, gran parte jugando con
una computadora analógica real. Sabes, probar cosas por ti mismo es realmente la mejor manera de aprender, y puedes hacerlo con este
patrocinador de video, Brilliant. Brilliant es un sitio web y una aplicación que te hacen pensar profundamente al involucrarte en la resolución de problemas. Tienen un excelente curso
sobre redes neuronales, donde puedes probar
por ti mismo cómo funciona. Le brinda una excelente intuición sobre cómo las redes neuronales pueden
reconocer números y formas, y también le permite
experimentar la importancia de buenos datos de entrenamiento y capas ocultas para comprender por qué las redes neuronales más sofisticadas funcionan mejor. Lo que me encanta de Brilliant es que pone a prueba tus conocimientos sobre la marcha. Las lecciones son muy interactivas y se vuelven progresivamente
más difíciles a medida que avanzas. Y si te quedas atascado,
siempre hay consejos útiles. Para los espectadores de este vídeo, Brilliant ofrece a las primeras 200 personas un 20 % de descuento en una suscripción premium anual.

Simplemente vaya a shiny.org/veritasium. Pondré ese enlace
en la descripción. Así que quiero agradecer a Brilliant
por apoyar a Veritasium y quiero agradecerles a ustedes por mirar..

As found on YouTube