Future Computers Will Be Radically Different (Analog Computing)

– Durante cientos de años, las computadoras analógicas fueron las computadoras más
poderosas de la Tierra, prediciendo eclipses, mareas
y guiando armas antiaéreas. Luego, con la llegada de
los transistores de estado sólido, las computadoras digitales despegaron. Ahora, prácticamente todas las
computadoras que usamos son digitales. Pero hoy, una tormenta perfecta de
factores está preparando el escenario para un resurgimiento de la tecnología analógica. Esta es una computadora analógica, y al conectar estos
cables de formas particulares, puedo programarla para resolver una amplia gama de ecuaciones diferenciales.

Por ejemplo, esta configuración
me permite simular una masa amortiguada que oscila sobre un resorte. Entonces, en el osciloscopio,
puedes ver la posición de la masa a lo largo del tiempo. Y puedo variar el amortiguamiento, o la constante del resorte, o la masa, y podemos
ver cómo cambia la amplitud y la duración de las oscilaciones. Ahora, lo que hace que esta sea una computadora analógica es que no hay
ceros ni unos aquí. En cambio, en realidad hay
un voltaje que oscila hacia arriba y hacia abajo exactamente
como una masa en un resorte. El circuito eléctrico es un análogo del problema físico , solo que se lleva a cabo mucho más rápido.

Ahora, si cambio las
conexiones eléctricas, puedo programar esta computadora para resolver otras ecuaciones diferenciales, como el sistema de Lorenz, que es un modelo básico de
convección en la atmósfera. Ahora, el sistema de Lorenz es
famoso porque fue uno de los primeros ejemplos descubiertos de caos. Y aquí puedes ver el atractor de Lorenz con su hermosa forma de mariposa.

Y en esta computadora analógica, puedo cambiar los parámetros y ver sus efectos en tiempo real. Así que estos ejemplos ilustran algunas de las ventajas de las computadoras analógicas. Son
dispositivos informáticos increíblemente potentes y pueden completar
muchos cálculos rápidamente. Además, no necesitan mucha energía para hacerlo. Con una computadora digital, si desea agregar dos números de ocho bits , necesita alrededor de 50 transistores, mientras que con una computadora analógica , puede agregar dos corrientes, simplemente conectando dos cables. Con una computadora digital
para multiplicar dos números , necesita del orden de 1,000 transistores, todos cambiando ceros y unos, mientras que con una computadora analógica , puede pasar una corriente a través de una resistencia, y luego el voltaje a través de esta resistencia será I veces R Así que efectivamente, has multiplicado dos números juntos. Pero las computadoras analógicas también
tienen sus inconvenientes.

Por un lado, no son
dispositivos informáticos de propósito general. Quiero decir, no vas a ejecutar
Microsoft Word en esta cosa. Y también, dado que las entradas
y salidas son continuas, no puedo ingresar valores exactos. Entonces, si trato de repetir
el mismo cálculo, nunca
obtendré exactamente la misma respuesta. Además, piense en
fabricar computadoras analógicas. Siempre habrá alguna variación en el valor exacto de los componentes, como resistencias o condensadores. Entonces, como regla general , puede esperar un error del 1%. Entonces, cuando piensa en computadoras analógicas , puede pensar en potentes,
rápidas y de bajo consumo, pero también de un solo propósito,
no repetibles e inexactas. Y si suenan como factores decisivos , es porque probablemente lo sean. Creo que estas son las principales razones por las que las computadoras analógicas cayeron en desgracia tan pronto como las computadoras digitales se
volvieron viables.

Ahora, he aquí por qué las computadoras analógicas
pueden estar regresando. (computadoras pitando ) Todo comienza con
la inteligencia artificial. – [Narrador] Una máquina
ha sido programada para ver y mover objetos. – La IA no es nueva. El término fue acuñado en 1956. En 1958, el psicólogo de la Universidad de Cornell, Frank Rosenblatt, construyó el perceptrón, diseñado para imitar cómo se activan las
neuronas en nuestro cerebro. Así que aquí hay un modelo básico de cómo funcionan las
neuronas en nuestro cerebro. Una neurona individual
puede dispararse o no, por lo que su nivel de activación
puede representarse como uno o cero. La entrada a una neurona es la salida de un montón de otras neuronas, pero la fuerza de estas conexiones entre las neuronas varía, por lo que a cada una se le puede dar
un peso diferente. Algunas conexiones son excitatorias, por lo que tienen pesos positivos, mientras que otras son inhibitorias, por lo que tienen pesos negativos.

Y la forma de averiguar si una neurona en particular se dispara es tomar la activación
de cada neurona de entrada y multiplicarla por su peso, y luego sumar todo esto. Si su suma es mayor que
un número llamado sesgo, entonces la neurona se dispara, pero si es menor que eso,
la neurona no se dispara. Como entrada, el perceptrón de Rosenblatt
tenía 400 fotocélulas dispuestas en una cuadrícula para capturar una imagen de 20 por 20 píxeles. Puede pensar en cada
píxel como una neurona de entrada, siendo su activación
el brillo del píxel. Aunque estrictamente hablando, la activación debería
ser cero o uno, podemos dejar que tome cualquier
valor entre cero y uno. Todas estas neuronas están conectadas a una sola neurona de salida, cada una a través de su propio peso ajustable. Entonces, para ver si la neurona de salida se disparará , multiplica la activación
de cada neurona por su peso y súmalos.

Esto es esencialmente un producto punto vectorial. Si la respuesta es mayor que
el sesgo, la neurona se dispara, y si no, no lo hace. Ahora, el objetivo del perceptrón era distinguir de forma fiable
entre dos imágenes, como un rectángulo y un círculo. Por ejemplo, la neurona de salida siempre puede dispararse cuando se le presenta un círculo, pero nunca cuando se le presenta un rectángulo. Para lograr esto,
había que entrenar la percepción, es decir, mostrar una serie
de círculos y rectángulos diferentes, y
ajustar sus pesos en consecuencia. Podemos visualizar los pesos como una imagen, ya que hay un peso único
para cada píxel de la imagen. Inicialmente, Rosenblatt puso
todos los pesos a cero. Si la salida del perceptrón es correcta, por ejemplo, aquí se muestra un rectángulo y la neurona de salida no se dispara, no se realiza ningún cambio en los pesos.

Pero si está mal, entonces
se ajustan los pesos. El algoritmo para actualizar los pesos es notablemente simple. Aquí, la neurona de salida no se
disparó cuando se suponía que debía hacerlo porque se le mostró un círculo. Entonces, para modificar los pesos , simplemente agregue las
activaciones de entrada a los pesos. Si la neurona de salida se
activa cuando no debería, como aquí, cuando se muestra un rectángulo , resta
las activaciones de entrada de los pesos y continúa haciendo esto hasta que el perceptrón identifique correctamente todas las imágenes de entrenamiento. Se demostró que este
algoritmo siempre convergerá , siempre que sea
posible mapear las dos categorías en grupos distintos. (pasos golpeando) El perceptrón era
capaz de distinguir entre diferentes formas,
como rectángulos y triángulos, o entre diferentes letras. Y según Rosenblatt , incluso podría notar la
diferencia entre gatos y perros. Dijo que la máquina era capaz de lo que equivale a un pensamiento original, y los medios de comunicación lo disfrutaron. El "New York Times" llamó al perceptrón "el embrión de una computadora electrónica que la Armada espera que
sea capaz de caminar, hablar, ver, escribir, reproducirse y ser consciente de su existencia".

– [Narrador] Después de entrenar
con muchos ejemplos, se le dan nuevas caras que nunca ha visto y es capaz de distinguir con éxito entre
hombres y mujeres. Ha aprendido. – En realidad, el perceptrón
estaba bastante limitado en lo que podía hacer. De hecho, no podía
diferenciar perros de gatos. Esta y otras críticas fueron planteadas en un libro por los gigantes del MIT,
Minsky y Papert, en 1969. Y eso condujo a un período de quiebra para las redes neuronales artificiales
y la IA en general. Es conocido como el primer invierno de IA. Rosenblatt no sobrevivió este invierno. Se ahogó mientras navegaba en la Bahía de Chesapeake en su 43 cumpleaños. (música suave y alegre) – [Narrador] El NAV Lab
es un camión apto para la carretera, modificado para que los investigadores o las computadoras puedan controlar el vehículo
según lo requiera la ocasión. – [Derek] En la década de 1980,
hubo un resurgimiento de la IA cuando los investigadores de
Carnegie Mellon crearon uno de los primeros autos sin conductor.

El vehículo fue dirigido por una red neuronal artificial
llamada ALVINN. Era similar al perceptrón, excepto que tenía una
capa oculta de neuronas artificiales entre la entrada y la salida. Como entrada, ALVINN recibió
imágenes de 30 x 32 píxeles del camino por delante. Aquí, los estoy mostrando como 60 por 64 píxeles. Pero cada una de estas
neuronas de entrada estaba conectada a través de un peso ajustable a una
capa oculta de cuatro neuronas. Cada uno de ellos estaba conectado
a 32 neuronas de salida. Entonces, para pasar de una capa de
la red a la siguiente , realiza una multiplicación de matrices: la activación de entrada multiplicada por los pesos. La neurona de salida con
la mayor activación determina el ángulo de dirección. Para entrenar la red neuronal, un humano condujo el vehículo y proporcionó el ángulo de dirección correcto para una imagen de entrada dada. Todos los pesos en la
red neuronal se ajustaron a través del entrenamiento para que la salida de ALVINN
coincidiera mejor con la del conductor humano.

El método para ajustar los pesos se llama retropropagación, en el que no entraré aquí, pero Welch Labs tiene una gran serie sobre esto, a la que enlazaré en la descripción. Nuevamente, puede visualizar los pesos de las cuatro neuronas ocultas como imágenes. Los pesos se
configuran inicialmente para que sean aleatorios, pero a medida que avanza el entrenamiento, la computadora aprende a
detectar ciertos patrones. Puede ver las marcas viales
emerger en los pesos. Simultáneamente, el
ángulo de dirección de salida se fusiona con el ángulo de dirección humano. La computadora condujo el
vehículo a una velocidad máxima de alrededor de uno o dos kilómetros por hora. Estaba limitado por la velocidad a la que la computadora podía
realizar la multiplicación de matrices.

A pesar de estos avances, las redes neuronales artificiales todavía luchaban con tareas aparentemente simples, como diferenciar perros y gatos. Y nadie sabía si el hardware o el software era el eslabón débil. Quiero decir, ¿teníamos un buen
modelo de inteligencia, solo necesitábamos más potencia informática? ¿O teníamos una idea equivocada sobre cómo hacer
sistemas de inteligencia en conjunto? Entonces, la inteligencia artificial
experimentó otra pausa en la década de 1990.

A mediados de la década de 2000, la mayoría de los investigadores de IA se
centraron en mejorar los algoritmos. Pero un investigador, Fei-Fei Li, pensó que tal vez había
un problema diferente. Tal vez estas redes neuronales artificiales solo necesitaban más datos para entrenar. Así que planeó trazar un mapa de
todo el mundo de los objetos. De 2006 a 2009, creó ImageNet, una base de datos de 1,2 millones
de imágenes etiquetadas por humanos, que en ese momento era el
conjunto de datos de imágenes etiquetadas más grande jamás construido. Y de 2010 a 2017, ImageNet realizó un concurso anual : ImageNet Large Scale
Visual Recognition Challenge, donde los programas de software
compitieron para detectar y clasificar correctamente las imágenes. Las imágenes se clasificaron en
1000 categorías diferentes, incluidas 90 razas de perros diferentes. Una red neuronal que compita
en esta competencia tendría una
capa de salida de 1.000 neuronas, cada una correspondiente a una categoría de objeto que podría aparecer en la imagen. Si la imagen contiene,
digamos, un pastor alemán, entonces la neurona de salida
correspondiente al pastor alemán debería tener la mayor activación.

Como era de esperar,
resultó ser un desafío difícil. Una forma de juzgar el rendimiento de una IA es ver con qué frecuencia las cinco
activaciones de neuronas más altas no incluyen la categoría correcta. Esta es la llamada tasa de error top-5. En 2010, el mejor desempeño
tuvo una tasa de error entre los 5 primeros del 28,2 %, lo que significa que
casi 1/3 de las veces, la respuesta correcta no estaba
entre sus cinco respuestas principales. En 2011, la tasa de error
del mejor desempeño fue del 25,8%, una mejora sustancial.

Pero al año siguiente, una red neuronal artificial de la Universidad de
Toronto, llamada AlexNet, superó a la competencia con una tasa de error entre los 5 primeros de solo el 16,4 %. Lo que diferenció a AlexNet
fue su tamaño y profundidad. La red constaba de ocho capas y, en total, 500.000 neuronas. Para entrenar a AlexNet, se tuvieron que ajustar cuidadosamente 60 millones de pesos y sesgos
usando la base de datos de entrenamiento. Debido a todas las grandes
multiplicaciones de matrices, el procesamiento de una sola imagen
requería 700 millones de operaciones matemáticas individuales. Así que el entrenamiento fue computacionalmente intensivo.

El equipo lo logró al ser
pionero en el uso de GPU, unidades de procesamiento gráfico, que se utilizan tradicionalmente
para controlar pantallas. Por lo tanto, están especializados para
cálculos paralelos rápidos. El artículo de AlexNet que
describe su investigación es un éxito de taquilla. Ahora se ha citado más de 100 000 veces e identifica la
escala de la red neuronal como clave para su éxito. Se necesitan muchos cálculos
para entrenar y ejecutar la red, pero la mejora en el
rendimiento vale la pena. Con otros siguiendo su ejemplo, la tasa de error de los 5 primeros en la competencia ImageNet se desplomó en los años siguientes
, hasta el 3,6 % en 2015. Eso es mejor que el desempeño humano. La red neuronal que logró esto tenía 100 capas de neuronas.

Entonces, el futuro es claro : veremos una demanda cada vez mayor de redes neuronales cada vez más grandes. Y esto es un problema por varias razones: Una es el consumo de energía. El entrenamiento de una red neuronal
requiere una cantidad de electricidad similar
al consumo anual de tres hogares. Otro problema es el llamado
cuello de botella de Von Neumann. Prácticamente todas las computadoras digitales modernas almacenan datos en la memoria y luego acceden a ellos según sea necesario a través de un bus. Al realizar las enormes
multiplicaciones de matrices requeridas por las redes neuronales profundas, la mayor parte del tiempo y la energía se dedican a obtener esos valores de peso en lugar de hacer el cálculo. Y finalmente, están las
limitaciones de la Ley de Moore. Durante décadas, la cantidad de transistores en un chip se ha duplicado
aproximadamente cada dos años, pero ahora el tamaño de un transistor se acerca al tamaño de un átomo. Entonces, hay algunos
desafíos físicos fundamentales para una mayor miniaturización.

Así que esta es la
tormenta perfecta para las computadoras analógicas. Las computadoras digitales están
llegando a sus límites. Mientras tanto, las redes neuronales
están ganando popularidad y mucho de lo que hacen se reduce a una sola tarea: la multiplicación de matrices. Lo mejor de todo es que las redes neuronales
no necesitan la precisión de las computadoras digitales.

Ya sea que la red neuronal
tenga un 96 % o un 98 % de confianza en que la imagen contiene un pollo, en realidad no importa
, sigue siendo un pollo. Por lo tanto , se puede tolerar una ligera variabilidad en los componentes o las condiciones. (música rock optimista) Fui a una
startup de computación analógica en Texas, llamada Mythic AI. Aquí, están creando
chips analógicos para ejecutar redes neuronales. Y me demostraron
varios algoritmos de IA. – Oh, ahí tienes. Mira, te está atrapando.
(Derek se ríe) Sí.
– Eso es fascinante. – El mayor caso de uso se
aumenta en realidad virtual. Si tu amigo está en una casa diferente, ellos están en su casa
y tú estás en tu casa, en realidad pueden mostrarse
mutuamente en el mundo virtual. Por lo tanto, debe
capturar rápidamente su pose y luego renderizarla en el mundo de realidad virtual.

– Entonces, espera, ¿esto es
por lo del metaverso? – Sí, esta es una
aplicación muy metaverso. Esta es una estimación de profundidad
de una sola cámara web. Solo está tomando esta escena, y luego está haciendo un mapa de calor. Entonces, si es brillante, significa que está cerca. Y si está lejos, lo hace negro. – [Derek] Ahora, todos estos
algoritmos se pueden ejecutar en computadoras digitales, pero aquí, la multiplicación de matrices en
realidad se lleva a cabo en el dominio analógico.
(música ligera) Para que esto sea posible, Mythic ha reutilizado
las celdas de almacenamiento flash digital. Normalmente, estos se utilizan como memoria para almacenar un uno o un cero. Si aplica un voltaje positivo grande
a la puerta de control, los electrones atraviesan
una barrera aislante y quedan atrapados en la puerta flotante. Retire el voltaje y los electrones pueden
permanecer en la puerta flotante durante décadas, evitando que la
celda conduzca corriente. Y así es como puedes
almacenar un uno o un cero.

Puede leer el valor almacenado aplicando un pequeño voltaje. Si hay electrones
en la puerta flotante, no fluye corriente, por lo que es un cero. Si no hay electrones, entonces la corriente fluye, y eso es uno. Ahora, la idea de Mythic es usar estas celdas no como interruptores de encendido/apagado,
sino como resistencias variables. Lo hacen poniendo un
número específico de electrones en cada puerta flotante, en
lugar de todo o nada. Cuanto mayor sea el número de electrones , mayor será la resistencia del canal. Cuando luego aplica un voltaje pequeño, la corriente que fluye
es igual a V sobre R. Pero también puede pensar en esto
como el voltaje por la conductancia, donde la conductancia es solo
el recíproco de la resistencia. Por lo tanto, se puede usar una sola celda flash para multiplicar dos valores juntos, el
voltaje por la conductancia. Entonces, para usar esto para ejecutar una
red neuronal artificial , primero escriben todos los
pesos en las celdas flash como la conductancia de cada celda. Luego, ingresan los valores de activación como el voltaje en las celdas.

Y la corriente resultante es el producto del voltaje por la conductancia, que es la activación por el peso. Las celdas están conectadas entre sí de tal manera que la corriente de cada
multiplicación se suma, completando la multiplicación de la matriz. (música ligera) – Así que este es nuestro primer producto. Esto puede hacer 25 billones de
operaciones matemáticas por segundo. – [Derek] 25 billones. – Sí, 25 billones de
operaciones matemáticas por segundo, en este pequeño chip aquí, quemando unos tres vatios de potencia. – [Derek] ¿Cómo se
compara con un chip digital? – Los sistemas digitales más nuevos
pueden hacer entre 25 y 100 billones de
operaciones por segundo, pero son sistemas grandes, de miles de dólares que emiten entre
50 y 100 vatios de potencia. – [Derek] Obviamente, esto no es como una comparación de manzanas, ¿verdad? – No, no son manzanas con manzanas. Quiero decir, entrenando esos algoritmos , necesitas un gran hardware como este.

Puedes hacer todo tipo
de cosas en la GPU, pero si específicamente
estás haciendo cargas de trabajo de IA y quieres implementarlas,
podrías usar esto en su lugar. Puede imaginarlos en cámaras de seguridad, sistemas autónomos, equipos de inspección para la fabricación. Cada vez que hacen un chip Frito-Lay, lo inspeccionan con una cámara y los Fritos defectuosos salen
volando de la cinta transportadora. Pero están usando inteligencia artificial para detectar qué Fritos son buenos y malos. – Algunos han propuesto
usar circuitos analógicos en altavoces domésticos inteligentes, únicamente para escuchar la
palabra de activación, como Alexa o Siri. Usarían mucha menos
energía y podrían encender de manera rápida y confiable el
circuito digital del dispositivo. Pero todavía tienes que lidiar
con los desafíos de lo analógico.

– Entonces, para una de las redes populares , habría 50 secuencias de multiplicaciones de matrices que estás haciendo. Ahora, si hiciste eso completamente
en el dominio analógico , cuando llega a la salida , está tan distorsionado que no tienes ningún resultado. Entonces, lo convierte del dominio analógico, de vuelta al dominio digital, lo envía al siguiente bloque de procesamiento y luego lo convierte
nuevamente al dominio analógico. Y eso te permite
conservar la señal. – Sabes, cuando Rosenblatt
estaba configurando su perceptrón por primera vez , usó una computadora digital IBM. Al encontrarlo demasiado lento , construyó una computadora analógica personalizada, completa con resistencias variables y pequeños motores para impulsarlas.

Al final, su idea de las redes neuronales resultó ser correcta. Tal vez también tenía razón sobre lo analógico. Ahora, no puedo decir si
las computadoras análogas despegarán de la forma en que lo hizo la digital el siglo pasado, pero parecen adaptarse mejor a muchas de las tareas
que queremos que las computadoras realicen hoy, lo cual es un poco gracioso porque yo siempre pensó en lo digital como la forma óptima de
procesar la información. Todo, desde la música hasta las imágenes y el video, se ha vuelto
digital en los últimos 50 años. Pero tal vez en 100 años, miraremos hacia atrás en lo digital, no no como el punto final
de la tecnología de la información, sino como un punto de partida. Nuestros cerebros son digitales en el sentido de que una neurona se
activa o no, pero también son analógicos en el sentido de que el pensamiento tiene lugar en
todas partes, todo a la vez.

Entonces, tal vez lo que necesitamos para lograr una verdadera inteligencia artificial, máquinas que piensen como
nosotros, es el poder de lo analógico. (música suave) Oye, aprendí mucho
mientras hacía este video, gran parte jugando con
una computadora analógica real. Sabes, probar cosas por ti mismo es realmente la mejor manera de aprender, y puedes hacerlo con este
patrocinador de video, Brilliant. Brilliant es un sitio web y una aplicación que te hace pensar profundamente al involucrarte en la resolución de problemas. Tienen un excelente curso
sobre redes neuronales, donde puedes probar
cómo funciona por ti mismo.

Le brinda una excelente intuición sobre cómo las redes neuronales pueden
reconocer números y formas, y también le permite
experimentar la importancia de buenos datos de entrenamiento y capas ocultas para comprender por qué las redes neuronales más sofisticadas funcionan mejor. Lo que me encanta de Brilliant es que pone a prueba tus conocimientos sobre la marcha. Las lecciones son altamente interactivas y se vuelven progresivamente
más difíciles a medida que avanzas. Y si te quedas atascado,
siempre hay consejos útiles. Para los espectadores de este video, Brilliant ofrece a las primeras 200 personas un 20 % de descuento en una suscripción premium anual. Simplemente vaya a bright.org/veritasium. Pondré ese
enlace en la descripción.

Así que quiero agradecer a Brilliant
por apoyar a Veritasium, y quiero agradecerles por mirar..

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *