¿Por qué nadie se pone de acuerdo sobre lo peligrosa que será la IA?

Los investigadores intentaron poner en sintonía a los optimistas y pesimistas de la IA.  No funcionó del todo.

 He escrito mucho sobre la IA y el debate sobre si podría matarnos a todos.  Pero todavía no sé realmente dónde bajé.

 Hay personas que conocen profundamente los sistemas avanzados de aprendizaje automático y piensan que resultarán cada vez más incontrolables, posiblemente “se volverán rebeldes” y amenazarán a la humanidad con una catástrofe o incluso la extinción.  Hay otras personas que entienden profundamente cómo funcionan estos sistemas y piensan que somos perfectamente capaces de controlarlos, que sus peligros no incluyen la extinción humana y que el primer grupo está lleno de alarmistas histéricos.

 ¿Cómo sabemos quién tiene razón?  Seguro que no lo sé.

 Pero un nuevo e inteligente estudio del Forecasting Research Institute intenta averiguarlo.  Los autores (Josh Rosenberg, Ezra Karger, Avital Morris, Molly Hickman, Rose Hadshar, Zachary Jacobs y el padrino de la previsión Philip Tetlock) habían preguntado previamente tanto a expertos en IA y otros riesgos existenciales como a “superpronosticadores” con un historial demostrado de éxito predecir acontecimientos mundiales a corto plazo, para evaluar el peligro que plantea la IA.

 ¿El resultado?  Los dos grupos estaban muy en desacuerdo.  Los expertos del estudio estaban en general mucho más nerviosos que los superpronosticadores y estimaban que las probabilidades de desastre eran mucho mayores.

 Los investigadores querían saber por qué estos grupos estaban tan en desacuerdo.  Entonces, los autores establecieron una “colaboración antagónica”: hicieron que los dos grupos pasaran muchas horas (una media de 31 horas para los expertos, 80 horas para los superpronosticadores) leyendo nuevos materiales y, lo más importante, discutiendo estos temas con personas del mundo. vista opuesta con un moderador.  La idea era ver si exponer a cada grupo a más información y a los mejores argumentos del otro grupo haría que alguno de ellos cambiara de opinión.

 Los investigadores también tenían curiosidad por encontrar “cruces”: cuestiones que ayudan a explicar las creencias de las personas y sobre las cuales nueva información podría hacerlas cambiar de opinión.  Uno de los mayores interrogantes, por ejemplo, fue: “¿Encontrará METR [un evaluador de IA] o una organización similar evidencia de que la IA tiene la capacidad de replicarse de forma autónoma, adquirir recursos y evitar el cierre antes de 2030?”  Si la respuesta resulta ser “sí”, los escépticos (los superpronosticadores) dicen que se preocuparán más por los riesgos de la IA.  Si la respuesta resulta ser “no”, los pesimistas de la IA (los expertos) dicen que se volverán más optimistas.

 Entonces, ¿todos convergieron en la respuesta correcta?  … No. Las cosas no estaban destinadas a ser tan fáciles.

 Los pesimistas de la IA ajustaron sus probabilidades de una catástrofe antes del año 2100 del 25 al 20 por ciento;  los optimistas aumentaron el suyo del 0,1 al 0,12 por ciento.  Ambos grupos se mantuvieron cerca de donde comenzaron.

 Pero el informe es fascinante de todos modos.  Es un raro intento de reunir a personas inteligentes y bien informadas que no están de acuerdo.  Si bien hacerlo no resolvió ese desacuerdo, arrojó mucha luz sobre de dónde procedían esos puntos de división.

 

Por qué la gente no está de acuerdo sobre los peligros de la IA

El documento se centra en el desacuerdo en torno al potencial de la IA para acabar con la humanidad o causar un “colapso irrecuperable”, en el que la población humana se reduce a menos de 1 millón durante un millón o más de años, o el PIB global cae a menos de 1 billón de dólares (menos de 1 millón de dólares). por ciento de su valor actual) durante un millón de años o más.  A riesgo de ser tosco, creo que podemos resumir estos escenarios como “extinción o, en el mejor de los casos, infierno en la tierra”.

 Por supuesto, existen otros riesgos diferentes derivados de la IA por los que vale la pena preocuparse, muchos de los cuales ya enfrentamos hoy.

 Los sistemas de IA existentes a veces presentan preocupantes sesgos raciales y de género;  pueden ser poco confiables y causar problemas cuando de todos modos confiamos en ellos;  se pueden utilizar con fines malos, como crear clips de noticias falsas para engañar al público o hacer pornografía con rostros de personas sin su consentimiento.

 Pero estos daños, aunque seguramente sean malos, obviamente palidecen en comparación con “perder el control de las IA de tal manera que todos mueran”.  Los investigadores optaron por centrarse en los escenarios existenciales extremos.

 Entonces, ¿por qué la gente no está de acuerdo sobre las posibilidades de que estos escenarios se hagan realidad?  No se debe a diferencias en el acceso a la información ni a la falta de exposición a diferentes puntos de vista.  Si lo fuera, la colaboración adversa, que consistió en una exposición masiva a nueva información y opiniones contrarias, habría modificado las creencias de la gente de manera más dramática.

 Curiosamente, tampoco gran parte del desacuerdo se explica por las diferentes creencias sobre lo que sucederá con la IA en los próximos años.  Cuando los investigadores emparejaron a optimistas y pesimistas y compararon sus probabilidades de sufrir una catástrofe, su brecha promedio en las probabilidades fue de 22,7 puntos porcentuales.  El “crud” más informativo (un evaluador de IA que encontró que un modelo tenía habilidades altamente peligrosas antes de 2030) solo redujo esa brecha en 1,2 puntos porcentuales.

 Los plazos a corto plazo no son nada, pero simplemente no es ahí donde están los principales desacuerdos.

 Lo que sí parecía importar eran diferentes puntos de vista sobre el futuro a largo plazo.  Los optimistas de la IA generalmente pensaron que construir una IA a nivel humano tomaría más tiempo de lo que creían los pesimistas.  Como dijo un optimista a los investigadores, “los modelos de lenguaje son sólo eso: modelos de lenguaje, no un Maquiavelo hiperhumanoide digital trabajando para sus propios fines”;  Este optimista pensó que eran necesarios avances fundamentales en los métodos de aprendizaje automático para alcanzar la inteligencia a nivel humano.

 Muchos citaron la necesidad de que la robótica alcance niveles humanos, no sólo la IA del software, y argumentaron que lograrlo sería mucho más difícil.  Una cosa es escribir código y texto en una computadora portátil;  otra muy distinta es, como máquina, aprender a voltear un panqueque o limpiar un piso de baldosas o cualquiera de las muchas otras tareas físicas en las que los humanos ahora superan a los robots.


Cuando las disputas son profundas

La fuente más interesante de divisiones que identificaron los investigadores fue lo que llaman “desacuerdos fundamentales de visión del mundo”.  Ésa es una forma elegante de decir que no están de acuerdo sobre dónde recae la carga de la prueba en este debate.

 "Ambos grupos están de acuerdo en que 'afirmaciones extraordinarias requieren evidencia extraordinaria', pero no están de acuerdo sobre qué afirmaciones son extraordinarias", resumen los investigadores.  "¿Es extraordinario creer que la IA matará a toda la humanidad cuando la humanidad existe desde hace cientos de miles de años, o es extraordinario creer que la humanidad seguirá sobreviviendo junto a una IA más inteligente que la humana?"

 ¡Es una pregunta justa!  Mi experiencia es que la mayoría de los profanos ajenos a la IA consideran que “las máquinas nos matarán a todos” como la afirmación más extraordinaria.  Pero puedo ver de dónde vienen los pesimistas.  Su visión básica es que el surgimiento de una IA sobrehumana es como la llegada a la Tierra de una especie alienígena sobrehumana.  No sabemos si esa especie querría matarnos a todos.

 Pero el Homo sapiens no necesariamente quería matar a todos los Homo erectus o neandertales hace cientos de miles de años, cuando coexistían múltiples especies inteligentes de grandes simios.  Sin embargo, los matamos a todos.

 La extinción tiende a ocurrirle a especies más tontas y débiles cuando emerge una especie más inteligente que es mejor reclamando recursos para sí misma.  Si se tiene esta visión del mundo, la carga de la prueba recae en los optimistas para demostrar por qué la IA superinteligente no resultaría en una catástrofe.  O, como lo expresó un pesimista en el estudio: "Hay muchas maneras en que esto podría suceder y muy pocas de ellas dejan a los humanos con vida".

 Esta no es la conclusión más alentadora a la que puede llegar el estudio.  Un desacuerdo impulsado por diferencias de opinión concretas sobre lo que sucederá en los próximos años es un desacuerdo más fácil de resolver: un desacuerdo basado en cómo transcurrirán los próximos años más que en diferencias profundas y difíciles de cambiar en las suposiciones de las personas sobre cómo se desarrollarán los próximos años. cómo funciona el mundo y sobre dónde debería recaer la carga de la prueba.

 El artículo me recordó una entrevista que vi hace mucho tiempo con la fallecida filósofa Hilary Putnam.  Trabajando a finales del siglo XX, Putnam creía que la filosofía podía progresar, incluso si las grandes preguntas: ¿Qué es la verdad?  ¿Cómo funciona la mente?  ¿Existe una realidad externa que podamos captar?  – Me resulta tan difícil responder como siempre.

 Claro, no conocemos esas respuestas, dijo Putnam.  Pero sabemos más sobre las preguntas.  “Aprendemos más sobre lo difíciles que son y por qué son tan difíciles.  Quizás ese sea el progreso filosófico duradero”.

 Así me sentí al leer el artículo del Forecasting Research Institute.  No siento que sepa con seguridad qué tan preocupado debería estar por la IA.  Pero siento que sé más sobre por qué esta es una pregunta difícil.