Par Eric Stefanello, Polytechnicien, spécialiste de l’IA et de la sécurité des logiciels et des systèmes complexes.
Depuis quelques années, différents scientifiques et ingénieurs commencent à évoquer les problèmes que posent les IA neuronales en matière de sécurité des personnes. Cette question devient plus urgente alors qu’arrivent des IA interagissant directement dans et avec le monde physique.
Bien qu’abreuvé au quotidien par des informations sur les IA, le citoyen n’a pas une compréhension claire de ce que sont vraiment ces « machines », alors même qu’elles se déploient de plus en plus largement dans nos entreprises et dans nos vies.
Leur fonctionnement représente un changement de paradigme épistémique total car il utilise l’approche inductive plutôt que l’approche hypothético-déductive.
Les IA neuronales utilisent en effet des approches purement inductives. À ce titre, elles n’ont aucune représentation du monde sous-jacente, quel que soit le sujet sur lequel elles travaillent. Elles ne sont pas construites à partir de représentations symboliques du monde mais à partir d’ une approche statistique massive de corrélation de grandes masses de données.
Plutôt qu’intelligences artificielles, on devrait donc les appeler des « corrélateurs massifs de données ».
C’est ainsi que dans les LLM (Large Languages Models) le langage, les mots sont représentés par des vecteurs de 300 dimensions. Chacun de ces mots/vecteurs possède une signification qui n’est absolument pas symbolique mais qui est basée sur la proximité statistique avec les autres nombres des autres mots ayant un sens voisin ou apparenté.
Quand cette vectorisation du langage est bien faite, on obtient une représentation calculable au sens mathématique. C’est ainsi que si vous prenez le vecteur roi et que vous lui retranchez le vecteur homme et que vous lui ajoutez le vecteur femme, vous obtenez alors un vecteur qui est extrêmement proche d’un vecteur reine. Extrêmement proche au point qu’il n’y a pas d’autre vecteur aussi proche du vecteur reine. Vous pouvez donc inférer que : roi – homme + femme = reine.
Cette calculabilité est LE pilier du fonctionnement de tous les LLM. Elle permet de faire des calculs sur les mots, de les trier, de les distinguer, de les classer, de les contextualiser, de les interpréter.
C’est là qu’intervient la phase d’apprentissage : on va faire ingurgiter au réseau neuronal des masses de données qui vont lui permettre peu à peu de corréler celles-ci et d’être capable d’inférer, après une suite de mots / vecteurs calculables, quel est le mot suivant qui peut advenir de façon la plus probable.
On construit ces réseaux de neurones en les dotant de paramètres qui vont intervenir dans chaque entrée et dans chaque sortie de neurone. C’est l’apprentissage qui va permettre à la machine de régler peu à peu chacun de ces paramètres jusqu’à ce que ses performances correspondent à ce qui est attendu.
Le programme n’est pas maitrisé, ni conçu par l’homme, c’est la machine qui s’autoprogramme grâce aux données qui lui sont fournies.
Le « programme » est le résultat de l’apprentissage, pas celui d’un travail humain. Corollaire : on ne sait pas vraiment ce qu’il y a à l’intérieur des IA, pas plus que l’on maîtrise leur comportement, et surtout leur comportement est non déterministe : il ne peut être, ni prédit, ni analysé précisément a posteriori.
Donc, si intelligence il y a, un jour, peut-être, celle-ci sera totalement, radicalement et définitivement différente de l’intelligence humaine. Les IA neuronales seront probablement omniscientes mais manqueront des formes d’intelligence humaines qui sont propres à notre biologie : intelligences relationnelle, psychomotrice, musicale et surtout connaissance de soi puisque cette dernière est liée à la conscience.
Il en ressort que les IA posent des problèmes de sécurité radicalement nouveaux : pourrons-nous un jour faire confiance à ces machines, au point de les laisser piloter des pelleteuses dans la rue, des avions remplis de passagers, des usines de retraitement des eaux, des réseaux électriques… ?
Avec les réseaux neuronaux, l’humain a inventé des programmes qui « s’auto-modifient » et apprennent tous seuls, sans notre concours si ce n’est celui de nos données ou des données qu’elles acquièrent autrement. On sait comment ils apprennent, mais on ne connait pas le contenu de tous leurs nouveaux apprentissages. C’est seulement lorsque l’IA agit que l’on découvre ses nouvelles capacités. Ce sont des programmes qui s’auto-conçoivent en quelque sorte, des bébés programmes qui deviennent de façon autonome adultes, par l’auto-apprentissage.
Sur le plan de la prospective on peut, sans prendre de risques, annoncer l’arrivée massive des IA neuronales dans le monde réel dans les 10 ans à venir. Ces IA agissant directement dans le monde réel vont poser des problèmes de sécurité radicalement nouveaux.
En effet, les systèmes logiciels les plus complexes utilisés dans les systèmes physiques sont jusqu’à aujourd’hui totalement déterministes dans leur comportement : pilotage des avions, contrôle des centrales nucléaires…
Aucun système informatique de ce type n’a jamais eu de panne massive. La multiplication des calculateurs et la certification des logiciels qui tournent dessus crée une « safety by design ».
Dans le monde des IA neuronales d’aujourd’hui et de demain, rien de tout cela. Nous sommes face à des programmes dont le comportement recèle intrinsèquement un aspect indéterminé, ne serait-ce que parce que l’apprentissage modifie le « programme » en permanence.
Autre facteur de risque majeur, si les mathématiques qui permettent de fabriquer ces réseaux neuronaux sont simples, nous n’avons pas les mathématiques qui permettent de décrire ou de comprendre leur fonctionnement. Oui, vous avez bien lu : les mathématiques décrivant le fonctionnement des IA n’existent pas encore.
Il faut savoir que les cathédrales informatiques que sont ces grands LLM comme Chat GPT avec 1800 trillions de paramètres et plus de 150 couches de neurones relèvent plus d’une construction de geek et de hackeurs que d’un ordonnancement organisé de maîtres maçons sous la direction d’un architecte avisé. Ces édifices se sont construits peu à peu avec des jeux d’essais et d’erreurs avec une constante : les résultats obtenus allaient toujours au-delà des espérances initiales et surprenaient les concepteurs.
Or il n’existe pas de possibilité de contrôle des IA si nous n’avons pas de modélisation mathématique précise de celles-ci. Cette question est fondamentale.
Depuis 18 mois les créations d’organismes étatiques dédiés à la sûreté des IA se multiplient dans le monde. Les USA en novembre 2023, puis le Japon, la Corée, Singapour, le Canada, la Chine, l’Argentine en 2024. L’UE a créé un bureau dédié fin 2024 et la France vient de créer l’INESIA (Institut national pour l’évaluation et la sécurité de l’intelligence artificielle) qui n’est pas une entité dédiée mais une fédération sous l’égide du SGDSN (Secrétariat général de la défense et de la sûreté nationale), des différents organismes impliqués dans les questions de sécurité et de sûreté des IA.
Lors du sommet sur la sécurité de l’IA en novembre 2023 à Bletchley Park et à l’initiative du gouvernement britannique, a été constitué un panel de 96 experts internationaux provenant de 30 pays, ainsi que de représentants d’organisations internationales telles que les Nations Unies, l’Union européenne et l’Organisation de coopération et de développement économiques (OCDE). Le secrétariat du panel est assuré par le gouvernement britannique, et le professeur Yoshua Bengio en assume la présidence pour l’année 2025.
On pourrait considérer qu’il s’agit d’une sorte de « GIEC de l’IA ».
Ce panel vient de sortir en janvier 2025 son rapport : « International AI safety report » disponible en ligne. Après quelques rappels sur le fonctionnement des IA, ce rapport, passé largement inaperçu dans la presse ces dernières semaines, malgré le sommet IA de Paris, apporte des éléments édifiants en matière d’analyse des risques associés à l’IA.
Constatant que les performances des dernières versions de ChatGPT arrivent maintenant au niveau de celles des meilleurs étudiants en PhD, le rapport pointe que notre compréhension limitée des implications des risques de l’IA constitue un « challenge majeur pour les décideurs politiques : ils doivent dès à présent peser les bénéfices et les risques des avancées imminentes de l’IA, sans avoir pour autant de larges résultats scientifiques disponibles ». Il renforce le message en affirmant que les dernières tendances des performances des IA doivent constituer une « priorité urgente pour la recherche fondamentale sur la sûreté des IA dans les mois à venir ».
Le rapport poursuit en affichant qu’une mitigation préemptive des risques basée sur des preuves incomplètes ou limitées pourraient être ineffective ou inutile. D’un autre côté, attendre des preuves plus fortes des risques imminents qui sont posés, pourrait laisser la société prise au dépourvu et même interdire toute mitigation ultérieure.
La conclusion du rapport est on ne peut plus claire : l’avenir des IA générales est incertain avec un large éventail de trajectoires possibles dans le futur proche entrainant à la fois des conséquences très positives et très négatives.
Ces IA générales seront capables d’être à la fois :
- Des ingénieurs : en analysant un problème, en le modélisant, en l’optimisant. Elles pourront analyser et définir les tâches nécessaires pour arriver au but.
- Des scientifiques : en inférant des modèles à partir d’observations empiriques et de raisonnements contrefactuels (événements qui ne se sont pas réalisés mais auraient pu l’être sous certaines conditions).
- Des ouvriers, des soldats, des artisans : en dirigeant et manipulant des objets physiques (robots ou autres) qui utiliseront eux-mêmes d’autres outils pour remplir leurs tâches.
- Des artistes : en créant ex nihilo de nouvelles formes d’ expressions artistiques dans tous les domaines.
Elles ouvriront le champ aux machines concevant et fabriquant d’autres machines, et créeront de nouvelles connaissances, de nouveaux savoirs, inconnus des hommes.
Bien entendu, au milieu de ces développements, il y a aura des choses fantastiques : de nouvelles compréhensions de l’univers, de la biologie, de nouveaux médicaments, moins de travaux harassants, plus de loisirs (pour peu que l’on mette en place les filets sociaux qui seront indispensables et qu’une vraie redistribution des richesses soit mise en place).
Mais il y aura aussi des risques importants. On voit déjà émerger des comportements émergents d’autoprotection dans les IA actuelles comme l’affirme Yoshua Bengio qui prétend avoir des informations très confidentielles sur ces sujets gênants pour les tycoons de l’IA.
Comme on peut faire confiance à l’infinie cupidité des milliardaires du digital et au désir de suprématie des autocrates, on peut s’attendre à ce que tout ce qui se mettrait en travers d’un développement sans contrainte des capacités des IA générales soit dûment combattu par tous les moyens possibles.
Les IA se développent très rapidement : iront-elles plus vite que nos capacités à les encadrer et à nous mettre en sécurité face à elles ?
Il faut donc absolument règlementer ex ante, ne pas attendre que les problèmes arrivent, inverser cette fatalité qui a fait que depuis 50 ans, la règlementation du digital a toujours eu un train de retard par rapport aux développements techniques du domaine.
IA Safety: an imperative in the face of the unknown
By Eric Stefanello, Polytechnician, expert in AI and in software and complex systems security.
In recent years, various scientists and engineers have begun to talk about the problems that neural AIs pose in terms of personal safety. This issue is becoming more pressing with the arrival of AIs interacting directly in and with the physical world.
Although they are bombarded with information about AI on a daily basis, citizens do not have a clear understanding of what these machines really are, even though they are being deployed more and more widely in our companies and in our lives.
The way they work represents a total epistemic paradigm shift because it uses the inductive approach rather than the hypothetico-deductive approach.
Neural AIs use purely inductive approaches. As such, they have no underlying representation of the world, whatever the subject they are working on. They are not built on the basis of symbolic representations of the world but on the basis of a massive statistical approach to the correlation of larges masses of data.
Rather than artificial intelligence, they should therefore be called « massive data correlators ».
This is how in LLMs (Large languages Models) language, words are represented by vectors of 300 dimensions. Each of these words/vector has a meaning that is not at all symbolic but is based on the statistical proximity to the other numbers of other words with a similar or related meaning.
When this vectorization of language is well done, you get a representation that can be computed in the mathematical sense. So if you take the king vector and you subtract the male vector from it and add the female vector to it, then you get a vector that is extremely close to the queen vector. Extremely close to the point that there is no other vector as close to the queen vector. So you can infer that: king – man + woman = queen.
This computability is THE pillar of the operation of all LLMs. It allows you to make calculations on words, to sort them, to distinguish them, to classify them, to contextualize them, to interpret them.
This is where the learning phase comes in: the neural network will be made to ingest masses of data that will allow it to gradually correlate them and be able to infer from a series of computable words/vectors which is the next word that can most likely occur.
These neural networks are built by providing them with parameters that will intervene in each input and output of a neuron. It is learning that will allow the machine to gradually adjust each of these parameters until its performance corresponds to what is expected.
The program is not mastered or designed by humans, it is the machine that programs itself thanks to the data provided to it.
The « program » is the result of learning, not that of human work. Corollary: we don’t really know what’s inside AIs, nor do we control their behavior, and above all their behavior is non-deterministic: it can neither be predicted nor analyzed precisely a posteriori.
So, if there is intelligence, one day, perhaps, it will be totally, radically and definitively different from human intelligence. Neural AIs will probably be omniscient but will lack the forms of human intelligence that are specific to our biology: relational, psychomotor, musical intelligences and especially self-awareness, since the latter is linked to consciousness.
It emerges that AIs pose radically new security problems: will we ever be able to trust these machines, to the point of letting them pilot excavators in the street, planes full of passengers, water treatment plants, electricity grids, etc. ?
With neural networks, humans have invented programs that « self-modify » and learn on their own, without our help except for our data or the data they acquire otherwise. We know how they learn, but we don’t know the content of all their new learning. It is only when AI acts that its new capabilities are discovered. These are programs that are self-designed in a way, baby programs that become adults autonomously, through self-learning.
In terms of foresight, we can safely announce the massive arrival of AI in the real world in the next 10 years. These AIs acting directly in the real world will pose radically new security problems.
Indeed, the most complex software systems used in physical systems are until now totally deterministic in their behavior: piloting aircraft, controlling nuclear power plants, etc.
No computer system of this type has ever had a massive outage. The proliferation of computers and the certification of the software that runs on them creates a « safety by design » approach.
In the world of neural AIs of today and tomorrow, none of that. We are faced with programs whose behavior intrinsically conceals an indeterminate aspect, if only because learning constantly modifies the « program ».
Another major risk factor is that while the mathematics that makes it possible to make these neural networks is simple, we do not have the mathematics that allows us to describe or understand how they work. Yes, you read that right: the mathematics describing how AIs work does not yet exist.
It should be noted that the computer cathedrals that are these large LLMs like Chat GPT with 1800 trillion parameters and more than 150 layers of neurons are more a geek and hacker’s construction than an organized ordering of master masons under the direction of a wise architect. These buildings were built little by little with a game of trial and error with one constant : the results obtained always went beyond initial expectations and surprised the designers.
However, there is no possibility of controlling AIs if we do not have precise mathematical models of them. This question is fundamental.
Over the past 18 months, the creation of state bodies dedicated to the safety of AI has been multiplying around the world. The USA in November 2023, then Japan, Korea, Singapore, Canada, China, Argentina in 2024. The EU created a dedicated office at the end of 2024 and France has just created the INESIA (National Institute for the Evaluation and Security of Artificial Intelligence) which is not a dedicated entity but a federation under the aegis of the SGDSN, the various organizations involved in AI security and safety issues.
At the AI Security Summit in November 2023 in Bletchley Park and at the initiative of the UK government, a panel of 96 international experts from 30 countries was formed, as well as representatives of international organisations such as the United Nations, the European Union and the Organisation for Economic Co-operation and Development (OECD). The secretariat of the panel is provided by the British government, and Professor Yoshua Bengio will chair the panel for the year 2025.
It could be considered a kind of « IPCC of AI ».
This panel has just released its report: « International AI safety report » available online in January 2025. After a few reminders on how AI works, this report, which has gone largely unnoticed in the press in recent weeks, despite the AI summit in Paris, provides edifying elements in terms of analysing the risks associated with AI.
Noting that the performance of the latest versions of ChatGPT is now on par with that of the best PhD students, the report points out that our limited understanding of the implications of AI risks constitutes a « major challenge for policymakers: they must now weigh the benefits and risks of imminent advances in AI without having broad scientific results available ». He reinforces the message by saying that the latest trends in AI performance must be an « urgent priority for fundamental research on AI safety in the coming months ».
The report goes on to show that pre-emptive risk mitigation based on incomplete or limited evidence may be ineffective or unnecessary. On the other hand, waiting for stronger evidence of the imminent risks that are posed, could leave society caught off guard and even prohibit any further mitigation.
The conclusion of the report could not be clearer: the future of general AIs is uncertain with a wide range of possible trajectories in the near future leading to both very positive and very negative consequences.
These general AIs will be able to be both:
- Engineers: by analyzing a problem, modeling it, optimizing it. They will be able to analyze and define the tasks necessary to achieve the goal.
- Scientists: by inferring models from empirical observations and counterfactual reasoning (events that did not happen but could have been under certain conditions)
- Workers, soldiers, craftsmen: by directing and manipulating physical objects (robots or others) that will themselves use other tools to perform their tasks
- Artists: by creating from scratch new forms of artistic expression in all fields
They will open the field to machines designing and manufacturing other machines, and will create new knowledge, new knowledge, unknown to humans.
Of course, in the midst of these developments there will be fantastic things: new understandings of the universe, of biology, new drugs, less exhausting work, more leisure (as long as we put in place the social safety nets that will be essential and that a real redistribution of wealth is put in place).
But there will also be significant risks. We are already seeing the emergence of emerging self-protection behaviors in current AIs, as Yoshua Bengio says, who must have very confidential information on these embarrassing subjects for AI tycoons.
Since we can trust the infinite greed of digital billionaires and the desire for supremacy of autocrats, we can expect that anything that would stand in the way of an unconstrained development of the capabilities of general AIs will be duly combated by all possible means.
AIs are developing very quickly: will they go faster than our ability to supervise them and make us safe in the face of them?
It is therefore absolutely necessary to regulate ex ante, not to wait for problems to arise, to reverse this fatality that has meant that for 50 years, digital regulation has always lagged behind technical developments in the field.
20250319-Article-ENGLISH-Eric-Stefanello