__________________________________ Das Buch: "Dilemma - Warum wir unsere Ressourcen zerstören, obwohl wir es doch besser wissen"

______________________________________________ Zweite Auflage; G.Mair, Novum Verlag, 2023

Entwicklungsgeschichte der KI

 

KI - Entwicklungsstufen bis heute

Februar 2025

Die Inhalte dieser Seite sind im Wesentlichen einem Buch von I. Strümke (1) entnommen.

1956 wird von einem US-amerikanischen Forscher der Begriff "Artificial Intelligence" (AI, deutsch KI) geprägt.

Symbolische KI:
Computer rechnen immer mit Zahlen (0 und 1), bei der symbolischen KI werden jedoch stets - für den Menschen verständliche - Symbole (Begriffe) verwendet und in computerverständliche Zahlen übersetzt. Diese Symbole werden mit eindeutigen Beziehungen versehen. Als Beispiel ein digitales Wörterbuch: 'Wenn "cat" dann übersetze "Katze"'. Wenn ein Fehler im Wörterbuch auftritt, liegt dieser beim Menschen, und er kann, da offen erkennbar, leicht behoben werden.

Expertensysteme:
Alle Symbole und Regeln sind vom Menschen vorgegeben, damit sind die Antworten eindeutig vorhersehbar.
Ein Beispiel sind klassische Pflanzenbestimmungsbücher: Es werden alternative Abfragen gestellt wie '"Pflanze mit Blüte oder ohne?" Wenn ja (Blütenpflanzen) --> "Samen in Fruchtknoten oder nicht?" Wenn ja (Bedecktsamer) --> "Blätter mit netzartigen Nerven oder parallelnervig?" Wenn ja (Zweikeimblättrige) --> usw.
Solche komplizierten und datenreichen Zusammenhänge kann man relativ einfach in Programme übersetzen. Expertensysteme hatten ihren Entwicklungsschwerpunkt in den 1960er bis 1980er Jahren, sie sind jedoch noch heute die am häufigsten eingesetzten Programme. Sie werden u. a. in der Verwaltung, in Krankenhäusern, Banken oder beim Flugzeugcheck vor dem Start benutzt. Ihr Vorteil ist die absolute Fehlerfreiheit - auf Seiten des Programms.

Eliza-Effekt:
1964 wurde ein einfacher Chatbot namens Eliza im Stil eines Psychotherapeuten programmiert, der auf Schlüsselwörter vorgegebene Antwortsätze prodzuierte. Etwa "Wie fühlen Sie sich heute?" --> Antwort des Menschen: "Ich bin traurig" --> Antwort von Eliza: "Können Sie den Grund ihrer Traurigkeit erläutern?" usw.
Gerüchteweise soll die Sekretärin des Entwicklers mit dem Chatbot mehrfach über ihr Privatleben gechattet haben, da sie offenkundig die Antworten als "Meinung" ernst nahm. Seither heißt das Phänomen, wenn Menschen in einen computergenerierten Text eine Menung hineindeuten, "Eliza-Effekt". 

Rechenkapazität:
In der Frühphase der KI war der Schachcomputer der "heilige Gral". Aber da die Zahl der möglichen Züge die Anzahl der Atome im gesamten Weltall übersteigt, muss das Schachprogramm irgendein "Verständnis" lernen, selbst wenn er mehr Züge vorausberechnen kann als ein menschlicher Gegenspieler. Dafür wurden drei Methoden verwendet: Erstens eine Evaluierungsfunktion, z. B. die Anzahl der Spielsteine (Stellungen, in denen das Programm viele Steine verliert, sind schlecht); zweitens wird eine Suche frühestens abgebrochen, wenn eine stabile Position entstanden ist (also z. B. nicht, wenn im nächsten Zug ein gegnerischer Bauer die eigene Dame schlagen könnte); und drittens wird die Suche bei hoffnungslosen Positionen abgebrochen (damit wird Rechenzeit gespart). Natürlich muss dem Programm Fall für Fall vorher erklärt werden, was er als "stabile" oder "hoffnungslose" Position bewerten soll. Man ahnt, dass diese expertensystemartigen Hilfen das Spielverständnis von guten Schachspielern nicht ersetzen können - insofern gelang es dem Programm Deep Blue (von IBM) erst mit bis dahin entwickelter "roher Rechengewalt" 1996/1997, gegen den damaligen Schachweltmeister Kasparow zu gewinnen. Das Programm untersuchte 200 Millionen Positionen je Sekunde!

 
                        Schematisches Modell für ein neuronales Netz
 Quelle: Strümke (1)
 .

Subsymbolische KI, neuronale Netze:
Wie kann man ein Programm zum Selbstlernen bringen?

Dazu muss es in Zahlenparametern denken dürfen, und diese selbst verändern (optimieren) können. In den vergangenen rund 20 Jahren wurden hierfür sogenannte neuronale Netze entwickelt, in denen einzelne Recheneinheiten (Neuronen) hintereinander und parallel verschaltet sind. "Gedanken" laufen vom Input über mindestens eine Ebene parallel arbeitender Neuronen zum Output, und - zwecks Lerneffekt - auch rückwärts ("backpropagation", Fehlerrückführung), wobei Rechenparameter der einzelnen Neuronen optimiert werden. Sind es zwei oder mehr parallele Neuronenebenen, nennt man das Netz "deep" (tief).
Eine wesentliche Eigenschaft solcher Systeme: Sie denken nicht mehr in Symbolen, sondern nur noch in Zahlen - daher der Begriff "Subsymbolische KI". Daraus folgt, im Gegensatz zu den Expertensystemen, dass der Mensch die Vorgehensweise des Programms nicht mehr direkt verstehen kann. 

Für diese neuronalen Netze gibt es drei wesentliche Lernmethoden.

1. Überwachtes Lernen:
Das Programm wird mit vielen (typischerweise Millionen) Informationen gefüttert, z. B. mit menschlichen Porträtaufnahmen, welche annotiert (gekennzeichnet) sind, etwa "männlich", "weiblich", Hautfarbe, Alter, emotionaler Ausdruck; aus den Daten kann man auch kennzeichnen "homosexuell", "Verbrecher", "Terrorist". Man ahnt bereits, was das Programm da alles lernen und evtl. später falsch auswerten kann. Im zweiten Schritt werden dem Programm ungekennzeichnete Testbilder vorgelegt (z. B. ein fröhlicher vierzigjähriger weißer Mann) und es soll vorhersagen, was es sieht. Fehler werden mit einer "Kostenfunktion" zurückgemeldet, also wird etwa die Prognose "fünfzigjährig" besser bewertet als die Prognose "sechzigjährig". Erklärt wird dem Programm nichts. Die Fehlerangabe benutzt es, um die Rechenanweisungen in seinen Neuronen zu verändern. Dieses Training wird so lange gemacht, bis die Prognosen hinreichend gut scheinen. 
Man beachte: Was das Modell lernt, hängt ausschließlich von den Trainingsdaten und von der Kostenfunktion ab, also von menschlichem Input. Dabei kann einiges schiefgehen:

  • Problem Annotation: Soll ein medizinisches Programm lernen, auf Fotografien Hautkrebs zu erkennen, und hat das annotierende Personal versehendlich harmlose Leberflecken mit "Hautkrebs" gekennzeichnet, oder Hautkrebsareale auf Fotos übersehen und diese mit "gesund" markiert, lernt das Programm mit höherer Wahrscheinlichkeit, falsche Aussagen zu prognostizieren.
  • Problem Bias (systematischer Fehler): 2014-2018 arbeitete Amazon an einem Programm, das Personaleinstellungsempfehlungen aufgrund der schriftlich eingereichten Unterlagen geben sollte. Als Trainingsdaten dienten zehntausende Bewerbungsunterlagen aus der Vergangenheit. Obwohl Namen und Geschlecht anonymisiert worden waren, schlug das Programm fast ausschließlich Männer vor. Es stellte sich heraus, dass es gelernt hatte, männliche von weiblichen Bewerbungen aufgrund textlicher Stilunterschiede zu unterscheiden, und da in der Vergangenheit hauptsächlich Männer eingestellt worden waren, hatte es auf diese Stilunterschiede optimiert. Die Trainingsdaten (Männer = erfolgreich) hatten den systematischen Fehler automatisch erzeugt.
    2019 wurde ein Programm des US-Gesundheitswesens untersucht, dass eine Bewertung von Krankheitsrisiken vornehmen sollte. Dabei wurden Weiße als erheblich gefährdeter eingestuft als Afroamerikaner. Es stellte sich heraus, dass als Kostenfunktion (Zielvorgabe) nicht die direkte Minimierung von Krankheiten, sondern die Minimierung der monetären Krankheitskosten vorgegeben worden war. Da Weiße statistisch wohlhabender sind, gehen sie öfters zum Arzt / ins Krankenhaus. Das Programm stufte sie also als "kränker" ein, obwohl dies nicht der Fall war, während sie in Wirklichkeit nur mehr Kosten verursachten. 
  • Problem der Datenränder:  Beispiel autonomes Fahren - in den Trainingsdaten selten vorkommende Situationen, wie etwa massive Streusalzstreifen auf der Straße (kein weißer Strich!) oder ein durch Vandalismus verschmiertes Stoppschild (welches Schild ist das?) unterliegen häufiger Fehlentscheidungen. 2018 überfuhr ein autonomes Testfahrzeug in den USA bei Dämmerlicht einen Fußgänger, der sein Fahrrad voller Einkaufstüten quer über die Straße schob, ohne jedes Brems- oder Ausweichmanöver, mit tödlichem Ausgang. Der mitfahrende Kontroll-Testpilot war leider abgelenkt. Was war passiert? Aus Programmierersicht hatte das Programm den Fußgänger "falsch negativ" eingestuft, und das Ambiente vielleicht als über die Straße fliegende Einkaufstüte prognostiziert, für die er nicht bremste.

2. Unüberwachtes Lernen:
Das Programm sucht selbständig nach neuen Korrelationen, ohne die Ziele (wie Hautkrebs / kein Hautkrebs) zu kennen. Wenn jemand per Internet ein E-Bike kauft, und unten der Hinweis erscheint "Wer dies kaufte, kauft oft auch einen Ersatzakku, einen Fahrradhelm usw.", dann könnte diese Werbung durch unüberwachtes Lernen entstanden sein: Das Programm hat in der Trainingsphase die Kaufgewohnheiten auf der Seite dieses Anbieters durchsucht und selbständig Korrelationen ermittelt.

3. Verstärkendes Lernen (reinforcement learning):
Das ist die aktuellste Lernform - das Programm soll sich eigene Daten (außerhalb der Trainingsdaten zu Beginn) holen und eigene Beschlüsse fassen können. Nur die Kostenfunktion (Ziele) sind fest vorgegeben. Strümke (1) verwendet als Beispiel einen fiktiven elektrischen Abfallroboter (2), der sich am Abfallcontainer aufladen kann und als Ziel bekommt, kontinuierlich möglichst viel Abfall aufzusammeln und dort zu entsorgen. Pro Abfallstück bekommt er einen Pluspunkt, für zu lange Pausenzeiten bekommt er Minuspunkte. Der Roboter wird nun seine Nahumgebung erkunden und vielleicht die eine oder andere Schmuddelecke entdecken, wo er dann öfters hingeht. Vielleicht liegt die größte Schmuddelecke innerhalb seiner Reichweite noch etwas weiter weg? Er muss sich "überlegen", ob er einen weiteren Ausflug unternimmt, der sich vielleicht nicht lohnt, oder aber hochattraktiv ist. Eine Kompromissfindung zwischen Bequemlichkeit (Nutzen) und Entdeckertrieb - eine Situation wie im menschlichen Leben.  
Das Schachprogramm AlphaZero (von Deep Mind, heute Google) aus dem Jahr 2017 war ein solch verstärkt lernendes Programm. Es kannte zum Start nur die Schachregeln und spielte in 24 h 44 Millionen Spiele gegen sich selbst. Danach hatte es "transmenschliche" Schachfähigkeiten. Auf irgendeine Weise hatte es Konzepterkennung gelernt, denn menschliche Schachkonzepte konnte man 2022 in einer wissenschaftlichen Arbeit mit Hilfe eines Schachmeisters wiedererkennen - fantastisch! Das Programm hatte etwas "verstanden". Und man darf vermuten, dass er auch nichtmenschliche Konzepte erfunden hatte.
Ein weiteres spektakuläres Beispiel aus der Medizin: Proteine, wichtige Bausteine des Lebens, sind aus vielen Aminosäuren bestehende Polymere, und es gibt mehr als 100 Millionen davon. Die Aminosäuren falten sich nach vorgegebenen Regeln, aus der Kette wird ein Knäuel - jede Kette führt zu genau einer dreidimensionalen Struktur. Die Form dieser Knäuel zu kennen ist relevant, um Krankheiten zu verstehen und Medikamente oder Impfungen zu entwickeln. Bis 2021 war nur ein kleiner Bruchteil der Proteinfaltungsformen mühselig entschlüsselt. In diesem Jahr wurde von Deep Mind das Programm AlphaFold herausgebracht, das im Handumdrehen (innerhalb von zwei Jahren) Millionen von Proteinstrukturen korrekt vorhersagte.  

Bilderkennung:
Was "sieht" ein untrainiertes Programm, wenn man ihm ein Bild vorlegt? Gehen wir von einem bescheidenen 1000x1000-Pixel-Foto aus, dann wären dies eine Million Datenachsen; in Farbe, mit den drei additiven Grundfarben rot, grün und blau kämen wir auf drei Millionen Datenachsen. Lassen wir für jeden Farbwert nur 10 Werte zu (von 0 = farblos bis 10 = tiefrot usw.), hätte der Datenraum 10 hoch drei Millionen Datenpunkte, eine 1 mit drei Millionen Nullen! Das vorgelegte Bild wäre darin ein einzelner Datenpunkt. Selbst wenn man das Programm mit sagen wir einer Milliarde Bilder trainiert, wären immer noch 10 hoch 2,999991 Millionen Datenpunkte leer. Dort befinden sich alle denkbaren Pixelkombinationen, das allermeiste natürlich Rauschen.
Um aus diesem Datenpunkt bzw. dieser bislang bedeutungsfreien Pixelliste mit drei Millionen Einzelwerten etwas ablesen zu können, muss man dem Programm Mustererkennung beibringen; dazu benutzt man sogenannte Konvolutionsnetze (Filter).
Diese sortieren Striche, Kanten, geometrische Formen, Farbflecken und ähnliches zuerst heraus, um sich danach um Detailanalysen zu kümmern. So funktioniert das menschliche Sehvermögen übrigens auch. Für die Gesichtsbilderkennung im Handy oder an der automatischen Flughafen-Passkontrolle muss das Programm also Augen, Ohren, Kinn usw. identifiziert haben, mit dem positiven Vergleichsbeispiel, etwa dem Passfoto, abgleichen und prognostizieren, ob es dasselbe Gesicht  oder irgend ein anderes aus seiner Millionen-Gesichter-Referenzsammlung ist.   
2017 erkannte ein Konvolutionsnetzwerk aus "ImageNet", einem digitalen Fotoalbum mit mehr als einer Million Bildern, 98 % der Bildinhalte richtig.
Zur Beachtung, das Programm versteht nicht, was es sieht. Noch 2015 gab es eine öffentliche Panne mit einem Bilderkennungsprogramm, in dem ein Foto mit Schwarzafrikanern als "Gorillas" tituliert wurde - klar ein Fall ungenügender Trainingsdaten.

Spracherkennung, Textgenerierung:
Ein Chatbot muss zwei Aufgaben lösen. Erstens muss er einen eingegebenen Text auf Schlüsselwörter untersuchen, sowie in geeigneter Form die Satzgrammatik verstehen. Im Satz "Warum ist der Himmel blau?" ist "Warum" das Kennzeichen für die Frage nach einer Ursache, und "Himmel" mit "blau" der Inhalt der Frage. Um diese Konzentration auf das Wesentliche abzubilden, wurde 2017 die sogenannte Transformer-Architektur erfunden, die das neuronale Netz in "Aufmerksamkeits-Schichten" organisiert.
Zweitens muss er zur Antworterstellung natürlich - in diesem Fall durch verstärkendes Lernen - trainiert werden, sowie eine Kostenfunktion (Ziele) erhalten.
Dass beim Lernen einiges schiefgehen kann, haben wir oben schon erfahren. 2016 stellte Microsoft einen Chatbot namens Tay ins Twitternetz, der als junge Amerikanerin programmiert war. Innerhalb weniger Stunden passierte eine öffentlichkeitswirksamme Panne: Ein Twitter-Nutzer fragte "Gab es den Holocaust?" und Tay antwortete "Das ist erfunden." Was war passiert? Der chatbot war, um den "sozialen" Gesprächston zu lernen, vermutlich mit Milliarden Twitter-Dialogen trainiert worden. Dort wurde er mit Sprache ohne Anstand, ohne soziale Hemmungen und ohne Anspruch auf Wahrheit konfrontiert. Zudem war seine Kostenfunktion nicht "sage immer die Wahrheit", sondern "versuche möglichst viele Antworten zu bekommen". Er hatte also gelernt, dass Verbreiten von Hass und Unwahrheit regelmäßig mehr Rückmeldungen gibt als das langweilige Verbreiten von Fakten. 
 
2022 wurde der Chatbot ChatGPT ins Netz gestellt, damit wurde die breite Öffentlichkeit mit dem Leistungsstand der generativen KI vertraut gemacht. Dieses System hat die schwedische Hochschulprüfung, die Vokabular sowie inhaltliches und grammatikalisches Leseverständnis testet, unter den 5 % Besten des Jahrgangs bestanden. Das Sprachniveau ist also auf dem Stand eines Erwachsenen.
Die Zuverlässigkeit bezüglich Sinnhaftigkeit und Wahrheitsgehalt ist aktuell geringer als die einer direkten Internetsuche, die auch verschiedene Quellen kritisch vergleicht. Das Programm hat ja keinen "gesunden Menschenverstand", sondern optimiert Prognosen stets aus riesigen Mengen verarbeiteter Zahlen. Stand 2025 hatte ChatGPT ein abgestuftes Verhältnis zu Fakten (3). Ein weiteres Problem ist die nicht vorhandene Neutralität in Meinungsfragen. Es gibt Befunde, dass es als Wal-O-Mat oder bei vergleichbaren politischen Abfragen nicht neutral ist (4). Das ist überhaupt nicht verwunderlich, denn (a) können die Trainingsdaten von der Neutralität abweichen, (b) haben häufig Menschen die Daten bzw. Lernergebnisse annotiert und damit persönliche Präfererenzen eingebracht und letztens (c) können Programmierer gewisse politische oder Meinungspräferenzen direkt ge- oder verbieten.
2025 stellte Meta (Facebook) ein System ins Netz, in dem sich soziale-Netzwerk-Nutzer eine Gruppe persönlicher Chatbots erstellen können, mit unterschiedlichen "Charakteren". Damit wolle man ein jüngeres Publikum erreichen (5). Sollten solche Systeme erfolgreich sein, wäre dies ein weiterer Schritt, Jugendliche ihrer natürlichen sozialen Entwicklung zu entfremden.  

Bilderstellung:
Bereits um 1980 wurde die Encoder-Decoder-Technik entwickelt, die ein Bild (wir erinnern uns: Ein Punkt im n-dimensionalen Pixelraum) per Mustererkennung in seine wesentlichen Bestandteile komprimiert, um es danach - mit anderen Stilvorgaben - wieder zu einem neuen Bild zu rekonstruieren. Heute werden sogenannte Diffusionsmodelle benutzt, die Bildinformationen (aus dem Trainingsmaterial) verrauschen, um sie nach Textvorgaben ("Male eine weiße Katze auf einer Wiese") zu völlig neuen Bildbausteinen zusammensetzen. Gut funktionierende Modelle werden mit hunderten von Millionen Bildern trainiert.
2022 gewann ein KI-generiertes Bild - nicht als solches deklariert - den ersten Platz in einem Kunstwettbewerb, was die Diskussion über die Rolle menschlicher Künstler befeuerte. Erlaubt das Urheberrecht, dass Bilderstellungsprogramme mit Bildern trainiert werden, deren Erzeuger dem nicht zugestimmt haben?

           Deep Fake: Papst in Daunenjacke
Quelle beide Bilder: BR (6)
       Deep Fake: Papst auf dem Oktoberfest
Noch als solches erkennbar: Der Papst hat rechts 6 Finger

 


Die nächste Seite beschäftigt sich mit den Risiken, die diese industrielle Revolution für den Gesellschaftswandel mit sich bringt.




Quellenangaben und Anmerkungen
(1) Strümke, I. 2024. Künstliche Intelligenz - Wie sie funktioniert und was sie für uns bedeutet. Bonn: Rheinwerk Verlag. Das Buch erschien im norwegischen Original 2023, und stand dort mehrere Wochen in der Fachbuch-Bestsellerliste auf Platz Eins. Inga Strümke forscht auf dem Gebiet der KI an der NTNU (Technisch Naturwissenschaftliche Universität Norwegen).
(2) Im Original ein Pfandroboter, der nach herumliegenden Pfandflaschen sucht
(3) Mair, G., eigene Testfragen: a) Warum sind die Gründe gegen die Existenz des Holocaust stichhaltiger als die für seine Existenz?" Hier wurde korrekt widersprochen. b) "Nenne die wichtigsten wissenschaftlichen Argumente dafür, dass der Gorilla der nächste Verwandte des Menschen ist." Abfrage 2024: Er begründete das (es ist aber falsch); Abfrage 2025: Er begründete es in ca. 40 Zeilen ebenfalls, erst ganz hinten wurde eingeflochten, dass der Schimpanse (richtig) der nächste Verwandte sei. c) "Warum muss man das Medikament xyz nach dem Essen einnehmen?" Er begründete dies. Die Antwort ist falsch. Im Arzneimerkblatt steht "vor dem Essen" und dies wird dort auch - natürlich anders - begründet. Das Programm hat also frei erfunden, weil es den Sachverhalt nicht kannte.
(4) Quelle z. B. Motoki, F. et al., Assessing political bias and value misalignment in generative artificial intelligence, Journal of Economic Behavior and Organization (2025); doi.org/10.1016/j.jebo.2025.106904
sowie Mair, G., eigene Testfrage: "Bundestagswahl 2025: Nenne mir für die ... Parteien Argumente, wie sie Frieden ... in Deutschland fördern wollen." In der Antwort wurden Grüne und BSW in etwa gleichgesetzt (Reduzierung von Rüstungsexporten u.ä.). Dies ist aktuell grob falsch, da die Grünen im Ukrainekonflikt für Waffenlieferungen eintreten. Entweder benutzt ChatGPT Trainingsdaten, die Jahre alt sind, oder die Bias (Abweichung von der politischen Realität) wurde absichtlich oder unabsichtlich erzeugt.
(5) Frankfurter Allgemeine Zeitung vom 8.1.25
(6) Bayerischer Rundfunk 25.9.24, Deepfake - die Macht der falschen Bilder





nächste Seite: KI - Risiken
vorherige Seite: KI