Hinweis zu Affiliate-Links: Alle Produkte werden von der Redaktion unabhängig ausgewählt. Im Falle eines Kaufs des Produkts nach Klick auf den Link erhalten wir ggf. eine Provision.

Daten für alle: Warum die digitale Enteignung von Google und Facebook nichts bringt

von Ben Hartlmaier
Deutschland und Europa wollen bei der Entwicklung Künstlicher Intelligenz nicht den Anschluss verpassen. Deshalb fordert unter anderem SPD-Chefin Andrea Nahles nun, digitale Großkonzerne wie Facebook und Google zur Herausgabe ihrer riesigen Datenbestände zu zwingen. Denn Daten sind entscheidend für KI-Forschung. Doch ausgerechnet die strengen europäischen Datenschutzgesetze könnten diese Pläne vereiteln.

Die letzte Welle der digitalen Revolution haben Deutschland und Europa klar verpasst: Die größten Konzerne des Digitalkapitalismus heißen Google, Facebook und Amazon oder Baidu, Tencent und Alibaba. Sie kommen aus Nordamerika oder Asien. Die oft geforderte europäische Suchmaschine, die Googles Monopol auf dem Kontinent brechen soll, ist nach wie vor nicht da. Im Gegenteil: Sogar bei datenschutzfreundlicher Websuche – eigentlich ein potentielles Steckenpferd der datensensiblen Europäer – ist mit DuckDuckGo ausgerechnet ein amerikanisches Unternehmen auf dem Vormarsch. Ein europäisches Amazon? Fehlanzeige. Ein europäisches Facebook? Nicht in Sicht.

Doch während hierzulande noch den verpassten Chancen nachgetrauert wird, surfen die Tech-Multis aus dem Silicon Valley und Asien bereits die nächste Welle der digitalen Entwicklung: Künstliche Intelligenz, kurz: KI. Sollte Europa diesmal wieder den Anschluss an eine Schlüsseltechnologie verpassen, könnte es in Zukunft ziemlich düster um die wirtschaftliche Entwicklung aussehen. Diese Erkenntnis ist mittlerweile auch bei der Bundesregierung angekommen: Im Juli hat sie deshalb ein Eckpunktepapier für eine deutsche KI-Strategie veröffentlicht. Eines der obersten Ziele ist es danach, „eine europäische Antwort auf datenbasierte Geschäftsmodelle“ zu finden, also: Facebook, Google und Co das Feld nicht alleine zu überlassen. Auf lange Sicht soll Deutschland sogar „zum weltweit führenden Standort für KI werden“ – natürlich nicht ohne landestypisches Gütesiegel „Artificial Intelligence (AI) made in Germany“.

Bis dahin ist es allerdings noch ein weiter Weg. Zumal es nach Ansicht der Bundesregierung derzeit nicht optimal läuft in Sachen KI. Als Flaschenhals für den nächsten digitalen Entwicklungssprung hat sie einen zu langsamen Wissenstransfer von „Forschungsergebnissen in Anwendungen“ ausgemacht – oder anders: In Deutschland wird geforscht, aber die erfolgreichen Geschäftsmodelle werden andernorts entwickelt. Da werden böse Erinnerungen an mp3 und Transrapid wach.

Diesmal soll jedoch alles anders werden. Allerdings gibt es bei der Entwicklung von KI gleich mehrere Probleme, die sich trotz guten Willens in Politik und Forschung erneut als fatal herausstellen könnten.

Daten sind die Voraussetzung für die Entwicklung von KI-Systemen

Künstliche Intelligenz, vor allem diejenige, die auf der aktuell erfolgversprechendsten Technik des maschinellen Lernens oder Machine Learnings basiert, entwickelt sich nicht im luftleeren Raum. Selbstlernende Systeme, wie etwa Googles bahnbrechender Algorithmus AlphaGo, leben von Daten. Sie werden nicht wie klassische Computerprogramme von Anfang bis Ende von Entwicklern geschrieben, sondern schreiben sich – wie das Wort selbstlernend schon sagt – größtenteils selbst. In diesem Selbstentwicklungsprozess, der im Grunde ein Fitnessprogramm für Maschinen ist, saugen Machine-Learning-Algorithmen Unmengen von Daten in sich auf. Mit diesen können sie lernen, bestimmte Muster zu erkennen, zum Beispiel um Krebs zu diagnostizieren.

Dabei gilt vereinfacht gesagt: Je mehr und je bessere Daten ein Unternehmen hat, desto besser werden die Algorithmen, die es damit trainiert. Und die Datenmengen von Google, Facebook und Amazon sind unvorstellbar groß. Es ist daher kein Zufall, dass die ersten halbwegs funktionierenden KI-Assistenten von diesen Unternehmen kommen – und eben nicht von deutschen Firmen.

Für SPD-Chefin Andrea Nahles liegt hier das zentrale Problem für die künftige Entwicklung des Wirtschaftsstandorts Deutschland: „Wer die Daten hat, hat den Schlüssel für künftige Erfolge. Wer keine Daten hat, geht leer aus“, schreibt sie Mitte August in einem zu Unrecht wenig beachteten Gastbeitrag für das Handelsblatt mit dem Titel „Digitaler Kapitalismus“. Die Daten dieser Welt, so Nahles, würden „von einigen wenigen Internetkonzernen monopolisiert, die ihre heute schon beträchtliche Marktmacht auch in Zukunft sichern“.

Ist ein „Daten-für-alle-Gesetz“ die Lösung?

Um zu verhindern, dass deutsche und europäische Unternehmen erneut den Anschluss verpassen, hat Nahles – neben der bereits oft geforderten Zerschlagung der Datenkonzerne – eine eher ungewöhnliche Forderung in petto: Mit einem neuen „Daten-für-alle-Gesetz“ will sie die digitalen Riesen aus dem Silicon Valley dazu bringen, ihre Datenbestände für deutsche Unternehmen zu öffnen: „Sobald ein Digitalunternehmen einen festgelegten Marktanteil für eine bestimmte Zeit überschreitet, ist es verpflichtet, einen anonymisierten und repräsentativen Teil seines Datenschatzes öffentlich zu teilen. Mit diesen Daten können andere Unternehmen und Start-ups eigene Ideen entwickeln und als Produkt an den Markt bringen,“ schreibt sie im Handelsblatt. Dabei bekommt sie Schützenhilfe von der österreichischen Wirtschaftsministerin Margarete Schramböck (ÖVP), die vorschlägt, „US-Internetunternehmen mit mehr als 30 Prozent Marktanteil in Europa zur Herausgabe ihrer Daten zu animieren". Der Vorschlag aus Österreich gewinnt dadurch an Bedeutung, dass das Land derzeit die EU-Ratspräsidentschaft innehat.

Was Nahles und Schramböck fordern, käme gewissermaßen einer digitalen Enteignung gleich. Nahles schreibt selbst vom „digitalen Kapitalismus“ und in diesem sind Daten das wertvollste Kapital. Doch freilich nennt sie es nicht so. Andrea Nahles scheint vielmehr eine Art „Datengenerikum“ vorzuschweben: „Das Prinzip hinter dem Daten-für-alle-Gesetz ist bekannt und bewährt. Im Pharmabereich dürfen Medikamente nach Ablauf eines Patents von Mitbewerbern nachgeahmt und verkauft werden“, schreibt sie im Handelsblatt. Doch dieser Vergleich ist gleich in mehrerlei Hinsicht problematisch.

„Auf Daten gibt es keine Schutzrechte“

Selbst wenn Software und Algorithmen patentierbar wären – und das ist derzeit hochumstritten – setzt Nahles auf der falschen Ebene an: Denn die Medikamente, also die fertigen Produkte, entsprächen in diesem Vergleich den Algorithmen. Und die sollen Google oder Facebooklaut Nahles Vorschlag gar nicht herausrücken müssen. Die Daten entsprächen im Pharma-Bild viel eher den Molekülen in den Reagenzgläsern der Chemiker, mit denen später die Wirkstoffe der Medikamente entwickelt werden.

Der Vergleich hinkt auch aus patentrechtlicher Sicht: „Auf Daten gibt es keine Schutzrechte, so dass man nicht mit einer Befristung argumentieren kann“, sagt Ansgar Ohly, Professor für Recht des Geistigen Eigentums und Wettbewerbsrecht an der LMU München, zu WIRED. Die Pharma-Analogie trägt für ihn auch aus einem zweiten Grund nicht: „Zwar darf man nach Ablauf des Patents eine technische Information verwenden, die man aus der veröffentlichten Patentschrift kennt, aber es gibt keinen Anspruch gegen den ehemaligen Patentinhaber darauf, dass er interne Informationen offenlegt“, erklärt Ohly. Bei Patenten gebe es zudem immer eine Art „Deal“: Der Erfinder legt die technischen Informationen seiner Erfindung offen und erhält dafür den Schutzstatus des Patents. „Davon kann bei Daten keine Rede sein“, so Ohly.

Hinkender Vergleich hin oder her: Neben technischen und juristischen Hürden hat der Vorschlag von Andrea Nahles noch mit einer ganz anderen Herausforderung zu kämpfen: den strengen europäischen Datenschutzgesetzen. Konstantin von Notz, stellvertretender Fraktionsvorsitzender und netzpolitischer Experte der Grünen-Bundestagsfraktion, kann der Idee, Tech-Unternehmen zur Herausgabe von Daten zu verpflichten, deshalb auch nur bedingt etwas abgewinnen: Daten dürften für ihn nur „in bestimmtem Umfang an einen sehr begrenzen, gut kontrollierbaren Adressatenkreis“ herausgegeben werden und auch nur, „sofern dies in nicht-personenbeziehbarer Form und ausschließlich zu Forschungszwecken geschieht“, wie von Notz zu WIRED sagt. Außerdem müsse sichergestellt werden, „dass die persönlichen Daten in zulässiger Weise erhoben wurden und verwendet werden.“

Künstliche Intelligenz versus Datenschutz

Das Daten-für-alle-Gesetz ist für ihn der falsche Ansatz. Er pocht vielmehr auf eine verstärkte Regulierung von Unternehmen wie Facebook und Google und die Durchsetzung klarer rechtlicher Vorgaben. Der Vorschlag von Nahles ziele in seiner jetzigen Form „genau in die entgegengesetzte Richtung“ und sei mit den Vorgaben der Datenschutzgrundverordnung (DSGVO) „schlicht unvereinbar“. Ähnliche Kritik kommt auch aus dem Europaparlament: „Die Unternehmen dürfen nach der europäischen Datenschutzgrundverordnung die Daten überhaupt nicht ohne explizite Zustimmung der Verbraucher weitergeben“, sagte Julia Reda, Europaabgeordnete der Piratenpartei gegenüber dem Handelsblatt.

Der Datenschützer Thilo Weichert ist zwar der Meinung, dass man generell von Unternehmen fordern könne, dass sie das von ihnen angehäufte unter Verschluss gehaltene Wissen mit denen teilen, die es ursprünglich generiert haben, nämlich den Nutzerinnen und Nutzern. „Das muss und sollte sich dann aber nicht auf Monopolunternehmen beschränken, sondern sich etwa auch auf die Kfz-Daten beziehen, die unter anderem deutsche Hersteller en masse anhäufen und deren Herausgabe sie teilweise selbst gegenüber den Betroffenen verweigern,“ sagt Weichert gegenüber WIRED.

Zwar scheint Nahles die DSGVO durchaus im Blick gehabt zu haben, denn in ihrem Vorschlag schreibt sie von „anonymisierten und repräsentativen“ Daten. Allerdings könnten Forscher und Entwickler mit solchen Daten relativ wenig anfangen: „Durch vollständige Anonymisierung verlieren Daten beispielsweise ihren Kontext, der ganz entscheidend ist um aus ihnen Wert zu schöpfen“, erklärt Alexander Waldmann von der Initiative Applied AI gegenüber WIRED. Bei repräsentativen Daten gebe es hingegen ein Kontrollproblem: „Sie können von außen nur dann als solche sicher erkannt werden, wenn man auch die Ursprungsdaten kennt". Das bedeutet: Ohne Zugang zu den Ursprungsdaten müsste ein deutsches Unternehmen Google oder Facebook vertrauen, dass die Daten wirklich dem Original entsprechen. Eine unabhängige Kontrollmöglichkeit existiert nicht.

Waldmann weist noch auf ein anderes Problem hin, das bei Verwendung repräsentativer Daten entstehen kann: „Manchmal will man gar nicht mit solchen Daten arbeiten“. Das sei vor allem dann der Fall, wenn die Ursprungsdaten einer KI diskriminierende Vorurteile enthalten, wie etwa ein Bewerbungsalgorithmus von Amazon, der Frauen benachteiligte. Um solche Vorurteile, auch bias genannt, nicht weiterzutragen, müsse immer ein Mensch einen Blick auf die Daten werfen.

Datenpools nach Open-Source-Vorbild

Waldmann weiß, wovon er spricht. Die Initiative Applied AI, bei der er als Operative Director fungiert, ist an der Technischen Universität München ansässig und will die Akzeptanz von KI in Wirtschaft und Gesellschaft vorantreiben. Finanziert wird sie unter anderem vom Bundeswirtschaftsministerium und vom bayerischen Wirtschaftsministerium. Zu den Partnern und Unterstützern der Initiative zählen auch einige gewichtige Unternehmen, darunter SAP, Siemens, Infineon – und Google.

Gegenüber der Idee von Datenpools, die allen zur Verfügung stehen, ist Waldmann aufgeschlossen, auch wenn diese „besonders im Tech-Umfeld belächelt“ würden. Das liege an der technisch und organisatorisch äußerst komplizierten Umsetzung. „Zentraler Bestandteil von Datenpools ist daher Kollaboration – zwischen Forschern, Firmen und dem Staat“, sagt Waldmann. Zwar könne eine durchdachte Datenpolitik mithilfe von Datenpools bei der KI-Entwicklung von großem Wert sein, so Waldmann, aber eine Datenzwangsabgabe wie im Vorschlag von Andrea Nahles gehört für ihn offenbar nicht dazu. Die Einrichtung solcher Pools müsste für Waldmann nach dem Vorbild der Open-Source-Bewegung geschehen, um Wirtschaft und Wissenschaft zu beflügeln.

Für Waldmann ist auch die zentralste Frage in der ganzen Diskussion um die digitale Enteignung noch völlig offen, nämlich: Wer wäre überhaupt dazu bereit, die wertvollsten Daten mit anderen zu teilen? Er ist jedoch optimistisch, dass sich auch darauf eine Antwort finden lässt: „Wenn man hier die richtigen Weichen stellt, können Datenpools ein wichtiges Element einer nationalen und europäischen KI-Strategie sein.“

Wie der Weg genau aussieht, der Deutschland und Europa an die Weltspitze der Künstlichen Intelligenz führen soll, ist bislang nicht klar. Vielleicht liegt er in Open-Source-Datenpools. Vielleicht in einer Lockerung der Datenschutzgesetze, auch wenn das derzeit niemand fordert. Vielleicht muss Andrea Nahles auch einfach ihre Idee nochmal überdenken.

GQ Empfiehlt
Warum Tesla der Begriff „Autopilot“ verboten werden soll

Warum Tesla der Begriff „Autopilot“ verboten werden soll

von Benedikt Plass-Fleßenkämper