Hvad er EuroLLM: den åbne europæiske LLM og dens flersprogede forpligtelse

foran » Software » EuroLLM og OpenEuroLLM: Det europæiske projekt, der transformerer flersproget og åben AI

EuroLLM og OpenEuroLLM søger at skabe flersprogede, åbne og etiske AI-modeller for hele Europa.
Konsortiet samler europæiske universiteter, virksomheder og supercomputercentre i topklasse for at garantere sproglig mangfoldighed og digital suverænitet.
Fokus er på gennemsigtighed, overholdelse af lovgivningen og demokratisering af adgangen til banebrydende AI-teknologier på EU's 24 officielle sprog.

Kunstig intelligens revolutionerer Europa. Kontinentet, der traditionelt halter bagefter giganter som USA og Kina i det teknologiske kapløb, har besluttet at tage føringen med projekter som EuroLLM og OpenEuroLLM. Disse initiativer har til formål at sikre, at fremtidens kunstige intelligens ikke kun taler Silicon Valleys sprog eller udelukkende styres af fjerne interesser, men er flersproget, etisk, transparent og fuldt ud 'made in Europe'.

Efter i årevis at have set, hvordan store sprogmodeller (LLM'er) primært kom fra udlandet og prioriterede sprog som engelsk eller kinesisk, reagerer Europa ved at satse på sin egen suveræne AI-infrastruktur, der er tilpasset sin kulturelle og lovgivningsmæssige mangfoldighed. I denne artikel fortæller vi dig alt, absolut alt, om EuroLLM og OpenEuroLLM: deres oprindelse, samarbejdspartnere, udfordringer, filosofi, modeller, indflydelse og fremtid. Hvis du vil vide, hvordan kunstig intelligens skrevet (og også designet) i Europa vil ændre spillet, så læs videre!

Hvorfor havde Europa brug for sin egen AI-model?

Europas enorme teknologiske afhængighed af LLM'er fra USA og Kina har været en kilde til bekymring for regeringer, eksperter og virksomheder. Ikke kun af strategiske og konkurrencemæssige årsager, men også fordi de mest populære modeller – se ChatGPT, Gemini, Bard eller lignende – er dannet og forfinet på store datasamlinger, hovedsageligt på engelsk, tilpasset erfaringer, kultur og bias, der intet har at gøre med den komplekse europæiske virkelighed.

Denne afhængighed medfører flere risici:

Privatliv og databeskyttelse: Europæeres personlige og fortrolige data kan ende med at blive opbevaret og behandlet i jurisdiktioner uden for GDPR. Streng overholdelse af privatlivslovgivningen er en væsentlig bekymring.
Bias og mangel på kulturel relevans: Importerede LLM'er kan usynliggøre eller forvrænge den sproglige mangfoldighed, nuancer og værdier i europæiske lande.
Konkurrencemæssig ulempe og tab af suverænitet: Hvis Europa udelukkende er afhængig af udenlandsk teknologi, falder dets evne til at innovere og skabe skræddersyede løsninger. Lokale virksomheder er tvunget til at betale licensgebyrer til udenlandske udbydere og mister kontrollen over deres data og udvikling.
Økonomisk og innovationsmæssig indvirkning: Betaling af brugsrettigheder og reguleringsfragmentering gør det vanskeligt at skabe konkurrencedygtige produkter eller tjenester, især for SMV'er og startups.

Det, der yderligere forværres, er, at det ifølge estimater kan genereres 90 % af internetindholdet af kunstig intelligens på bare et år. Det er ikke overraskende, at Europa-Kommissionen har forpligtet sig kraftigt til at vende tendensen.

Fødselen af EuroLLM og OpenEuroLLM: to joint ventures

I de sidste to år er to af de mest ambitiøse og relevante AI-projekter på det gamle kontinent blevet til virkelighed: EuroLLM og OpenEuroLLM. Selvom de ofte forveksles eller overlapper hinanden i offentlige diskussioner, er der vigtige nuancer, der er værd at forstå.

EuroLLM: Dette projekt, der blev lanceret i september 2023, fokuserer på at skabe åbne, flersprogede modeller, der er trænet på de 24 officielle EU-sprog (og yderligere sprog), med særlig vægt på fuldstændig og transparent offentliggørelse af modeller og vægte. Indledende versioner er blevet udgivet, såsom EuroLLM-1.7B og EuroLLM-1.7B-Instruct.
OpenEuroLLM: Det er det store paraplyprojekt, der officielt blev præsenteret som et europæisk projekt i begyndelsen af 2025 med det formål at implementere en familie af LLM-modeller, der er fuldt tilpasset europæiske regler og værdier, med deltagelse af store enheder, banebrydende supercomputing og en fast strategi for åbenhed og overholdelse af lovgivningen.

Begge initiativer har institutionel og erhvervsmæssig opbakning, er en del af den europæiske digitaliseringsstrategi og søger at undgå konkurrence- og suverænitetsbrud inden for nøgleteknologier.

Et europæisk konsortium i topklasse

Disse projekter legemliggør ideen om, at Europa kun ved at forene kræfterne kan konkurrere med teknologigiganterne. OpenEuroLLM-konsortiet består af 20 førende institutioner på tværs af kontinentet med en dobbelt ledelse, der afspejler den europæiske akademiske og iværksætterånd:

Jan Hajič (Charles Universitet i Prag): anerkendt datalingvist og ledende koordinator.
Peter Sarlin (AMD Silo AI, Finland)Teknisk medleder, ekspert i industrielle AI-applikationer og administrerende direktør for et af de vigtigste AI-laboratorier i Nordeuropa, som for nylig blev opkøbt af AMD.

Blandt vores fremtrædende akademiske og tekniske partnere er:

Helsinki Universitet (Finland)
Ellis Instituttet Tübingen (Tyskland)
Fraunhofer Instituttet IAIS (Tyskland)
Universiteterne i Oslo, Turku og Tübingen
Eindhoven University, Sorbonne University, Instituto Superior Técnico (Portugal), University of Edinburgh, University of Amsterdam og Université Paris-Saclay

På forretnings- og teknologisiden er der nogle store navne:

AI Silo (Finland)
Aleph Alpha Research (Tyskland)
Ellamind (Tyskland)
LightOn (Frankrig)
Prompsit Sprogteknik (Spanien)
Unbabel
Aveni, Naver Labs
Virksomheder med speciale i maskinoversættelse, AI og flersproget analyse

Derudover er supercomputerinfrastrukturen en af dens styrker:

Barcelona Supercomputing Center (BSC)Spansk leder inden for AI-computing.
Cineca (Italien), CSC-TI Center for Science (Finland) og Surf (Holland), alle med EuroHPC-supercomputere.

Deltagernes mangfoldighed og kvalitet garanterer, at videnskabelig udvikling og praktiske anvendelser vil gå hånd i hånd, og at der i sidste ende vil blive taget hensyn til hele Europas data og behov.

Spanien: en drivkraft inden for sproglig mangfoldighed og europæisk kunstig intelligens

Spanien indtager en nøgleposition i disse projekter gennem virksomheden Prompsit sprogteknologiEn spin-off-virksomhed med speciale i korpushåndtering og flersproget databehandling, beliggende i videnskabsparken på Miguel Hernández Universitet (Elche), arbejder med udvikling og kurering af data for at træne modeller med maksimal sproglig mangfoldighed og kvalitet.

Prompsit er med til at lede data- og formidlingsarbejdspakkerne og samarbejder om evalueringen af flersprogede modeller og åbne datasæt gennem initiativer som ParaCrawl, MaCoCu eller HPLT.

Spanien bidrager også med styrke inden for supercomputere Med oprettelsen af en af de syv europæiske AI-fabrikker, der ligger i Barcelona. Anført af BSC, demokratiserer denne infrastruktur adgangen til supercomputere til AI-innovation og -udvikling for både store virksomheder og startups, hvilket gør det muligt for spansk forskning og udvikling at være blandt den europæiske elite.

Spaniens engagement i AI er strategisk og har en investering på over 174 millioner euro., der involverer statslige, regionale og europæiske institutioner, og som positionerer landet som et kontinentalt benchmark.

EuroLLM: Næste generations åbne flersprogede modeller

En af de vigtigste milepæle er udviklingen og udgivelsen af ægte åbne, flersprogede og konkurrencedygtige LLM-modeller. Indtil videre har de fleste åbne modeller været tydeligt fokuseret på engelsk, med kun en lille del tilgængelig på andre europæiske sprog. EuroLLM ændrer radikalt dette landskab:

EuroLLM-1.7 mia.: model med 1.7 milliarder parametre, trænet på 4 billioner tokens fordelt på de 24 officielle EU-sprog plus andre vigtige sprog såsom russisk, arabisk, kinesisk og sprog, der er bredt forekommende i Østeuropa og EU-kandidatlande.
EuroLLM-1.7B-Instruktion: En version finjusteret til generel instruktion og maskinoversættelsesopgaver ved hjælp af EuroBlocks-datasættet, specifikt designet til varieret og relevant flersproget træning.
EuroLLM-9 mia.: En større model, udviklet med støtte fra Horizon Europe og Det Europæiske Forskningsråd, og trænet på MareNostrum 5-supercomputeren, der er i stand til at konkurrere med og overgå nyere åbne modeller som Gemma-2B (Google) i flersprogede opgaver.

Alle disse modeller tilbydes under Apache 2.0 open source-licensen på platforme som Hugging Face, ledsaget af deres vægte og detaljeret dokumentation. Denne ægte åbenhed giver universiteter, virksomheder af alle størrelser, offentlige forvaltninger og endda individuelle borgere mulighed for at bruge dem, tilpasse dem og bygge nye løsninger, der taler alle Europas sprog.

Hvad betyder "open source" egentlig i europæisk kunstig intelligens?

En af de mest ophedede debatter i sektoren er den sande rækkevidde af begrebet 'open source'. Open Source Initiative (OSI) anerkender, at træningsdata ikke nødvendigvis behøver at blive offentliggjort (af juridiske, privatlivs- eller ophavsretsmæssige årsager), men europæiske projekter ønsker at gå videre:

Åbne vægte: Modellerne, sammen med vægtfilen, er fuldt tilgængelige for fællesskabet.
gennemsigtige datasæt: Når det er juridisk muligt, deles eller dokumenteres kilderne og kurateringsprocessen grundigt.
Åbne metoder og processer: Udviklingsworkflowet, tokenizeren, scripts og pipeline kan revideres og reproduceres.
Offentlige målinger og benchmarks: Modellens ydeevne rapporteres åbent i opgaver inden for oversættelse, forståelse og generering af flersproget tekst.

Gennemsigtighed gælder også for forbedrings- og evalueringsprocessen, hvilket muliggør sund konkurrence og ægte åben innovation.

Standarder, etik og regulering: hjertet i europæisk kunstig intelligens

Et af kendetegnene ved EuroLLM og OpenEuroLLM er streng overholdelse af europæisk lovgivning, især GDPR og den kommende EU AI-lov. Dette sikrer et solidt retsgrundlag og beskytter brugere og borgere mod misbrug eller forkert brug af kunstig intelligens.

Data beskyttelse: Udviklingen af modellerne er fra starten designet til at respektere privatlivets fred og gældende beskyttelseslove.
Algoritmisk retfærdighed: Datakurering og mekanismer til identifikation af bias anvendes for at sikre retfærdige og afbalancerede resultater uden forskelsbehandling baseret på sprog, oprindelse eller kulturel kontekst.
Gennemsigtighed og forklarlighed: Der forskes aktivt i, hvordan man åbner den 'sorte boks' af LLM'er og giver fortolkelige forklaringer på modellens resultater, især i følsomme applikationer.
Robusthed og pålidelighed: Validering, testning og modstandsdygtighed over for uventede input eller scenarier for brug af kanttjenester prioriteres.

Denne tilgang er afgørende for at opbygge social tillid og for at AI-baserede tjenester bliver bredt accepteret blandt virksomheder, offentlige myndigheder og borgere.

Demokratisering af adgang og åbent økosystem

Et centralt mål er at demokratisere adgangen til AI af høj kvalitet: Modellerne vil kunne genbruges af enhver virksomhed, herunder SMV'er og startups, af offentlige myndigheder og civilsamfundsorganisationer samt af forsknings- og uddannelsesinstitutioner. Selv individuelle brugere vil kunne eksperimentere og innovere.

Dette reducerer den digitale og færdighedsmæssige kløft og giver europæisk kunstig intelligens mulighed for at udvikle sig i overensstemmelse med sine specifikke behov. Det fremmer også samarbejde og udvikling af et europæisk praksisfællesskab og åben innovation inden for kunstig intelligens.

Specifikke anvendelser: fra chatbots til den offentlige sektor

Alsidigheden af modeller som EuroLLM og OpenEuroLLM gør dem velegnede til brug i en bred vifte af scenarier:

Chatbots og virtuelle assistenter rettet mod borgere: i stand til effektivt at håndtere forespørgsler på alle europæiske sprog.
Maskinoversættelse og flersproget kommunikation: at gøre offentlige eller forretningsmæssige tjenester tilgængelige for alle EU-borgere, uanset deres modersmål.
Administrativ automatisering: Strømlining af gentagne opgaver og forbedring af effektiviteten af offentlig og privat forvaltning.
Uddannelse og kultur: tilpasning af ressourcer og materialer til alle sprog og fremme af europæisk kulturel mangfoldighed.
Personalisering af offentlige tjenester: tilpasse opmærksomhed og ressourcer til de specifikke behov hos hver bruger eller gruppe.

Disse anvendelsesscenarier gør det muligt for den europæiske administration at spare omkostninger, øge kvaliteten af tjenester og gøre dem mere inkluderende.

Udfordringer og forhindringer forude

Trods entusiasmen er der betydelige hindringer:

Små budget: Selvom beløbet for OpenEuroLLM overstiger 37 millioner euro (og EuroHPC's beløb er omkring 7.000 milliarder, hvis supercomputerinfrastrukturen medregnes), blegner tallene i sammenligning med de hundredvis eller tusindvis af millioner, der er investeret i USA eller Kina. Hvad er Eurollm?
Kompleksiteten af konsortiestyring: Det er ikke let at koordinere 20 institutioner fra forskellige lande og videnskabelige områder og kan forsinke strategisk beslutningstagning.
Tilgængelighed af flersprogede åbne data: Juridiske og ophavsretlige restriktioner gør det vanskeligt at få adgang til store korpora af høj kvalitet for alle sprog, hvilket tvinger forskere til at søge kreative måder at syntetisere og generere data på eller at indgå aftaler med offentlige kilder.
Agilitet i lyset af international konkurrence: Konkurrenter som Mistral AI og LightOn, baseret på små, meget fokuserede teams, har hurtigt opnået anerkendte open source-modeller. Den europæiske struktur, der er tættere og mere nøje overvåget, skal stræbe efter effektivitet uden at ofre værdi eller dybde.

Alligevel sætter kombinationen af videnskabelig og forretningsmæssig styrke og udnyttelsen af eksisterende ressourcer, såsom arven fra HPLT-projektet, det europæiske initiativ i stand til at bevæge sig hurtigt fremad.

Samarbejde og "coopetition" i det europæiske økosystem

Det internationale landskab viser, at selvom der er uenigheder (såsom debatten mellem OpenEuroLLM og det 'oprindelige' euroLLM om ejerskab af navnet), favoriserer den generelle tendens samarbejde og offentlig/private partnerskaber samt mellem forskellige AI-klynger.

Det er værd at bemærke, at symbolske initiativer som f.eks. Mistral AI I Frankrig deltager de ikke direkte i OpenEuroLLM, men de er en del af den europæiske open source AI-konstellation og deler lignende udfordringer og visioner. Europa søger at undgå dobbeltarbejde og fremme udveksling af bedste praksis, idet de undgår at "genopfinde hjulet", hver gang ny europæisk finansiering bliver tilgængelig.

Social, økonomisk og kulturel indvirkning

Det måske mest relevante aspekt er, at EuroLLM og OpenEuroLLM ikke kun sigter mod at fremme hård teknologi, men også mod at maksimere den sociale, uddannelsesmæssige og kulturelle effekt af kunstig intelligens i Europa.

Fremme af inkluderende systemer: giver alle europæiske borgere, uanset deres sprog, adgang til kunstig intelligens og avancerede digitale tjenester.
Styrkelse af den globale konkurrenceevne: Europæiske virksomheder vil have modeller tilpasset deres kontekst, undgå afhængighed af eksterne løsninger og fremme skabelsen af nye produkter og forretningsmodeller.
Fremme af diversitet og innovation: Udviklingen af åbne flersprogede LLM'er forbedrer personalisering, reducerer bias og udvider markedet for AI-baserede løsninger i så forskellige sektorer som turisme, kultur, handel og uddannelse.
Tillid og digital suverænitet: Ved nøje at overholde reglerne opbygges tillid, og europæisk kontrol over sin kritiske AI-infrastruktur garanteres.

Resultatet er et mangfoldigt, deltagerbaseret AI-økosystem, der er modstandsdygtigt over for globale teknologiske forandringer.

Multimeter

Eksperter i software, udvikling og applikationer til industri og hjemmebrug. Vi elsker at udnytte det fulde potentiale af enhver software, ethvert program, enhver app, ethvert værktøj og ethvert operativsystem på markedet.