TIFF nr 4 2024

TIFF nr 4 / 2024 11 Det är artikelförfattarens rekommendation att beställare inför komplexa eller mer omfattande översättningsprojekt har en dialog med översättningsbyrån där de ingående får redogöra för vilken kvalitetsmodell de avser att följa, hur den tekniskt ska uppfyllas och hur det löpande uppföljningsarbetet ser ut. Avslutningsvis kan nämnas att det finns ett antal programvaror som kan användas för kvalitetskontroll av framför allt översättningsminnen. I dessa är delar av olika kvalitetsmodeller implementerade tillsammans med programvaruföretagens egna kontrollfunktioner. Några av de mer kända är ErrorSpy, QA Distiller, XBench och Wordfast. Med något av dessa verktyg kan också en beställare genomföra kvalitetskontroller på egna översättningsminnen i de fall minnenas ursprung – och därmed kvalitet – inte är fullt ut känd. Vissa av verktygen är gratis, medan andra är behäftade med en kostnad. Maskinöversättning Maskinöversättning är på intet sätt någon ny företeelse. Några av de första teoretiska resonemangen kan spåras tillbaka till mitten av 1940- talet, där vetenskapsmännen A. D. Booth och Warren Weaver var tidiga pionjärer. Den senare skrev 1949 ett berömt memorandum som fick stort inflytande och som redogjorde för mål och metoder långt innan det fanns någon allmän uppfattning om vad framtida datamaskiner skulle kunna klara av. Den 7 januari 1954 gjordes den första maskinöversättningen inför en förstummad publik på IBM:s New York-kontor, där cirka 60 ryska meningar översattes av en IBM 701 till engelska med den förbluffande hastigheten av 150 rader per minut (se figur 5). Projektet var ett samarbete mellan IBM och Georgetown-universitetet, och entusiastiska artiklar i amerikansk och internationell press dagarna efter förutspådde att fullt utvecklad maskinöversättning skulle vara tillgänglig inom några få år. Som vi vet blev det inte riktigt så. Som kuriosa kan för övrigt nämnas att Weaver på 60-talet gav ut boken Alice in Many Tongues, där han redogör för (mänskliga) översättningar av Lewis Carrolls Alice’s Adventures in Wonderland. Den som kan sin Alice vet att speciellt avsnittet ”A Mad Tea-Party” har gett översättare av boken många gråa hår. Fram till 1980-talet var de regel- baserade maskinöversättnings- systemen de vanligaste. Dessa byggde på en uppsättning morfologiska och syntaktiska regler och ett tidigt exempel på ett sådant system var Systran, som bland annat US Air Force under kalla kriget använde för att översätta ofantliga mängder rysk teknisk dokumentation till engelska. Under 1990-talet gick utvecklingen alltmer mot statistiska maskinöversättningssystem. Sådana system analyserar väldiga, tvåspråkiga textkorpusar för att bygga statistiska modeller och mönster för översättningsprocessen. Google Translate var, när det lanserades 2006, ett sådant system. I sammanhanget kan också nämnas att Sverige har bidragit med viktig forskning och produktutveckling inom maskinöversättning. Professor Anna Sågvall Hein och hennes forskare vid Uppsala universitet – som under 1990-talet tog fram det kontrollerade språket Scaniasvenska (se artikelförfattarens bidrag om detta i TIFF nr 1, 2021) – utvecklade bland annat prototypen MULTRA (Multilingual Support for Translation and Writing) i samarbete med Scania CV, vilken senare produktifierades som ett maskinöversättningsverktyg. Idag domineras marknaden av maskinöversättning som bygger på så kallade artificiella neurala nätverk (NMT, Neural Machine Translation). Sådana nätverk är matematiska modeller som kan tränas på stora textkorpusar för att – väldigt förenklat – prediktera sannolikheten för en målspråkssekvens utifrån dess korresponderande källspråkssekvens. I detta avseende skiljer de sig alltså radikalt från tidigare maskinöversättningsteknologier. Google Translate övergick till denna teknologi 2016. Så kallade stora språkmodeller (LLM, Large Language Models), som den som till exempel ligger bakom ChatGPT och liknande generativ AI, bygger på neurala nätverk av en annan typ, kallad transformermodeller. Karaktäristiskt för LLM är att de vanligen är tränade på väsentligt större textkorpusar och att transformer-modellen ger dem utökade möjligheter att bättre förstå kontext än traditionell NMT. En konsekvens av detta är att NMT tenderar att vara bättre på specifika tekniska domäner medan LLM kan excellera när det gäller kulturella uttryck och nyanser. Det bör också poängteras att de textkorpusar som LLM har använt för inlärning till en överväldigande majoritet har varit på engelska, medan NMT – med sin längre historia – har en betydligt högre språktäckning. Kvaliteten på träningsdatan för LLM är också av central betydelse, vilket ju några incidenter som har rapporterats i media de senaste åren har visat. Utvecklingen inom maskinöversättning går idag i en rasande takt och det är lätt att, med blåögd entusiasm och hänförelse, tro att alla ens Figur 5: IBM 701, den datortyp som användes vid Georgetown–IBM-experimentet i New York i januari 1954. (Källa: IBM)

RkJQdWJsaXNoZXIy NDg2ODU=