Så lär sig Siri nya språk

I nästa uppdatering av IOS och Mac OS får Siri stöd för en ny kinesisk dialekt; Shanghainesiska. Apples ansvarige för språkdivisionen förklarar Siris process för att lära sig ett nytt språk.

Det är inte bara människor som behöver träna för att lära sig nya språk, även röstassistenter som exempelvis Apples #Siri behöver arbeta för att lära sig nya språk och dialekter. I dagsläget finns Siri tillgänglig på 21 olika språk och täcker upp till 36 olika språkvarianter och dialekter. I nästa uppdatering av IOS och Mac OS kommer stöd för en ny dialekt som är en variant av Wu-kinesiska, nämligen Shanghainesiska.

Som jämförelse kan Microsofts Cortana 8 språk, Androids Google Assistant kan 4 olika språk och Aamzons röstassistent Alexa kan endast 2 olika språk; engelska och tyska. Men det är inte hur lätt som helst för en #röstassistent att lära sig ett nytt språk. Reuters har intervjuat Alex Acero som är huvudansvarig för språkdivisionen på #Apple.

Till en början hämtar Apple in personer som talar det nya språket Siri ska lära sig. De samlar in material med en stor mångfald av rösttyper och ljud. Utifrån det gör Apple språkmodeller som ska försöka lista ut språksekvenser och vilka ord som borde följa varandra. Efter detta lanserar Apple sin diktafontjänst för språket som Siri ska lära sig. Därefter samlar Apple in brottstycken av ljudinspelningarna och anonymiserar dem.

Genom att få en bredare och mer genuin ljudbild med bakgrundsljud, personer som mumlar och andra störande moment kan Apple förutspå på ett mer precist sätt hur språket låter. Ljudinspelningarna transkriberas av människor för att i större grad undvika missförstånd mellan Siri och användare. När Apple samlat in tillräckligt mycket underlag skaffar de en röstskådespelare för att spela in Siris nya språk. Siri lanseras med en uppsjö svar på vad Apple tror är användarnas vanligaste frågor.

När väl Siri är lanserat samlar röstassistenten in data kring vad faktiska människor ställer för frågor, och tjänsten uppdateras därefter kontinuerligt.

Processen är väldigt omständlig och för att framgångsrikt kunna erbjuda en röstassistent med stöd för många, eller för den delen alla språk behöver processen effektiviseras och syntetiseras. Något som bland annat grundarna till plattformen Viv, som Samsung köpte förra året, jobbar på att utveckla.