Hvordan jobber Aventia med tale-til-tekst

Dagens situasjon: I vår plattform Aventia KommuneTV kan våre kunder bestille en modul som heter teksting. Denne modulen benytter i dag en tredjeparts leverandør til å gjøre selve «jobben» med å tekste lyden som ligger i videoklippene som sendes fra løsningen. Når dette er fullført, kan kunden gå inn i redigeringsmodus for å se over og kvalitetssikre teksten.
Vi tilbyr i tillegg til automatisk tale til tekst en egen kvalitetssikringstjeneste hvor en av våre ansatte/frilansere går gjennom hele opptaket, for å sikre en tilnærmet perfekt tekst.

Hva gjør vi for at våre kunder skal få en best mulig tale til tekst modul/tjeneste. Vi ser at teknologien utvikler seg svært raskt. Så vi har derfor valgt å ikke binde oss på verken den teknologiske eller kommersielle siden. Bytte av tale til tekst motor kan skje raskt, noe som raskt vil gi våre kunder tilgang til den beste teknologien som er i markedet.

Vi har også sett at man i markedsføringen går ut med det som betegnes som en unik AI basert tale til tekst løsning der innhold enten kan benyttes slik det er eller at man «enkelt kan redigere dette selv».
Vi har nå erfaring fra omlag 70 kommuner som enten har testet dette eller tatt vår løsning i bruk. Vi har derfor også gjort opp en erfaring med hvor mye tid det tar å redigere på teksten hvis man skal gjøre dette skikkelig.

For en person som har god erfaring med denne oppgaven, kombinert med en intiuitiv og enkel editor vil redigering av tekst i dag ta ca. 1.5 – 2 ganger møtets lengde avhengig av lydkvalitet og hvor tydelig politikerne snakker. Antall feil har pr.dd ikke så mye å si, da erfaringen er at man uansett må gå igjennom alt som blir sagt.

Det er også viktig å si at alle de store aktørene som jobber med dette vil påberope seg at de leverer en AI-løsning. Så dette er ikke unikt for noen av de. Vi i Aventia har jobbet med tale til tekst til kommuner i over 3 år nå da dette kravet kom til våre svenske kunder allerede da, og at vi derfor også sitter på mange erfaringer

Samarbeid er en veldig viktig faktor for oss når det kommer til det å tilby våre kunder en best mulig tjeneste. Aventia Media AS er en del av TV 2 Gruppen AS og i den sammenheng har vi inngått et samarbeid om å forbedre den norske språkmodellen. TV 2 er en aktiv partner i Media Futures som per dags dato jobber aktivt med forskning på dette feltet, blant annet prosjektet: WP5: Norwegian Language Technologies.

Hva er tale til tekst?

Tale til tekst-teknologi er en metode for å konvertere tale til skriftlig tekst ved hjelp av dataprogrammer og algoritmer. Dette er en teknologi som har utviklet seg de siste årene, og som er blitt mer presis og pålitelig. Tale til tekst teknologi har flere bruksområder i dagens samfunn, og kan bidra til å gjøre hverdagen lettere for mange mennesker.

Tale til tekst teknologi fungerer ved å bruke en mikrofon eller et annet lydopptaksverktøy til å registrere talen. Programvaren vil deretter analysere lyden og konvertere den til skriftlig tekst. Teknologien bruker avanserte algoritmer og maskinlæring for å forbedre nøyaktigheten av tekstkonverteringen over tid.

Norsk språkmodell – hvordan er dagens situasjon
Norske brukere av tale til tekst teknologi har ofte opplevd utfordringer når det kommer til presisjon og nøyaktighet i dagens tale-til-tekst motorer.
Dette skyldes hovedsakelig at tale til tekst teknologi for det norske språket ennå ikke har nådd samme nivå som andre språk, slik som engelsk og spansk.

En viktig grunn til dette er at Norge har et lite språksamfunn med få ressurser til å investere i utviklingen av tale til tekst teknologi. Derfor er det viktig å ha en god norske språkmodell så datamaskinene klarer å konvertere talen vår på en nøyaktig måte.

For å kunne forbedre den norske tale til tekst teknologien, må det være en stor og felles innsats fra flere aktører. Det er behov for større satsing på forskning og utvikling innenfor feltet, samt utprøving og implementering av nye teknologier.

Det er også viktig å ha en norsk språkmodell som kan håndtere ulike dialekter og aksenter, noe som vil sikre mer nøyaktige transkripsjoner. En slik modell kan utvikles ved å samle inn store mengder data fra ulike norske brukere og koordinere innsatsen mellom flere norske aktører.

Til slutt er det viktig å huske på at tale til tekst teknologi er avhengig av kontinuerlig forbedring. Som flere brukere tar i bruk teknologien, vil de også gi verdifull tilbakemelding om hva som fungerer og hva som ikke gjør det. Gjennom samarbeid mellom norske brukere og aktører (for eksempel: Nasjonal biblioteket, Media Futures, Norsk presse osv.) kan man dermed optimalisere den norske tale til tekst teknologien og sikre en mer nøyaktig og effektiv skriveprosess.

I sum krever det en stor satsing på både teknologi og samarbeid for å utvikle det som trengs for at norsk tale til tekst teknologi kan bli like presis og effektiv som andre internasjonale språk

 

Referanser:

Norwegian Language Technologies https://mediafutures.no/norwegian-language-technologies/
Test av automatisk underteksting https://www.tv2.no/teksting/