Graph-based Neural Models for Dialogue Management

Talespråk er en naturlig form for kommunikasjon mellom mennesker. Siden vi ble født har vi alle lært hvordan språk brukes til å kommunisere med hverandre, og mye av hverdagen vår tilbringes i samtaler. Bruken av språk som kommunikasjonsmedium mellom mennesker og maskiner har gitt opphav til teknologier som virtuelle assistenter (som Siri, Cortana, Google Home eller Amazon Echo), stemmekontroll i bilen og snakkende roboter.

Disse dataprogrammene er alle eksempler på (talebaserte) dialogsystemer. Inne i disse systemene er det en modul kalt dialogstyreren (dialogue manager) som er ansvarlig for å ta beslutninger om hva systemet skal si eller gjøre på et gitt tidspunkt (for eksempel å svare brukeren eller utføre en bevegelse). For å ta disse beslutningene, registrerer dialogstyreren hva systemet vet om samtalen i en datastruktur kalt "dialogtilstanden".

Dialogstyrere er ofte utviklet med hjelp av maskinlæringsmetoder (for eksempel dype nevrale nettverk) og trent på samtaledata. Nåværende modeller har imidlertid flere begrensninger. Den første er at de begrenser dialogtilstanden til et fast, forhåndsdefinert sett tilstandvariabler, noe som gjør det vanskelig å representere sammensatte kontekster som utvikler seg over tid. For det andre er disse modellene avhengige av store datamengder for å lære nyttig atferd. Dette er problematisk for applikasjoner der data er knappe og dyre å samle inn.

GraphDial vil undersøke en alternativ tilnærming til dialogstyring basert på grafer som kjernerepresentasjon for dialogtilstanden. Grafer er godt egnet til å registrere komplekse interaksjoner som inkluderer flere enheter (for eksempel steder, personer, objekter, oppgaver eller ytringer) og forholdene dem i mellom. Videre vil GraphDial også jobbe med bruk av svakt tilsyn (weak supervision) for dialogstyring. Svakt tilsyn er et gryende paradigme innen AI og har som formål å gi maskinlæringsmodeller indirekte treningsdata hentet fra regelsett eller domenekunnskap.