Swarupa Hardikar

Wie zijn de onderzoekers van de HAN? In deze editie: Swarupa Hardikar, onderzoeker bij het lectoraat Data & Knowledge Engineering van de HAN.
‘Mijn belangrijkste motivatie is het komen tot een goed begrip van taal voor iedereen’
Als mensen in een organisatie verschillende betekenissen geven aan een bepaalde term, kan dat leiden tot misverstanden. Swarupa Hardikar ontwikkelt daarom een toolkit waarmee datamanagers kunnen bepalen hoe bepaalde termen in hun organisatie worden gebruikt.
Wie is Swarupa Hardikar?
“Ik ben geboren in India en heb altijd een grote interesse gehad in talen. Nadat ik mijn bachelor Engels had afgerond, ben ik op mijn 22e naar Nederland gekomen voor een master in Computational Linguistics. In mijn onderzoek maak ik gebruik van textmining. Daarbij gebruik je een computerprogramma om grote hoeveelheid tekst te analyseren om daarin patronen te ontdekken en inzichten te ontwikkelen. We gebruiken taal om technologie te verbeteren, en technologie om taal beter te begrijpen. Een jaar geleden ben ik begonnen aan mijn promotieonderzoek. Daarnaast ben ik junior researcher bij het lectoraat Data & Knowlegde Engineering van de Academie IT en Mediadesign aan de HAN.”

Waar gaat je onderzoek over?
“We willen graag heel veel zeggen in een kort bericht. Bedoelen we echter niet hetzelfde met een bepaald woord, dan kan dat leiden tot dubbelzinnigheid en worden wellicht verkeerde beslissingen genomen. Neem het woord ‘model’. De een denkt daarbij misschien aan een AI-model, terwijl een ander ervan uitgaat dat het over een 3D-stimulatie gaat. Voor weer een ander is een model gewoon iemand die mode showt. Kortom, woorden kunnen verschillende betekenissen hebben. Datzelfde speelt ook bij afkortingen. Daar gaat mijn onderzoek nu over. Neem de afkorting IP. Dat kan staan voor Intellectual Property of voor Internet Protocol, denk aan het IP-adres. In grote organisaties kunnen mensen voor het gemak eigen afkortingen gaan gebruiken. Een nieuwe medewerker kent die niet en dat kan het voor die medewerker ingewikkeld maken.”
“Dat er goed wordt gecommuniceerd en dat er eenduidige termen worden gebruikt, is in grotere organisaties de verantwoordelijkheid van de datamanager. Hoe meer data er verwerkt worden, hoe groter het risico dat mensen denken over hetzelfde te praten, terwijl ze allebei iets heel anders bedoelen. Dergelijke miscommunicatie kan problemen veroorzaken in beslissingen die worden genomen. Ik hoop met mijn onderzoek te bereiken dat ik dit probleem verlicht, de verwarring kan wegnemen. Het moet resulteren in een toolkit voor datamanagers. Daarmee krijgen ze een middel om te bekijken hoe mensen in hun organisatie bepaalde begrippen gebruiken.”
“Er zijn meerdere middelen om dit aan te pakken. Je kunt ook gebruik maken van een programma als ChatGPT, maar dan moet je je data afstaan. Met het oog op de privacy zijn er betere opties. Ik onderzoek wat de beste methoden zijn met het oog op effectiviteit, accuraatheid en bruikbaarheid.”
Hoe voer je je onderzoek uit?
“Ik hoef niet alles zelf te ontwerpen, maar maak gebruik van bestaande modellen en technieken. Om tot een toolkit te komen die in de praktijk bruikbaar is, houd ik interviews met datamanagers. Zij gaven aan dat ze geen systeem willen dat automatisch een analyse doet. Bij voorkeur gebruiken ze een lijst met termen die al in gebruik is. Het maken van zo’n lijst kost nu veel tijd. Voor ieder woord dat ze erin zetten, moeten er gesprekken zijn met veel mensen om erachter te komen welke betekenis zij eraan geven. Dat kost veel energie. Zo kan het voor een organisatie relevant zijn wie je precies een ‘student’ noemt. Geldt die term alleen als je fulltime betaald studeert, of omvat het ook degenen die parttime onderwijs volgen? En hoe noem je iemand die naast zijn werk een cursus volgt? Dat zijn veel variabelen. Om dit gemakkelijker te maken wil ik concept mining toepassen. Dat maakt duidelijk welke betekenissen mensen aan bepaalde termen geven.”
Waar loop je in je onderzoek tegenaan?
“Al het wetenschappelijke werk dat nu op dit gebied gedaan wordt, is in het Engels, Spaans en Frans. Ik zie in mijn eigen taal en in het Nederlands (dat ik nu aan het leren ben) dat er ook nog veel potentieel is om het begrip dat machines hebben van de Nederlandse taal te verbeteren. Daar wil ik aan bijdragen. Iedere taal heeft zijn eigen nuances. Als je ieder stuk techniek modelleert op basis van de Engelse taal, is dat dan ook bruikbaar voor andere talen? We werken veel met Nederlandse bedrijven samen, en hun data is meertalig. Er zijn ook Engelse en Poolse werknemers. Dat geeft het onderzoek een meertalig perspectief.”
Wat zijn je plannen voor de toekomst?
“Mijn master ging over de toegankelijkheid van taal voor mensen die minder onderwijs hebben gehad. In het bijzonder ging het om het simpeler maken van documenten. De taak was om automatisch moeilijke woorden te vinden en die te vervangen. Zodat het voor iedere persoon begrijpelijk is, maar de oorspronkelijke betekenis niet verloren gaat. Ik hoop hiermee het onderwijs te verbeteren, al is dat misschien wel erg ambitieus.”
Het lectoraat Data & Knowledge Engineering
Apps en informatiesystemen maken veelvuldig gebruik van data en kennis en staan centraal in onze kenniseconomie. Data Science en AI maken er nog geavanceerder gebruik van. Het identificeren, specificeren, managen en gebruiken van data, informatie en kennis is een vak apart. Ons lectoraat past inzichten uit onder andere data-, informatie- en taalwetenschap toe in het ontwerp van informatie- en kennissystemen (applicaties; platforms).














