Position paper ““Let Me Tell You Who You are” — Explaining Recommender Systems by Opening Black Box User Profiles”

📅 November 11, 2018 • 🕐 11:21 • 🏷 Papers

Our position paper ““Let Me Tell You Who You are” — Explaining Recommender Systems by Opening Black Box User Profiles” was accepted at the 2nd FATREC Workshop on Responsible Recommendation, held at RecSys ’18!

In this paper, we detail some our ideas and approaches of providing transparency in recommendations through displaying the user profiles, used ‘internally’ by our recommender system. Read the pre-print below!

  • [PDF] D. Graus, M. Sappelli, and D. M. Chu, “Let me tell you who you are,” in The 2nd fatrec workshop on responsible recommendation, 2018.
    [Bibtex]
    @inproceedings{graus2018let,
    title={Let me tell you who you are},
    author={Graus, David and Sappelli, Maya and Chu, Dung Manh},
    booktitle={The 2nd FATREC Workshop on Responsible Recommendation},
    year={2018}
    }
FATREC Position paper: Explaining recommender systems by opening black box user profiles

Interviewed in “IP – vakblad voor informatieprofessionals”

📅 October 24, 2018 • 🕐 17:17 • 🏷 Media

In the magazine IP (“journal for information professionals”) I am interviewed as one of three young professionals who show that ‘traditional categories and conceptual frames need to be readjusted.’

More specifically, it describes how my multi-disciplinary background, with an academic background in media studies, professional experience in the media, with a PhD in computer science, is important in bridging the gap between ‘techies’ and ‘non-techies’, and of particular value in my current role where I work on enabling AI in media. 

Digital forensics in the real world: the Ennetcom data

📅 • 🕐 17:13 • 🏷 Media

In the context of a high-profile legal case (involving a bunch of data acquired from encrypted “Ennetcom” phones) I assisted lawyer Inez Weski in acquiring insights and trying to understand how digital forensic tools were used in the collection of digital evidence. I did this work in the context of my PhD research on semantic search for E-Discovery. In this post, I list some of the publications that followed from my work and the case.

De Volkskrant: “Met deze eigen zoekmachine spit de politie schatten aan digitaal bewijs door”

Hansken is the search engine developed by the Netherlands Forensic Institute, and used by the police and public prosecutors. In this article in De Volkskrant, titled “Met deze eigen zoekmachine spit de politie schatten aan digitaal bewijs door,” I answered a few questions and explained my view on the role of Hansken in the court of law and digital evidence acquisition.

Click the image for the full article

NEMO Kennislink: “Het sleepnet van Justitie”

For more information on the case and my work, there’s a more in-depth piece on my work for Weski in the following NEMO Kennislink article, which details my findings and concerns with respect to using a proprietary, continuously developed, and largely black-box tool for collecting digital forensic evidence:

Click the image for the full article

Crimesite: “Hoe het pgp-sleepnet wel (en niet) werkt (#2)”

Finally, if you still didn’t have enough, there’s a blog post on crimesite which explains a bit more on the (legal) case, and some interpretations on my report and findings; 

Click to read “Hoe het pgp-sleepnet wel (en niet) werkt (#2)”

Pre-print of position paper “SMART Journalism: Personalizing, Summarizing, and Recommending Financial Economic News”

📅 June 1, 2018 • 🕐 13:44 • 🏷 Papers

Our position paper “SMART Journalism: Personalizing, Summarizing, and Recommending Financial Economic News” was accepted at Algorithmic Personalization and News (APEN18) workshop, held at ICWSM ’18!

In this paper, we detail some of the ideas and opportunities of personalization in the domain of financial economic news. Read the pre-print below!

  • [PDF] M. Sappelli, D. M. Chu, B. Cambel, D. Graus, and P. Bressers, “Smart journalism: personalizing, summarizing, and recommending financial economic news,” in The algorithmic personalization and news (apen18) workshop at icwsm ’18, 2018.
    [Bibtex]
    @inproceedings{sappelli2018smart,
    title={SMART Journalism: Personalizing, Summarizing, and Recommending Financial Economic News},
    author={Sappelli, Maya and Chu, Dung Manh and Cambel, Bahadir and Graus, David and Bressers, Philippe},
    booktitle={The Algorithmic Personalization and News (APEN18) Workshop at ICWSM '18},
    year={2018}
    }

Featured in article on ‘robo-journalism’ in the Netherlands

📅 May 13, 2018 • 🕐 12:23 • 🏷 Media

Stimuleringsfonds voor de Journalistiek published an article on ‘robo-journalism’, where I say something about the SMART Journalism project we are doing at FDMG, which involves personalization and summarization of newspaper articles. Read it here! (pdf). Snippet:

Door introteksten te personaliseren, kun je meer doelgroepen bedienen.’ Bij het genereren van gepersonaliseerde intro’s op basis van artikelen, komt behoorlijk wat techniek kijken, vertelt David Grauslead data scientist van het project bij het FD. ‘In de robotjournalistiek wordt nu vooral gewerkt aan het omzetten van gestructureerde data naar teksten. Wat wij willen is teksten maken op basis van door mensen geschreven teksten. Dat is behoorlijk cutting edge. We hebben daarom ook nauwelijks voorbeelden waar we ons op kunnen baseren.’

Predictive insights from company information (blog post for company.info)

📅 January 31, 2018 • 🕐 11:59 • 🏷 Blog

For Company.info I wrote a short blog post explaining the current state-of-the-art, our current, and future projects that involve machine learning and company information. Read the post below! (in Dutch).

Voorspellende inzichten uit bedrijfsinformatie

Machine learning stelt ons in staat om geautomatiseerd en op grote schaal voorspellende inzichten uit de grote verzameling data uit bijvoorbeeld jaarverslagen en jaarrekeningen te ontdekken en te ontsluiten.

Jaarverslagen bieden waardevolle inzichten in het functioneren en de toekomstperspectieven van bedrijven. Zo ontdekte het FD uit het jaarverslag dat Blendle in 2018 naar nieuw kapitaal op zoek moet om voort te kunnen bestaan. Ook publiceerde het FD een onderzoek in samenwerking met Company.info waaruit bleek dat een groot aantal bedrijven hun interne beheersing niet op orde hebben. Zulke inzichten kunnen volgen uit simpele zoekopdrachten in jaarverslagen.

Zelf onderzoek doen?

Met meer dan 1.7 miljoen originele jaarverslagen is het eenvoudig grasduinen in jaarverslagen met Company.info. Zo levert een simpele zoekopdracht naar ‘toekomst onzeker’ of ‘oordeelonthouding’ in de verzameling jaarverslagen van Company.info op het moment van schrijven respectievelijk 31.267 en 18.231 resultaten op! Test het gratis.

Voorspellende inzichten met machine learning

De aanbevelingen van Netflix, autocorrecties van Google, of de zelfrijdende auto van Tesla; machine learning is niet meer weg te denken uit ons dagelijks leven. Ook in het domein van bedrijfsinformatie gaan de ontwikkelingen vliegensvlug. Machine learning stelt ons in staat om geautomatiseerd en op grote schaal voorspellende inzichten uit de grote verzameling bedrijfsinformatie en jaarverslagen van Company.info te ontdekken, en te ontsluiten.

Zo ontwikkelde Marcia Fissette een methode om te voorspellen of een bedrijf zich schuldig maakt aan fraude, op basis van de tekst uit een jaarverslag. Fissette verzamelde honderden jaarverslagen van (veroordeelde) frauderende bedrijven, en nog eens honderden jaarverslagen van niet-frauderende bedrijven. Door een algoritme het verschil te laten ontdekken tussen het taalgebruik van deze twee groepen jaarverslagen, was Fissette in staat om met een nauwkeurigheid van 89% de frauderende bedrijven te herkennen op basis van hun jaarverslag, en factoren zoals de sector waarin het bedrijf actief is, en de omvang van het bedrijf.

Een volgende stap is het voorspellen van de toekomstige financiële situatie van een bedrijf. Onderzoekers van Amazon en Euclidean Technologies toonden aan dat ze toekomstige balans- en kengetallen (zoals eigen vermogen, activa, en verschillende ratio’s) kunnen voorspellen op basis van (historische) kengetallen, afkomstig uit gepubliceerde jaarrekeningen. Daarnaast tonen ze een mogelijke toepassing van deze voorspellingen aan: aandelenportefeuilles die zijn samengesteld op basis van de voorspelde financiële getallen — in plaats van de al gepubliceerde getallen — leveren een substantieel hoger rendement op in (gesimuleerde) aandelenhandel.

Machine learning bij Company.info

Company.info zit bovenop de ontwikkelingen binnen het toepassen van machine learning om voorspellende inzichten te verkrijgen.

Zo lanceerden we afgelopen maart onze volledig geautomatiseerde nieuws monitor: met behulp van machine learning herkent Company.info automatisch bedrijfsnamen in nieuwsartikelen, en weet automatisch de juiste bedrijfsprofielen aan de artikelen te koppelen. Daarnaast zetten we machine learning in om geautomatiseerd bedrijfsprofielen met SBI-codes te verrijken.

En we zitten niet stil; we volgen alle ontwikkelingen op de voet, en zijn druk bezig met het ontwikkelen van nieuwe voorspellende modellen. Zo gaan we met behulp van tekst-classificatiealgoritmen een sentimentscore aan nieuwsartikelen toekennen, waarmee we patronen en ontwikkelingen kunnen ontdekken in het sentiment rond sectoren of bedrijven. Ook kijken we naar het voorspellen van financiële kengetallen.

David Graus is een data scientist bij Company.info met een PhD in Information Retrieval from ILPS (University of Amsterdam). Hij heeft een achtergrond in de media en in het huidige tijdperk waarin technologie vele aspecten van het leven raakt, voelt hij een verantwoordelijkheid als data scientist om uit te leggen over zijn werk en expertise.