Pre-print of position paper “SMART Journalism: Personalizing, Summarizing, and Recommending Financial Economic News”

📅 June 1, 2018 • 🕐 13:44 • 🏷 Papers • 👁 147

Our position paper “SMART Journalism: Personalizing, Summarizing, and Recommending Financial Economic News” was accepted at Algorithmic Personalization and News (APEN18) workshop, held at ICWSM ’18!

In this paper, we detail some of the ideas and opportunities of personalization in the domain of financial economic news. Read the pre-print below!

  • [PDF] M. Sappelli, D. M. Chu, B. Cambel, D. Graus, and P. Bressers, “Smart journalism: personalizing, summarizing, and recommending financial economic news,” in The algorithmic personalization and news (apen18) workshop at icwsm ’18, 2018.
    [Bibtex]
    @inproceedings{sappelli2018smart,
    title={SMART Journalism: Personalizing, Summarizing, and Recommending Financial Economic News},
    author={Sappelli, Maya and Chu, Dung Manh and Cambel, Bahadir and Graus, David and Bressers, Philippe},
    booktitle={The Algorithmic Personalization and News (APEN18) Workshop at ICWSM '18},
    year={2018}
    }

Featured in article on ‘robo-journalism’ in the Netherlands

📅 May 13, 2018 • 🕐 12:23 • 🏷 Media • 👁 3

Stimuleringsfonds voor de Journalistiek published an article on ‘robo-journalism’, where I say something about the SMART Journalism project we are doing at FDMG, which involves personalization and summarization of newspaper articles. Read it here! (pdf). Snippet:

Door introteksten te personaliseren, kun je meer doelgroepen bedienen.’ Bij het genereren van gepersonaliseerde intro’s op basis van artikelen, komt behoorlijk wat techniek kijken, vertelt David Grauslead data scientist van het project bij het FD. ‘In de robotjournalistiek wordt nu vooral gewerkt aan het omzetten van gestructureerde data naar teksten. Wat wij willen is teksten maken op basis van door mensen geschreven teksten. Dat is behoorlijk cutting edge. We hebben daarom ook nauwelijks voorbeelden waar we ons op kunnen baseren.’

“The birth of collective memories” published in JASIST!

📅 February 5, 2018 • 🕐 08:06 • 🏷 Papers and Research • 👁 67

The journal paper “The birth of collective memories: Analyzing emerging entities in text streams” I wrote with Daan Odijk and Maarten de Rijke is now (finally) published at JASIST! It is published under OpenAccess/CC BY 4.0 and available in “early view” (published before it’s published) in the Wiley Online Library. Click on the image below to access it:

Predictive insights from company information (blog post for company.info)

📅 January 31, 2018 • 🕐 11:59 • 🏷 Blog • 👁 8

For Company.info I wrote a short blog post explaining the current state-of-the-art, our current, and future projects that involve machine learning and company information. Read the post below! (in Dutch).

Voorspellende inzichten uit bedrijfsinformatie

Machine learning stelt ons in staat om geautomatiseerd en op grote schaal voorspellende inzichten uit de grote verzameling data uit bijvoorbeeld jaarverslagen en jaarrekeningen te ontdekken en te ontsluiten.

Jaarverslagen bieden waardevolle inzichten in het functioneren en de toekomstperspectieven van bedrijven. Zo ontdekte het FD uit het jaarverslag dat Blendle in 2018 naar nieuw kapitaal op zoek moet om voort te kunnen bestaan. Ook publiceerde het FD een onderzoek in samenwerking met Company.info waaruit bleek dat een groot aantal bedrijven hun interne beheersing niet op orde hebben. Zulke inzichten kunnen volgen uit simpele zoekopdrachten in jaarverslagen.

Zelf onderzoek doen?

Met meer dan 1.7 miljoen originele jaarverslagen is het eenvoudig grasduinen in jaarverslagen met Company.info. Zo levert een simpele zoekopdracht naar ‘toekomst onzeker’ of ‘oordeelonthouding’ in de verzameling jaarverslagen van Company.info op het moment van schrijven respectievelijk 31.267 en 18.231 resultaten op! Test het gratis.

Voorspellende inzichten met machine learning

De aanbevelingen van Netflix, autocorrecties van Google, of de zelfrijdende auto van Tesla; machine learning is niet meer weg te denken uit ons dagelijks leven. Ook in het domein van bedrijfsinformatie gaan de ontwikkelingen vliegensvlug. Machine learning stelt ons in staat om geautomatiseerd en op grote schaal voorspellende inzichten uit de grote verzameling bedrijfsinformatie en jaarverslagen van Company.info te ontdekken, en te ontsluiten.

Zo ontwikkelde Marcia Fissette een methode om te voorspellen of een bedrijf zich schuldig maakt aan fraude, op basis van de tekst uit een jaarverslag. Fissette verzamelde honderden jaarverslagen van (veroordeelde) frauderende bedrijven, en nog eens honderden jaarverslagen van niet-frauderende bedrijven. Door een algoritme het verschil te laten ontdekken tussen het taalgebruik van deze twee groepen jaarverslagen, was Fissette in staat om met een nauwkeurigheid van 89% de frauderende bedrijven te herkennen op basis van hun jaarverslag, en factoren zoals de sector waarin het bedrijf actief is, en de omvang van het bedrijf.

Een volgende stap is het voorspellen van de toekomstige financiële situatie van een bedrijf. Onderzoekers van Amazon en Euclidean Technologies toonden aan dat ze toekomstige balans- en kengetallen (zoals eigen vermogen, activa, en verschillende ratio’s) kunnen voorspellen op basis van (historische) kengetallen, afkomstig uit gepubliceerde jaarrekeningen. Daarnaast tonen ze een mogelijke toepassing van deze voorspellingen aan: aandelenportefeuilles die zijn samengesteld op basis van de voorspelde financiële getallen — in plaats van de al gepubliceerde getallen — leveren een substantieel hoger rendement op in (gesimuleerde) aandelenhandel.

Machine learning bij Company.info

Company.info zit bovenop de ontwikkelingen binnen het toepassen van machine learning om voorspellende inzichten te verkrijgen.

Zo lanceerden we afgelopen maart onze volledig geautomatiseerde nieuws monitor: met behulp van machine learning herkent Company.info automatisch bedrijfsnamen in nieuwsartikelen, en weet automatisch de juiste bedrijfsprofielen aan de artikelen te koppelen. Daarnaast zetten we machine learning in om geautomatiseerd bedrijfsprofielen met SBI-codes te verrijken.

En we zitten niet stil; we volgen alle ontwikkelingen op de voet, en zijn druk bezig met het ontwikkelen van nieuwe voorspellende modellen. Zo gaan we met behulp van tekst-classificatiealgoritmen een sentimentscore aan nieuwsartikelen toekennen, waarmee we patronen en ontwikkelingen kunnen ontdekken in het sentiment rond sectoren of bedrijven. Ook kijken we naar het voorspellen van financiële kengetallen.

David Graus is een data scientist bij Company.info met een PhD in Information Retrieval from ILPS (University of Amsterdam). Hij heeft een achtergrond in de media en in het huidige tijdperk waarin technologie vele aspecten van het leven raakt, voelt hij een verantwoordelijkheid als data scientist om uit te leggen over zijn werk en expertise.

The Birth of Collective Memories: Analyzing Emerging Entities in Text Streams

📅 December 11, 2017 • 🕐 16:15 • 🏷 Papers • 👁 170

Our paper “The Birth of Collective Memories: Analyzing Emerging Entities in Text Streams” was accepted for publication at JASIST (the Journal of the Association for Information Science and Technology)! Grab a pre-print here:

  • [PDF] D. Graus, D. Odijk, and M. de Rijke, “The birth of collective memories: analyzing emerging entities in text streams,” Journal of the association for information science and technology, 2018.
    [Bibtex]
    @article{graus2018birth,
    title={The birth of collective memories: Analyzing emerging entities in text streams},
    author={Graus, David and Odijk, Daan and de Rijke, Maarten},
    journal={Journal of the Association for Information Science and Technology},
    year={2018}
    }

This paper is is:
1. My first journal paper
2. Based on Chapter 3 of my PhD thesis “Entities of Interest — Discovery in Digital Traces
3. The first collabo on a paper (on paper) between the FD Mediagroep, Blendle, and the UvA
4. The tombstone on my academic career! (?)

In this paper we study news and social media streams spanning over 18 months, and comprising over 579 million documents, and analyze ’emergence patterns’ of entities, i.e., how a real-world entity (such as a person, organization, product, etc.) appears in these documents in the timespan between the entity’s first mention in online text streams, and when an article devoted to the entity is subsequently added to Wikipedia.

 

Financial News Mining Talk @ PyData Hilversum edition

📅 November 24, 2017 • 🕐 11:49 • 🏷 Blog • 👁 41

Here are the slides of a talk I gave at the Data Science Northeast Netherlands Meetup and PyData, where I detail the custom in-house entity linking framework, sentiment analysis, and entity salience scoring model we developed for Company.info (part of FD Mediagroep), in addition to showing some example applications of our corpus of news articles linked to organization profiles.

I’m sharing it here because I think it’s cool, since it’s one of the first project I’ve done at Company.info! Gives you some idea of what we’re working on..

In “Denktank” on algorithms, behavioral analysis, and personalization

📅 November 13, 2017 • 🕐 11:54 • 🏷 Media • 👁 90

My debut on national TV ;-)! Denktank is a TV show where youngsters explore and think about how (current day) technology will affect them in the future. In this episode I explain some of the mechanisms behind algorithmic personalization.

Stream the episode at NPO.nl (the part with me starts at about 05:00), or see the website of Human for more information on the episode.

Hosted 8th Recsys Amsterdam Meetup

📅 October 20, 2017 • 🕐 12:47 • 🏷 Blog • 👁 10

Thursday 19 October, I had the pleasure of hosting the 8th Recommender Systems Amsterdam meetup at FDMG/Company.info. The meetup’s theme was media-content recsys, and we had three talks from industry, dealing with recommending tv programs, music videos, and text articles);

  1. Ghida Ibrahim (Senior Data Scientist, (formerly at) Liberty Global): “Recommender systems for video and TV products”
  2. Bouke Huurnink and Roman Ivanov (XITE): “Music Video Recommendation@XITE”
  3. Robbert van der Pluijm (Head of Bibblio Labs, Bibblio): “Scaling a recommendation service – a threefold story”

Company.info wrote a small blog post about it, check it out here: Meetup: het succes van algoritmen en systemen voor personalisatie en aanbevelingen