Predictive insights from company information (blog post for company.info)

📅 January 31, 2018 • 🕐 11:59 • 🏷 Blog • 👁 8

For Company.info I wrote a short blog post explaining the current state-of-the-art, our current, and future projects that involve machine learning and company information. Read the post below! (in Dutch).

Voorspellende inzichten uit bedrijfsinformatie

Machine learning stelt ons in staat om geautomatiseerd en op grote schaal voorspellende inzichten uit de grote verzameling data uit bijvoorbeeld jaarverslagen en jaarrekeningen te ontdekken en te ontsluiten.

Jaarverslagen bieden waardevolle inzichten in het functioneren en de toekomstperspectieven van bedrijven. Zo ontdekte het FD uit het jaarverslag dat Blendle in 2018 naar nieuw kapitaal op zoek moet om voort te kunnen bestaan. Ook publiceerde het FD een onderzoek in samenwerking met Company.info waaruit bleek dat een groot aantal bedrijven hun interne beheersing niet op orde hebben. Zulke inzichten kunnen volgen uit simpele zoekopdrachten in jaarverslagen.

Zelf onderzoek doen?

Met meer dan 1.7 miljoen originele jaarverslagen is het eenvoudig grasduinen in jaarverslagen met Company.info. Zo levert een simpele zoekopdracht naar ‘toekomst onzeker’ of ‘oordeelonthouding’ in de verzameling jaarverslagen van Company.info op het moment van schrijven respectievelijk 31.267 en 18.231 resultaten op! Test het gratis.

Voorspellende inzichten met machine learning

De aanbevelingen van Netflix, autocorrecties van Google, of de zelfrijdende auto van Tesla; machine learning is niet meer weg te denken uit ons dagelijks leven. Ook in het domein van bedrijfsinformatie gaan de ontwikkelingen vliegensvlug. Machine learning stelt ons in staat om geautomatiseerd en op grote schaal voorspellende inzichten uit de grote verzameling bedrijfsinformatie en jaarverslagen van Company.info te ontdekken, en te ontsluiten.

Zo ontwikkelde Marcia Fissette een methode om te voorspellen of een bedrijf zich schuldig maakt aan fraude, op basis van de tekst uit een jaarverslag. Fissette verzamelde honderden jaarverslagen van (veroordeelde) frauderende bedrijven, en nog eens honderden jaarverslagen van niet-frauderende bedrijven. Door een algoritme het verschil te laten ontdekken tussen het taalgebruik van deze twee groepen jaarverslagen, was Fissette in staat om met een nauwkeurigheid van 89% de frauderende bedrijven te herkennen op basis van hun jaarverslag, en factoren zoals de sector waarin het bedrijf actief is, en de omvang van het bedrijf.

Een volgende stap is het voorspellen van de toekomstige financiële situatie van een bedrijf. Onderzoekers van Amazon en Euclidean Technologies toonden aan dat ze toekomstige balans- en kengetallen (zoals eigen vermogen, activa, en verschillende ratio’s) kunnen voorspellen op basis van (historische) kengetallen, afkomstig uit gepubliceerde jaarrekeningen. Daarnaast tonen ze een mogelijke toepassing van deze voorspellingen aan: aandelenportefeuilles die zijn samengesteld op basis van de voorspelde financiële getallen — in plaats van de al gepubliceerde getallen — leveren een substantieel hoger rendement op in (gesimuleerde) aandelenhandel.

Machine learning bij Company.info

Company.info zit bovenop de ontwikkelingen binnen het toepassen van machine learning om voorspellende inzichten te verkrijgen.

Zo lanceerden we afgelopen maart onze volledig geautomatiseerde nieuws monitor: met behulp van machine learning herkent Company.info automatisch bedrijfsnamen in nieuwsartikelen, en weet automatisch de juiste bedrijfsprofielen aan de artikelen te koppelen. Daarnaast zetten we machine learning in om geautomatiseerd bedrijfsprofielen met SBI-codes te verrijken.

En we zitten niet stil; we volgen alle ontwikkelingen op de voet, en zijn druk bezig met het ontwikkelen van nieuwe voorspellende modellen. Zo gaan we met behulp van tekst-classificatiealgoritmen een sentimentscore aan nieuwsartikelen toekennen, waarmee we patronen en ontwikkelingen kunnen ontdekken in het sentiment rond sectoren of bedrijven. Ook kijken we naar het voorspellen van financiële kengetallen.

David Graus is een data scientist bij Company.info met een PhD in Information Retrieval from ILPS (University of Amsterdam). Hij heeft een achtergrond in de media en in het huidige tijdperk waarin technologie vele aspecten van het leven raakt, voelt hij een verantwoordelijkheid als data scientist om uit te leggen over zijn werk en expertise.

Financial News Mining Talk @ PyData Hilversum edition

📅 November 24, 2017 • 🕐 11:49 • 🏷 Blog • 👁 42

Here are the slides of a talk I gave at the Data Science Northeast Netherlands Meetup and PyData, where I detail the custom in-house entity linking framework, sentiment analysis, and entity salience scoring model we developed for Company.info (part of FD Mediagroep), in addition to showing some example applications of our corpus of news articles linked to organization profiles.

I’m sharing it here because I think it’s cool, since it’s one of the first project I’ve done at Company.info! Gives you some idea of what we’re working on..

Hosted 8th Recsys Amsterdam Meetup

📅 October 20, 2017 • 🕐 12:47 • 🏷 Blog • 👁 11

Thursday 19 October, I had the pleasure of hosting the 8th Recommender Systems Amsterdam meetup at FDMG/Company.info. The meetup’s theme was media-content recsys, and we had three talks from industry, dealing with recommending tv programs, music videos, and text articles);

  1. Ghida Ibrahim (Senior Data Scientist, (formerly at) Liberty Global): “Recommender systems for video and TV products”
  2. Bouke Huurnink and Roman Ivanov (XITE): “Music Video Recommendation@XITE”
  3. Robbert van der Pluijm (Head of Bibblio Labs, Bibblio): “Scaling a recommendation service – a threefold story”

Company.info wrote a small blog post about it, check it out here: Meetup: het succes van algoritmen en systemen voor personalisatie en aanbevelingen

I am a doctor!

📅 June 18, 2017 • 🕐 14:34 • 🏷 Blog • 👁 11

And it was a beautiful day. Thanks to everyone who attended my defense, to Daan for this (+ more) great picture, my paranymphs Rutger and Marijn for nymphing like a boss, and my committee for grilling but not burning me. Band pic:

Me and the gang. Photo by Daan Odijk.

Panel discussion on Data & Democracy

📅 May 3, 2017 • 🕐 16:18 • 🏷 Blog • 👁 0

On Tuesday May 9th I will participate in a panel discussion on Data & Democracy, which will revolve around the impact of (big) data (mining), profiling, and political micro-targeting on politics and campaigning of the future. Data & Democracy is organized by the Personalised Communication group (a joint effort between UvA’s Communication Science & Information Law groups). See this article (in Dutch) and the flyer (below) for more information!

Keynote on Big Data, Machine Learning, and Algorithmic Bias at the Royal Marechaussee

📅 November 24, 2016 • 🕐 11:39 • 🏷 Blog • 👁 39

15167453_10211031764808414_8187010699538446114_o

I was invited to give the opening keynote at the Intelligence Day of the Koninklijke Marechaussee (Military Police) on Big Data and Machine Learning, with the aim to explain the audience what ML and Big Data is.

I spent a disproportionate amount of time on Algorithmic Bias, because I think this is a hugely important topic — in particular for this audience! See the slides of my talk (in Dutch) below, or on slideshare: