Ces algorithmes chasseurs de fraudeurs

algorithme-facebook-tiz-scaled

Face aux comportements de plus en plus réactifs, innovants et coordonnés des fraudeurs, les entreprises se dotent d’intelligences artificielles basées sur des algorithmes complexes. Mais la conception et l’industrialisation de tels systèmes relèvent du défi pour des entreprises qui doivent faire évoluer leurs organisations, se confronter à d’épineuses questions juridiques et d’une manière plus générale, repenser leur relation avec leurs clients.

Dans les secteurs de la banque, de l’assurance ou encore des télécommunications, les comportements frauduleux sont à l’origine de pertes financières considérables. En France en 2014, les fraudes à la carte bancaire s’élevaient à 500 Millions d’euros* ; quant aux fraudes à l’assurance (fausses souscriptions, récupération de franchises, sinistres fictifs), elles représentaient 2,5 Md€* soit environ 5% des primes en dommages et sont en constante augmentation.

De plus, les systèmes anti-fraude traditionnels basés sur des règles métier automatisées présentent souvent une rigidité dans la prise de décision qui a pour conséquence de bloquer des dossiers sains et génèrent donc un manque à gagner.

Pour relever ces défis, les entreprises de ces secteurs commencent progressivement à se saisir des opportunités offertes par le Big Data. Voici un tour d’horizons des principales techniques utilisées dans la lutte anti-fraude.

Exploiter de nouvelles données pour mieux contextualiser un individu

En matière d’attribution de crédit, les modèles de scoringtraditionnels s’appuient sur des techniques de régression logistique (soit des systèmes très robustes, fiables dans le temps mais contournables et bloquant de nombreux dossiers sains) et n’exploitent qu’une faible partie du référentiel de données client.

Pour concevoir de nouveaux outils demachine learning, les Data Scientists exploitent l’open data (les données de l’Insee par exemple), les données transactionnelles, de localisation ou encore de navigation, ce qui permet de re-contextualiser de manière fine un individu demandant un prêt. Ces nouvelles typologies de données introduisent l’idée qu’un individu n’est pas forcément défini par une photo à un instant T de son patrimoine mais qu’il se situe bien dans une dynamique sociale et économique que seuls de grands volumes de données peuvent restituer.

Les méthodes supervisées ; repérer les signaux faibles pour prédire la fraude

Quel que soit le secteur, la méthode mathématique principalement utilisée pour exploiter ces volumes importants de données est la classification binaire supervisée, le but étant de prédire l’apparition d’un évènement de fraude.

Cette approche nécessite la récupération d’un historique de données labellisées (individus identifiés comme sains ou fraudeurs avérés) et repose généralement sur des modèles constitués d’ensembles d’arbres de décision, comme le célèbre « Gradient Boosting Tree », et en particulier son implémentation XGBoost très populaire sous R ou Python. Utilisés également pour de la maintenance prédictive, ces modèles ont comme particularité de détecter et d’exploiter des signaux faibles en repérant des corrélations complexes entre un grand nombre de variables.

En effet, la fraude correspond à un évènement rare, et le jeu de données est donc fortement déséquilibré : les “positifs”, c’est-à-dire les fraudeurs, ne représentent qu’une faible proportion de la totalité des observations (en deçà de 10%, voire parfois en deçà de 1%).

Différentes techniques sont disponibles pour répondre à cette problématique, comme par exemple le resampling(duplication des positifs ou exclusion de négatifs), le weighting (attribution d’une pondération plus forte aux observations positives) ou encore l’utilisation d’un « base_score » (un paramètre permettant de réduire la proportion de fraudeurs à atteindre pour que le modèle considère positif un sous-espace des données).

Relever les défis de la pression de sélection et de dégradation de la base d’apprentissage

Les décisions prises sur la base des résultats d’un modèle en production modifient le comportement des fraudeurs et la nature des données émises, on parle de pression de sélection. Que fait-on alors des nombreux dossiers rejetés par les systèmes de contrôle déjà en place ? Doit-on tous les considérer comme fraudeurs avérés au risque d’introduire des « faux-positifs » dans le jeu de données ? Doit-on les écarter (Méthodologie KGB pour Known Good Bad) pour s’affranchir de ce biais quitte à creuser le déséquilibre entre les classes ? Ces choix peuvent altérer fortement la qualité de l’apprentissage du modèle et donc ses performances finales. Des techniques de « débiaisage » telle que la reclassification itérative, ou la mise en place d’un « groupe de contrôle » constitué par un ensemble d’individus pour lesquels aucun contrôle n’est réalisé (situation sans modèle, sans règles), font partie des solutions qui permettent aux Data Scientists d’entraîner leurs modèles sur des données non biaisées.

Les méthodes supervisées sont performantes mais ne sont applicables que si les comportements frauduleux sont bien définis et que le nombre de cas enregistrés est suffisant. Or les arnaqueurs sont rusés et cherchent sans cesse à contourner les processus de contrôle. Nous étudierons dans le deuxième volet de l’article les approches dites non-supervisées afin de répondre à cette problématique.