La science de données et l’analytique pour voir les opportunités pendant la crise

Voir les opportunités pendant la crise pour profiter de la reprise

Pendant qu’on essaie toujours de comprendre comment survivre dans ce nouveau contexte de pandémie qui nous a frappés soudainement de plein fouet, qui nous force à travailler de la maison (pour les chanceux qui peuvent toujours travailler), nous devons nous adapter à ce nouveau contexte qui risque de durer assez longtemps. C’est la même chose pour nos entreprises.

Je pense que toutes les entreprises devraient se préparer avec ces 3 éléments en trame de fond :

  1. Cette pandémie risque de durer encore quelques semaines sinon quelques mois.
  2. Les entreprises et l’économie en général peuvent prendre des années à s’en remettre.
  3. Cette crise risque de changer fondamentalement nos habitudes à tout jamais.

Néanmoins, la vie continue. Il faut se relever les manches et agir pour que nos entreprises (et nous) passions au travers! On est tous dans le même bateau!

Comme l’a dit le désormais célèbre directeur de la santé publique du Québec, Horacio Arruda, utilisons cette pause pour repenser nos façons de faire.

C’est dans cette optique que nous avons écrit cet article. Nous avons cru bon de partager des conseils concrets pour mieux passer à travers de la crise avec la science des données et mieux se positionner pour la reprise.

Voir le verre à moitié plein

Il est tout à fait normal de s’alarmer de l’état actuel, mais je vous propose de demeurer opportuniste et calme pour être capable de tirer le meilleur de la situation et d’agir vite. Car il y a des opportunités, même en temps de crise (promis, vous ne verrez pas de citation de Churchill ici… ;).

En discutant avec nos clients et des entreprises de tout acabit, nous voyons actuellement 2 grandes tendances dans les contextes d’affaires.

  1. Des entreprises qui ont été frappées de plein fouet par le ralentissement économique soit directement, parce qu’il y a une réduction de toutes activités non essentielles, ou indirectement parce qu’elles desservent des entreprises directement touchées.

    Certes, ces entreprises sont en mode survie, mais elles peuvent clairement bénéficier d’insights en analysant leurs données pour optimiser les activités à court et moyen termes. Ce serait une erreur de paniquer et d’opérer sans analyser clairement la situation qui se trouve en face d’eux.

  2. Des entreprises plus fortunées sont soit en mesure d’opérer au maximum de leur capacité à distance ou ont été déclarées essentielles par le gouvernement. Des entreprises dans le domaine alimentaire, médical, logistique, télécommunication et autre font tout ce qu’elles peuvent afin de desservir pleinement leurs clients tout en protégeant leurs employés.

    Encore une fois, des insights peuvent être générés, mais cette fois pour s’assurer que leurs opérations soient bien optimisées et qu’elles fassent leur travail avec un maximum d’efficacité.

Questionner les hypothèses du passé

Une des difficultés actuelles est de bien comprendre le contexte dans lequel nous vivons présentement : l’isolation, la peur et le stress créent des changements dans le comportement des humains. Et personne n’a de boule de cristal pour prédire les prochains mois.

Bien que désolante, cette situation peut être source d’opportunités. Une chose est certaine, pour les prochaines semaines, il sera capital d’évaluer l’évolution du comportement de vos prospects, clients et utilisateurs avec soin. Et après avoir examiné la situation, il est important de s’adapter!

Le site Glimpse peut être un bon indicateur pour trouver des tendances sur certains de vos produits pour vous aider à prendre de meilleures décisions.

Changement de tendances de demande de produits
La demande pour certains produits a instantanément changé.

Les opportunités

Tout commence par la capture de données, puis par l’analytique!

Revoir votre approche marketing en utilisant les données

D’un point de vue marketing, il est capital de comprendre les nouvelles tendances des utilisateurs. La crise actuelle change les comportements drastiquement comme nous l’avons vu ci-haut.

Comportement des visiteurs

En termes plus concrets, je vous conseille d’analyser le nombre d’achats et visites sur les pages de chacun de vos produits ou catégories de produits. De cette façon, vous serez en mesure de mettre de l’emphase sur les produits les plus populaires, et pourrez possiblement mettre en veilleuse, ou complètement à l’arrêt certains produits moins essentiels.

Un des avantages d’une crise, c’est que les changements se font subitement. Par conséquent, vous serez en mesure de facilement voir les variations dans vos données.

Segmentation des clients

La segmentation des clients peut aussi être utile pour vous en ce moment. En analysant les différents types de clients, vous pouvez aussi identifier lesquels sont plus à même de consommer vos produits et services.

Vous pouvez vous inspirer des types de requêtes de mots clés pour atteindre votre site, des champs d’intérêt ou des caractéristiques démographiques ou géographiques pour présenter le bon message et faire convertir les prospects qui ont le plus de potentiel de faire affaire avec vous.

Des outils gratuits pouvant vous aider pour ce faire :

Vous pourriez aussi, par exemple, modifier vos pages de catégorie de produits, ou votre page d’accueil, pour montrer en premier les produits ayant plus de ventes depuis le début de la crise. Vous pouvez aussi monter des pages produits, ou des promotions par segment.

Dans le but de simplifier vos opérations, vous pourriez aussi mettre plus d’efforts à promouvoir vos produits phares et sans doute retirer certains de vos produits qui ne convertissent pas.

Analyser vos campagnes marketing et vos annonces

Au niveau des campagnes, je vous conseille d’analyser leur pertinence et de garder un œil ouvert sur les conversions. Malgré le changement de comportement de vos clients, certaines campagnes ont peut-être toujours un ROI positif, il serait donc coûteux de retirer tout votre budget en bloc.

En ce qui a trait aux ventes, il est possible d’analyser les actions qui mènent à des conversions. Par exemple, si certains types de courriels favorisent la conversion, il serait judicieux d’en être informé pour mousser des ventes futures.

Tournez-vous vers la vente proactive

Une autre opportunité potentiellement intéressante se situe au niveau des ventes proactives. Si vous avez des clients qui rachètent des produits à une certaine fréquence, il serait intéressant de mesurer le temps entre 2 achats.

De cette façon vous pouvez monter une liste de clients « semblables » à vos clients proactifs, à qui vous pouvez proposer ces mêmes produits au même cycle d’achat.

Bouger votre boutique en ligne

Une autre opportunité se situe au niveau de la numérisation des ventes, avec la vague de travail de la maison. Si vous n’êtes pas en ligne actuellement, c’est urgent pour vous d’opter pour développer une stratégie commerciale numérique.

Vous pouvez notamment opter pour une plateforme qui permet de faire le pont entre votre boutique physique et votre boutique en ligne, en utilisant une plateforme déjà existante comme la canadienne Shopify qui facilitera la création de boutiques en ligne, la gestion d’inventaire, etc.

Sinon, vous pouvez décider de vendre vos produits au travers d’un fournisseur existant comme Amazon. Il peut s’agir d’un choix judicieux puisque vous pouvez être opérationnel très rapidement et accéder aux centaines de milliers de prospects déjà présents sur la plateforme.

Le but est bien entendu de créer une solide présence en ligne, qui inclut votre propre plateforme pour accompagner vos clients au travers de leur cycle de vie. Investissez également du temps pour bien paramétrer la cueillette d’information sur vos plateformes dès le départ pour bien pouvoir analyser vos données par la suite.

Petite parenthèse

Quelle sera la première entreprise tech québécoise à proposer une plateforme de commerce en ligne à la Amazon qui propose exclusivement l’achat en ligne de boutiques locales?

Revoir vos processus après avoir analysé vos données

Automatisation de la prise en charge de vos prospects avec un chatbot

Si vous avez déjà un site web fonctionnel et optimisé, vous pourriez bénéficier de l’automatisation rapide de la prise en charge des prospects avec des chatbots tels que Heyday, un chatbot fait 100% au Québec.

Cet outil permet rapidement à votre équipe de ventes de se concentrer davantage sur la conversion des prospects. En plus, ils offrent leur outil gratuitement pour 3 mois.

Vérifier les anomalies dans les opérations

Pour vous assurer que les opérations demeurent optimales, surtout au point de vue des entreprises essentielles, vous voudriez probablement suivre de près les anomalies dans vos opérations.

Voici certains exemples d’opérations :

  • Temps de téléchargement de page web (load time)
  • Nombre de requêtes sur votre API
  • Nombre d’erreurs sur votre logiciel
  • Ratio de disponibilité de vos services (up time)
  • Temps de livraison moyen
  • Télémétrie de votre machinerie

La mesure de ces anomalies permettrait de vous assurer que vos activités sont toujours supportées par vos systèmes ou votre machinerie. S’il y a un nombre important d’anomalies, vous voudrez sûrement investiguer pour comprendre si de la maintenance, ou une mise à jour de votre infrastructure est nécessaire.

Automatiser les processus simples ou manuels

Vous pouvez aussi gagner automatiser certains de vos processus.

Par exemple, le seul fait de préremplir certains formulaires ou mettre à jour des fichiers Excel pourrait retirer certaines dépendances dans vos processus.

On a tendance à prendre ces processus simples ou manuels pour acquis, mais on voit plusieurs entreprises à risque puisqu’elles reposent sur eux pour assurer les opérations de l’entreprise. En temps de crise, de baisse de revenu, de mise à pied d’employés, de travail à la maison, ça peut devenir problématique. De plus, vous aurez peut-être besoin de cette main d’oeuvre ailleurs.

Imaginez si toutes vos manipulations Excel reposaient dans un logiciel et que toutes les actions manuelles qui doivent être exécutées chaque mois étaient faites automatiquement. À court terme, il est possible d’automatiser ces manipulations Excel assez facilement. Voici un exemple, un peu geek j’en conviens, mais qui présente comment rendre vos processus un peu moins fragiles et plus efficaces.

Voici des processus que vous pourriez rapidement automatiser :

  • Extraction d’items à partir d’un site web
  • Création et exécution de Purchase Orders
  • Transfert de données d’un système à l’autre
  • Maintenance de fiches produits
  • Extraction des données de formulaires

Comprendre les commentaires clients

Lorsque vient le temps de supporter vos clients actuels ou vos utilisateurs, l’analyse des commentaires clients est une excellente source d’apprentissages qui peuvent vous aider rapidement. Des techniques comme l’analyse des sentiments et des sujets mentionnés dans les commentaires peuvent permettre d’identifier des tendances.

Sécurité de l’information

Finalement, en temps de crise, il n’est pas rare que des entités malveillantes tentent de profiter de ces situations.

Et c’est malheureusement le cas dans la crise du Covid-19 qui nous occupe en ce moment. Il est donc important de mettre de l’énergie à identifier des anomalies pour détecter des fraudes ou des pannes réseau.

[Webinaire sur demande]

La science de données pour mieux sortir
de la crise

Faire évoluer sa pratique de science des données

Dans les mois qui vont suivre la crise, nous pouvons déjà prédire qu’il y aura une évolution dans les pratiques des entreprises et de la société en général.

Certaines tendances sont déjà bien définies telles que l’utilisation d’outils de collaboration, le travail à distance, les règles d’hygiène et l’automatisation de certaines opérations critiques. Attendez-vous cependant à voir une accélération de l’adoption de nouveaux comportements dans les mois et années à venir.

Rôle de l’intelligence artificielle en temps de crise

Nous n’en avons que très peu parlé, mais l’intelligence artificielle joue un rôle central dans cette crise pour de multiples raisons.

Premièrement la communauté de science des données a su se mobiliser pour accélérer la recherche sur les techniques concrètes pour plus rapidement mettre fin à la crise du COVID-19, en accélérant notamment le dépistage et en aidant la recherche de vaccins et de médicaments.

De plus, les entreprises qui ont investi massivement en intelligence artificielle ont su tirer leurs épingles du jeu puisqu’elles sont moins dépendantes du fait d’avoir des humains sur le lieu de travail pour livrer ses produits et services.

Pour cette raison, il est important de prendre le temps de se questionner sur l’impact de l’intelligence artificielle sur nos entreprises. La première étape pour moi est l’éducation.

Voici les différentes facettes que nous vous suggérons de prendre en compte afin de pouvoir mieux profiter de l’intelligence artificielle :

  • Implanter une culture de science de données en entreprise : assurez-vous que votre structure qui supporte la transformation organisationnelle est en place et peut permettre de devenir réellement data driven. Parfois de la formation est nécessaire. Vous pouvez également vous adjoindre d’un coach en gestion du changement.

  • Capturer des données utiles à l’intelligence artificielle : simplement dit, sans données il n’y a pas d’intelligence artificielle. Vous devez donc vous assurer que la cueillette et la capture de vos données sont bien mises en place. Dès que vous adoptez l’intelligence artificielle, vos données deviennent votre avantage compétitif.

  • Exécuter des projets d’IA : il s’agit ici de tirer profit des techniques et outils d’apprentissage machine et de science des données pour bâtir des solutions concrètes. Il existe beaucoup de projets open source qui peuvent vous aider à aller plus vite.

    Je vous conseille de commencer par de plus petits projets qui apportent une véritable valeur à votre organisation. Heureusement ces low hanging fruits sont présents dans la majorité des entreprises vu la faible adoption de l’IA.

    Également, S.V.P., éloignez-vous des preuves de concept le plus possible et optez pour de plus petits projets, mais qui offrent une expérience complète à vos utilisateurs finaux. Chez Moov AI nous parlons de MVP (minimum viable product). Les preuves de concept demeurent sur les tablettes et n’apportent que peu de valeur.

  • Gestion de projet : parce que sans gestion de projet, vos projets sont à risque. Ça peut paraître évident, mais mettez un réel effort et commettez votre organisation au projet. Si vous faites ça « sur le coin d’une table », le résultat sera conséquent avec votre effort… Comment s’assurer de livrer des projets d’IA efficacement?

    Je vous conseille d’opter pour la méthodologie Agile qui peut très bien s’adapter aux projets d’intelligence artificielle.

  • Comment travailler au quotidien avec des modèles d’intelligence artificielle: parce que tous les rôles conventionnels risquent d’évoluer, comment s’assurer que l’intelligence artificielle augmente l’impact de chaque humain de l’entreprise dans leurs rôles respectifs.

    On aime bien dire que les modèles d’apprentissage machine, une fois en production, sont un peu comme un nouveau collègue dans vos équipes. Ils viennent faire une tâche (souvent ardue et peu intéressante pour l’humain) et libérer du temps pour permettre à l’humain de faire ce qu’il est le plus habile à faire : créer, innover, idéer, etc.

Quel est l’impact de ce changement de comportement soudain sur mes systèmes d’intelligence artificielle?

En terminant, pour les entreprises ayant déjà mis en place des systèmes d’apprentissage machine, il est fort possible que vos solutions en place ne soient plus en mesure de fournir des prédictions justes.

En traduisant la crise actuelle en terme technique, on peut parler de déviation (drift) au niveau des données, et indirectement du modèle. La raison est fort simple : les modèles qui utilisent des données financières, comportementales, médicales et d’import/export sont à risque puisqu’ils ont été très probablement entraînés avec des données normales alors que les données actuelles sont anormales.

Dernier conseil : je vous suggère fortement de valider chaque modèle avec des données actuelles afin de vérifier la qualité de vos prédictions sur le long terme.

En espérant que cette situation hors de l’ordinaire puisse mener à des opportunités court, moyen ou long terme pour votre entreprise.

Évidemment, si jamais vous avez d’autres idées, nous serions curieux d’en savoir plus et nous pourrons les ajouter à cet article.

Nos films préférés traitant de l’intelligence artificielle

Parce que les films sont toujours une bonne occasion pour apprendre tout en se changeant les idées, voici une liste de films et documentaires actuellement disponibles au Canada soit sur Netflix, Amazon Prime, Crave ou Youtube qui inspirent sur le potentiel ou l’histoire de l’intelligence artificielle et de la science des données.

1 – Moneyball

Netflix | Crave

Moneyball est un film culte en science des données. Inspiré par le livre de Michael Lewis, “Moneyball: The Art of Winning an Unfair Game”, il s’agit d’une histoire vraie à propos des Athletics d’Oakland, une équipe de la ligne majeure de baseball.

Le directeur général des Athletics (joué par le beau Brad) a surpris la ligue au grand complet en utilisant pour la première fois la science des données dans le but de monter une équipe compétitive.

Maintenant pratique courante, ces techniques quantitatives étaient très mal perçues par la communauté. Ce film est inspirant puisqu’il démontre comment adopter une approche plus data driven ainsi que l’importance de la gestion du changement dans la transformation.

2 – Imitation Game

Netflix

The Imitation Game est un film à propos d’un projet qui a changé le cours de la 2e guerre mondiale! En effet, Alan Turing, un des plus grands mathématiciens, cryptanalyste et un des inventeurs de l’ordinateur fut instrumental à la victoire des alliés dans la 2e guerre mondiale… grâce à l’analyse du langage (NLP)!

Non seulement ce film montre le déroulement d’un projet de science des données, il éduque à propos d’un personnage qui est encore mythique dans le monde du développement logiciel et intelligence artificielle.

3 – Margin Call

Amazon Prime

Margin Call est un film assez stressant merci qui s’inspire des 24 heures précédant la crise économique de 2008. Il raconte l’histoire d’un analyste qui a été en mesure d’identifier une irrégularité importante à même les modèles de risques d’une institution bancaire américaine.

Ce film permet de comprendre la place des données en finance et aussi l’importante de valider des modèles statistiques!

4 – Algorithms: Secret Rules of Modern Living

Amazon Prime

Malgré le nom assez ennuyant du documentaire, il s’agit d’un film hyper divertissant qui explique ce qu’est un algorithme avec plusieurs exemples concrets!

En plus de démystifier un mot qui est par définition très complexe, le présentateur explique dans des termes très simples comment l’humain a été en mesure de résoudre des problèmes comme la reconnaissance d’image, un moteur de recommandations et le “travelling salesman” et plus.

5 – VICE Special Report: The future of work

Crave | Youtube

On finit notre liste avec un documentaire hyper intéressant à propos de la transformation du monde du travail. C’est très intéressant puisque le documentaire démontre des cas concrets de transformations, et les présente aux employés actuels.

Ce documentaire démontre l’état actuel de l’automatisation du monde du travail, autant du côté humain que du côté technologique. Comme c’est le cas de la plupart des documentaires de VICE, ce special report parle des vraies choses qui dérangent les travailleurs!

À voir!

Forecasting grâce à l’intelligence artificielle

Lorsqu’on parle de nouvelles technologies dans le domaine du forecasting et plus spécifiquement dans celui de la prévision du prix de commodités, on parle souvent d’intelligence artificielle, d’automatisation et de robotique.

Un des cas le plus souvent abordé est celui du trading algorithmique (algorithmic trading), c’est-à-dire une machine qui achète automatiquement des commodités sans intervention humaine.

Évidemment, le fait d’avoir un agent automatisé qui prend des décisions par lui-même est la forme la plus avancée, le but à atteindre quand on parle d’achat de commodités et d’intelligence artificielle.

Ce qui est moins souvent abordé par contre, c’est la possibilité de tendre vers ce but tout en allant chercher des bénéfices importants de façon incrémentale tout au long du processus.

La vidéo ci-dessous présente l’intégralité de la conférence d’Olivier Blais et Simon Dagenais, respectivement VP science de données et scientifique de données chez Moov AI.

Vous verrez également une introduction aux bonnes questions à se poser quand on aborde l’intelligence artificielle par Jean-François Lefort, directeur des opérations pour Scale AI, l’une des cinq supergrappes fédérales qui se spécialise dans les chaînes d’approvisionnements.

Cette conférence a été réalisée dans le cadre de la série d’événements des AI Mornings. Bon visionnement.

Olivier Blais

Olivier est VP science de données chez Moov AI et un expert de la science de données. Son expertise et ses connaissances pointues en matière d’intelligence artificielle et d’apprentissage machine l’ont mené à accompagner la transformation numérique de nombreuses entreprises et à implémenter des projets dans différentes industries.

Il a accompagné les équipes et veillé à l’implantation d’une saine culture de données dans des compagnies comme Pratt & Whitney Canada, L’Oréal et GSoft.

Simon Dagenais

Simon est scientifique de données chez Moov AI. Issu d’un contexte quantitatif avec une maîtrise en économie et diverses expériences en analytique commerciale, Simon a développé de solides connaissances en Python, PNL, apprentissage machine et apprentissage profond.

À titre de scientifique de données, il a participé à plusieurs projets phares de prédiction de prix de commodité et de devises pour des clients de Moov AI.

Un guide facile pour comprendre la reconnaissance optique de caractères (OCR)

L’objectif de ce guide est de vous fournir toute l’information pertinente afin de bien comprendre ce qu’est l’OCR, quels sont ses avantages et comment en tirer profit dans un contexte d’affaires.

Qu’est-ce que la reconnaissance optique de caractères?

La reconnaissance optique des caractères, ou Optical Character Recognition – OCR en anglais, est une conversion électronique d’images textuelles dactylographiées, manuscrites ou imprimées. Ce texte est encodé par une machine dans un fichier de format texte.

Avec l’OCR, un grand nombre de documents papier peuvent être numérisés en texte lisible à la machine, peu importe la langue et le format dans lesquels ils sont rédigés. Cette technique facilite non seulement le stockage, mais rend disponibles des données qui auparavant étaient difficilement accessibles.

Il suffit simplement de penser à la quantité de données qui dorment dans des boîtes d’archives papier d’une ville ou d’un gouvernement par exemple.

Ces images et documents peuvent être numérisés sous forme de document texte, de photo de document ou de photo de scène (par exemple pour décoder le texte sur un panneau d’affichage).

Comment fonctionne l’OCR?

Le challenge de l’OCR repose principalement sur la difficulté à reconnaître les différentes polices de caractères qui démultiplient les façons d’écrire chaque symbole. Ceci fait en sorte qu’avant même de sélectionner un algorithme d’OCR, l’image en elle-même doit être prétraitée pour en assurer la lecture.

Prétraitement

La majorité des logiciels d’OCR prétraitent les images pour augmenter les chances de reconnaissance.

Les techniques de prétraitement comprennent :

1. Réalignement (de-skew)
Si le document n’a pas été correctement aligné lorsqu’il est numérisé, il peut avoir besoin d’être tourné de quelques degrés dans le sens horaire ou antihoraire pour s’assurer que les lignes de texte soient parfaitement horizontales ou verticales.

2. Déparasitage (Despeckle)
Enlever les taches sur le document ou lisser ses bords.

3. Binarisation
Convertir une image en noir et blanc (appelé une « image binaire » parce qu’il n’y a que deux couleurs). La tâche de binarisation est effectuée comme un moyen facile et précis de distinguer le texte de l’arrière-plan.

4. Suppression de la ligne
Nettoyer les boîtes et les lignes non glyphes.

5. Analyse de mise en page ou « zonage »
Identifier les colonnes, les paragraphes, les légendes, sous forme de blocs. Particulièrement utile dans les mises en page et les tables multicolonnes.

6. Détection de lignes et de mots
Établir des formes avec les mots et les caractères de base, diviser les mots au besoin.

7. Reconnaissance du script
Dans plusieurs documents linguistiques, le script peut se transformer au niveau des mots. Donc l’identification du script est essentielle avant que l’OCR puisse être utilisé pour gérer un script en particulier.

8. Isolation des caractères ou « segmentation »
Divers caractères liés par des artefacts d’images doivent être divisés. Par exemple, les caractères uniques qui ont été divisés en plusieurs morceaux basés devraient être liés.

9. Normalisation
Normaliser le ratio des dimensions de l’image (aspect ratio) et l’échelle (scale ratio).

Extraction des propriétés statistiques de l’image

Il existe essentiellement deux méthodes principales pour extraire les propriétés statistiques d’une image en OCR :

  1. l’algorithme de détection définit un caractère en évaluant ses lignes et ses traits;
  2. la reconnaissance des motifs, fonctionne en identifiant l’ensemble du caractère.

Nous pouvons reconnaître une ligne de texte en recherchant des lignes de pixels blancs qui ont des pixels noirs entre les deux. De la même façon, nous pouvons reconnaître où un caractère commence et où il se termine.

Les images suivantes démontrent visuellement ces méthodes respectivement :

Détection des lignes et traits
Détection des lignes et traits. Réf.
Reconnaissance des motifs sur une ligne de texte. Réf.
Reconnaissance des motifs sur un caractère. Réf.

Ensuite, nous convertissons l’image du caractère en une matrice binaire où les pixels blancs sont des 0 et les pixels noirs sont des 1 comme indiqué dans l’image suivante :

Échantillon de matrice binaire. Réf.

Par la suite, en utilisant la formule de distance, nous trouvons la distance du centre de la matrice jusqu’au 1 le plus éloigné.

Distance formula used in OCR
La formule distance. Réf.

Nous créons ensuite un cercle en utilisant la distance comme rayon et le divisons en sections plus granulaires.

À ce stade, l’algorithme compare chaque sous-section à une base de données de matrices représentant des caractères dans différentes polices pour identifier le caractère avec lequel il a le plus de similarités statistiques. Pour numériser un média imprimé, l’algorithme reproduit cette technique pour chaque ligne et caractère.

Distance is used to create a circle
Comparez chaque sous-section avec la base de données de matrice. Réf.

Post-traitement

La précision de l’OCR peut être améliorée si son extrant est limité par un lexique (une liste de mots autorisés dans un document). Par exemple, un lexique pourrait comprendre tous les mots en anglais ou une liste de mots plus techniques spécifiques à un domaine en particulier.

Évidemment, cette méthode sera moins efficace si le document contient des mots qui ne sont pas dans le lexique. C’est souvent le cas avec les noms propres par exemple.

Heureusement, pour améliorer la précision il existe plusieurs librairies d’OCR gratuites sur Internet. La librairie Tesseract par exemple utilise son dictionnaire pour contrôler la segmentation des caractères.

L’extrant de l’algorithme peut être une seule chaîne ou un fichier de caractère. Les systèmes OCR plus avancés peuvent conserver la structure de page d’origine et créer un PDF contenant à la fois les pages d’image d’origine et le rendu textuel décodé.

Corriger les erreurs

Afin de corriger certaines erreurs, l’analyse des proches voisins peut utiliser des fréquences de cooccurrence en notant que certains mots ont été vus ensemble. Par exemple de ces deux expressions similaires, « Washington, D.C. » est plus répandu dans la langue anglaise que « Washington DOC ».

La grammaire

La grammaire peut également aider à déterminer la langue numérisée, par exemple, un mot est susceptible d’être un verbe ou un nom, fournit une plus grande précision.

Dans le post-traitement OCR, l’algorithme de distance de Levenshtein est souvent utilisé pour maximiser davantage les résultats de l’OCR.

Cas d’utilisation de l’OCR

Les outils d’OCR ont été développés en une gamme d’applications spécifiques au domaine, notamment la reconnaissance de reçu, de facture, de chèques, de documents légaux, etc.

D’autres cas d’utilisation peuvent être :

  • Saisie automatique de données pour des documents d’entreprise, par exemple : formulaires papier, chèques, passeports, factures, relevés bancaires, reçus, etc ;
  • Reconnaissance automatique des plaques d’immatriculation ;
  • Reconnaissance des passeports de voyageurs dans un aéroport et l’extraction de l’information importante ;
  • Extraction automatique d’informations clés dans des documents d’assurance ;
  • Extraction des informations de carte d’affaires ;
  • Numérisation de gros documents imprimés, par exemple des livres ;
  • Rendre disponible à la recherche le texte d’images des documents imprimés ;
  • Conversion de l’écriture manuscrite en temps réel pour contrôler un ordinateur (pen computing – via une tablette graphique ou un écran tactile par exemple).

Les domaines où l’OCR est le plus utilisé

Domaine bancaire, assurances et valeurs mobilières.

Ces 3 secteurs, de par leur nature, sont tous de grands consommateurs de l’OCR.

L’utilisation la plus courante de l’OCR est la saine gestion des chèques :

  1. le chèque manuscrit est numérisé ;
  2. ses détails sont transformés en texte numérique ;
  3. la signature est validée ;
  4. le chèque est approuvé en temps réel.

Le tout sans implication humaine.

Aujourd’hui, seule la vérification de la signature nécessite la validation avec une valeur résidente dans une base de données préexistante.

Caractères manuscrits

Malgré tout, nous sommes plutôt loin de l’automatisation complète de la validation de caractères manuscrits comme la façon d’écrire de chaque personne est presque unique.

Par contre, l’application de méthodes d’apprentissage profond (deep learning) appliquées à l’écriture OCR nous permet d’être optimistes d’espérer automatiser à 100% le traitement des chèques.

Une diminution du temps de traitement des chèques est un avantage financier pour tout le monde : le débiteur, la banque et le créditeur.

Échantillon de cas d’utilisation bancaire de l’OCR. Réf 1. Réf 2.

Monde légal

Peu d’industries génèrent autant de paperasse que l’industrie juridique, donc il est simple de comprendre les avantages de l’OCR ici.

La numérisation, le stockage, la conservation en base de données accessible à la recherche sont désormais possibles pour tous les documents imprimés : affidavits, jugements, déclarations, avis, testaments, etc.

L’OCR est également disponible pour des documents en chinois, en arabe et en orthographes pour les langues ayant une autre écriture que celles de type « romaine ».

L’accès rapide aux documents juridiques provenant de millions de cas antérieurs est certainement un avantage pour une industrie qui s’appuie fortement sur un le passé.

Santé

Une autre industrie qui se prête bien à l’OCR est la santé. Il est possible de numériser tout l’historique médical d’un patient : rapports de santé, radiographies, historique de maladies, suivi des traitements, diagnostics, dossiers hospitaliers, couverture d’assurance, paiements. Après numérisation, toutes ces informations sont disponibles et consultables en un seul endroit.

Le fait que l’ensemble du dossier patient soit stocké numériquement représente un avantage majeur pour l’épidémiologie et pour la logistique (maintien des niveaux de médicaments en pharmacies, équipements et autres produits de santé, etc.)

Une fois numérisés, tous les dossiers forment une énorme base de données qui peut être utile d’étudier dans son ensemble pour fournir des insights aux législateurs et aux réseaux de santé partout dans le monde.

OCR in pharmaceutical
OCR dans les produits pharmaceutiques. Réf 1. Réf 2.

Chaîne d’approvisionnement

Dans plusieurs secteurs, le contrôle de la qualité de la chaîne d’approvisionnement à chaque étape du processus est essentiel pour se conformer, entre autres, aux lois de sécurité, santé et de lutte contre la contrefaçon.

Certains articles doivent être localisés dans la chaîne d’approvisionnement à tout moment, et fournir une documentation claire de leur origine et de leur emplacement.

Bien que le suivi des produits soit souvent géré grâce aux code-barres ou aux puces de type “Near Field Communication (NFC)”, l’OCR a malgré tout une utilité.

Il permet de lire les instantanément codes des lots, les dates d’expiration et les numéros de série. Ces informations améliorent le suivi d’un produit à toutes les étapes du cycle d’emballage, de l’étiquetage à la mise du produit final sur les tablettes.

L’OCR peut être également utile pour comparer le texte actuel avec la chaîne prévue définie dans la base de données, et signaler un numéro de série hors séquence ou manquant.

Les code-barres et l’OCR sont souvent utilisés de pairs pour maximiser l’exactitude de la collecte d’informations.

Warehouse

Avantages de l’OCR

Facilité de recherche

Vous pouvez enregistrer votre fichier numérisé sous la forme de .doc, .rtf, .txt, pdf, etc. après avoir converti votre fichier numérisé en texte lisible. Vous pouvez facilement mettre ces fichiers à la disposition en les incluant dans une base de données appropriée.

Modification

Vous pouvez facilement apporter des modifications à un vieux contrat que vous aviez rédigé il y a quelques années ou réviser un vieux testament sans passer des heures à retaper manuellement. Après la numérisation de votre document à l’aide de l’OCR, vous pouvez facilement le modifier avec n’importe quel outil de traitement de texte.

Accessibilité

Une fois qu’un document numérisé est rendu accessible sur une base de données commune, il devient instantanément accessible à plusieurs personnes. Ceci est particulièrement utile pour les banques qui peuvent vérifier les antécédents de crédit d’un client en tout temps.

Cette technique permet de rendre les archives gouvernementales disponibles afin que les archives des propriétaires d’entreprises ou l’acte de naissance du grand-père du client d’un avocat puissent être trouvés par une simple recherche textuelle.

Stockage

La numérisation réduit évidemment l’espace nécessaire pour le stockage des archives papier, comme les ordinateurs ne prennent que peu d’espace physique. De plus, ces dernières, une fois numérisées, deviennent inutiles et peuvent être recyclées.

Sauvegardes

Au lieu de garder des documents en double ou en triple, la numérisation peut être faite à bon marché et sans limites. On peut également conserver une version de tous les changements. De plus, les documents numérisés ne risquent pas de s’abimer avec le temps.

Ça simplifie de beaucoup la gestion documentaire.

Traduisibilité

L’OCR moderne est capable de gérer un grand nombre de langues, de l’arabe à l’indien en passant par le chinois. Cela implique qu’un document, dans une langue, peut être recherché, numérisé et automatiquement traduit dans n’importe quelle autre langue.

Ce travail est de beaucoup simplifié avec la norme Unicode et les programmes de traduction basés sur l’apprentissage machine (par exemple, Google Translate).

Par conséquent, nous pouvons presque éliminer le besoin de recourir à des traducteurs professionnels.

Comment l’OCR aidera votre entreprise?

L’OCR présente plusieurs avantages. De nos jours, les entreprises génèrent souvent un volume très élevé de données et de documents : contrats légaux, bordereau d’expédition, formulaires gouvernementaux, licences d’utilisation, certificats, catalogues, etc.

Grâce à l’OCR et à la numérisation, en plus de l’archivage numérique, la comparaison entre les documents est possible et beaucoup plus simple.

Vous pouvez vérifier les écarts et informations contradictoires dans vos systèmes. Par exemple, les chèques peuvent être vérifiés pour valider le bon montant et les factures peuvent être comparés aux comptes à recevoir et aux paiements reçus, etc.

Finalement, en numérisant vos documents, vous les rendez disponibles pour fins d’analyse statistique. Cette activité peut vous donner très rapidement des pistes d’amélioration pour les processus pour votre entreprise.

L’OCR est la première phase critique de la transformation des enregistrements analogiques en documents numérique.

Si vous voulez en savoir plus, quelques références et documents (en anglais) intéressants sur le sujet :

Adversarial examples : nouvelle méthode pour valider vos modèles de Deep Learning

La rapide croissance des performances des outils utilisant l’intelligence artificielle (IA) soulève plusieurs questionnements et inquiétudes. Malgré que ces technologies soient présentées comme infaillibles, sommes-nous prêts à les inclure dans des infrastructures critiques? Pensons par exemple à des systèmes prenant des décisions de manière autonome pour la santé ou la sécurité des citoyens. Qu’arriverait-il si […]

Continue reading

Prédire le désabonnement de clients grâce à l’apprentissage machine

Depuis plusieurs années déjà, les entreprises mettent en place des moyens colossaux pour atténuer le désabonnement et maintenir leurs clientèles. Cette problématique est importante dans l’industrie des fournisseurs de service comme Vidéotron, Netflix ou encore Microsoft Office 365. Rien d’étonnant lorsque l’on sait que plusieurs recherches prouvent qu’il coûte presque 50 fois plus cher d’aller […]

Continue reading

Initiation au Deep Learning avec Google Colab

Le Deep Learning et la science des données deux sujets à la mode qui sont sur toutes les langues! Vous aimeriez vous initier mais ne savez pas comment configurer un environnement de développement Python sur votre ordinateur pour vos premiers projets. Dans cet article, je vous présenterai les nombreux avantages d’un outil Cloud, simple, gratuit […]

Continue reading