Le CV à deux colonnes et les systèmes ATS : Les défis de l'analyse d'un fichier PDF

mins read

Qu'est ce qu'un Système de Suivi des Candidats ou ATS ?

Un système de suivi des candidats (ATS) est un logiciel utilisé par les entreprises pour gérer leur processus de recrutement.

Il centralise l'ensemble du flux de travail, de la collecte des CV à la publication des offres d'emploi en passant par la communication avec les candidats.

Un aspect qui préoccupe souvent les chercheurs d'emploi est la fonctionnalité d'analyse de CV, qui effectue une présélection des candidats. De nombreux postulants craignent que leur CV ne soit rejeté si sa mise en forme n'est pas correctement reconnue par l'ATS.

Est-ce que le format de mon CV peut interférer avec l'ATS ?

En réalité, c'est difficile à dire. Les ATS sont des systèmes fermés et leur code source n'est pas public, ce qui rend difficile de déterminer si le format ou la mise en page d'un CV affecte son classement. Cependant, cela serait très dommageable pour une entreprise de rejeter un CV parfaitement adapté s'il n'est pas correctement analysé par le système.

Que puis-je faire ? Dois-je uniquement utiliser un CV à colonne unique ?

L'outil d'analyse basique d'un ATS recherche des mots-clés spécifiques dans un CV. Honnêtement, à moins que votre CV ne soit un simple fichier texte, de nombreux facteurs peuvent altérer la capacité du logiciel ATS à le parser correctement. Et cela reste vrai même si votre CV est constitué d'une unique colonne. Par exemple, un espacement un peu exagéré des lettres dans les titres des sections peut empêcher l'ATS de reconnaître ces titres comme des mots.

Mais faisons un simple test.

Notre test

Afin d'avoir une meilleure idée de la difficulté d'analyse d'un CV PDF à deux colonnes, nous avons effectué un test rapide avec différents analyseurs de PDF.

Nous soumettrons un faux CV PDF à chacun de ces analyseurs et vérifierons si le texte brut résultant :

  • contient tous les mots du CV original et ne comporte aucun contenu supplémentaire par rapport au CV original.
  • ne mélange pas certains mots dans des sections différentes de celles du CV d'origine (par exemple, une certification qui se retrouve dans la section des langues).

Le CV au format PDF que nous utiliserons

Outil1: PDFTOTEXT

L'utilitaire pdftotext sous Ubuntu / Linux s'appuie sur la bibliothèque Poppler, qui est une bibliothèque open-source de rendu de PDF. Poppler lui-même est basé sur Xpdf, un visualiseur et une bibliothèque PDF plus anciens.

C'est une bibliothèque ancienne, mais toujours très populaire et extrêmement rapide.

Experience
Senior Engineer
Google - San Francisco

June 2019 - Now

• Led a team to overhaul the backend messaging system based on

ARTHUR
WALKER

Scala Software
Engineer
Contact
Address :
Crocker, San Francisco, USA
Phone :
+1 (555) 555 5555
Email :
arthur.walker@dummym.com

Languages
English
Native
Japanese Started learning
in 2020

Links
LinkedIn
Github

Skills

Apache Kafka. This involved developing new components and
architectures, optimizing existing systems, and ensuring that the
system is secure and performant.
• Responsible for designing and developing data pipelines and APIs,
maintaining uptime and scalability, and providing technical guidance
and support to other teams.

Engineer - Scala & Kafka
Twitter

January 2015 - May 2019

• Developed and deployed microservices using Scala , Go in a team
of 4 coders
• Analyzed the existing systems and identified areas of improvement
• Developed and deployed high-availability and fault-tolerant services
• Collaborated with other teams to ensure smooth delivery of
services, and adapt microservices REST routes

Backend Engineer
Freshworks

Jan 2011 - Nov 2014

• Leveraged Google Cloud Platform to manage a Kafka cluster
deployed in Kubernetes and managed various aspects of the cluster,
such as scaling, security, and performance.
• Developed custom connectors using Kafka Connect API to integrate
with other Google services such as BigQuery and Dataproc.

Freelance Ruby On Rails coder
Self employed

Dec 2006 - Aug 2010

For various clients :
• Developed and maintained Ruby on Rails web applications to
enable users to store and access data on demand
• Designed and implemented a RESTful API utilizing Ruby on Rails
and Postgresql to integrate with existing systems
• Leveraged TDD to ensure the quality and correctness of the code
• Created custom rake tasks to automate routine tasks
• Collaborated with other developers to ensure the application was
up to industry standards

Scala
Apache Kafka

Education

Java
Golang

BS in Computer Science

Ruby on Rails

UC Berkeley - Berkeley

Mongo DB
HTML5 / CSS3

2001 - 2005



Comme vous pouvez le constater :

  • Tous les mots sont présents.
  • Le contenu des deux colonnes est mélangé. En effet, le CV commence par l'expérience. L'outil a d'abord analysé la colonne principale. Cependant, dès la première ligne de la dernière expérience professionnelle du candidat, il bascule vers les données de la colonne latérale.

Outil2: Apache Tika 2.6.0

Apache Tika est une boîte à outils d'analyse de contenu qui détecte et extrait des métadonnées et du texte à partir de divers types de documents (pas seulement des PDF).

ARTHUR
WALKER

Crocker, San Francisco, USA

+1 (555) 555 5555

arthur.walker@dummym.com

English Native  
Japanese Started learning

in 2020
 

LinkedIn
Github

Google - San Francisco

Twitter

Freshworks

Self employed

Scala Software
Engineer

Contact

Address :

Phone :

Email :

Languages

Links

Skills

Scala
Apache Kafka
Java
Golang
Ruby on Rails
Mongo DB
HTML5 / CSS3

Experience

Senior Engineer
June 2019 - Now

• Led a team to overhaul the backend messaging system based on
Apache Kafka. This involved developing new components and
architectures, optimizing existing systems, and ensuring that the
system is secure and performant. 
• Responsible for designing and developing data pipelines and APIs,
maintaining uptime and scalability, and providing technical guidance
and support to other teams.

Engineer - Scala & Kafka
January 2015 - May 2019

• Developed and deployed microservices using Scala , Go in a team
of 4 coders
• Analyzed the existing systems and identified areas of improvement
• Developed and deployed high-availability and fault-tolerant services
• Collaborated with other teams to ensure smooth delivery of
services, and adapt microservices REST routes

Backend Engineer
Jan 2011 - Nov 2014

• Leveraged Google Cloud Platform to manage a Kafka cluster
deployed in Kubernetes and managed various aspects of the cluster,
such as scaling, security, and performance.
• Developed custom connectors using Kafka Connect API to integrate
with other Google services such as BigQuery and Dataproc. 

Freelance Ruby On Rails coder
Dec 2006 - Aug 2010

For various clients :
• Developed and maintained Ruby on Rails web applications to
enable users to store and access data on demand
• Designed and implemented a RESTful API utilizing Ruby on Rails
and Postgresql to integrate with existing systems
• Leveraged TDD to ensure the quality and correctness of the code
• Created custom rake tasks to automate routine tasks
• Collaborated with other developers to ensure the application was
up to industry standards

Education

BS in Computer Science
UC Berkeley - Berkeley 2001 - 2005

mailto:arthur.walker@dummym.com
https://www.linkedin.com/
https://www.github.com/

Avec Tika :

  • Tous les mots sont présents dans le texte final.
  • Le contenu des deux colonnes est mélangé, même si c'est légèrement mieux qu'avec la bibliothèque Poppler. L'analyseur commence par afficher les données de la colonne latérale. Il analyse également des données qui sont cachées par la bibliothèque Poppler, comme les adresses e-mail ou les URL de liens. De plus, le contenu des sections "Expérience" et "Formation" n'est pas mélangé avec d'autres sections.

Apache Tika donne de meilleurs résultats que Poppler, en particulier en ce qui concerne les sections principales "Expérience" et "Formation", dont le contenu n'est pas mélangé avec une autre colonne et est reproduit fidèlement. Si un ATS utilise un analyseur sémantique sur le texte du CV, nous obtiendrons ici de meilleurs résultats.

Outil3: PyPDF2

PyPDF2 est également un outil populaire, mais il donne des résultats mitigés sur notre CV. Le contenu de la section "Expérience" est préservé, mais il semble avoir des difficultés à analyser les sections à contenu plus court, comme les listes. De plus, il ne respecte pas le flux du texte aussi bien que les outils précédents. Extrait :

ARTHUR
WALKER
Crocker, San Francisco, USA
+1 (555) 555 5555
arthur.walker@dummym.com
English Native  
JapaneseStarted learning
in 2020 
LinkedIn
GithubGoogle -San F rancisco
Twitter
Freshworks
Self emplo yed
Scala Softwar e
Engineer
Contact
Address :
Phone :
Email :
Languages
Links
Skills
Scala

Outil4: Parsr

Parsr est un outil basé sur PDFMiner et utilise en plus des outils OCR tels que Tesseract. Il est développé par la société française AXA et peut être trouvé ici: https://github.com/axa-group/Parsr

C'est un outil modulaire et hautement personnalisable, ce qui le rend légèrement plus difficile à utiliser et probablement moins polyvalent que les autres outils testés ci-dessus. Il a été difficile d'obtenir des résultats cohérents pour notre CV et les meilleurs résultats que nous ayons pu obtenir n'ont pas dépassé TIKA ou PDFTOTEXT.

Conclusion

L'analyse de fichiers PDF est notoirement délicate. La plupart des analyseurs ont du mal à interpréter les documents comme le ferait un humain. Cependant, trois analyseurs sur quatre parviennent tout de même à afficher tous les mots tels qu'ils apparaissent sur le CV original. Egalement tous les mots des sections "Expérience" et "Formation" sont fidèlement reproduits, et un analyseur, Tika, parvient même à capturer intégralement ces deux sections.

Avec des outils avancés comme l'API ADOBE et les récentes avancées en intelligence artificielle, je suis convaincu que bientôt, tout CV pourra être analysé avec précision et sans erreur.

Chez CVdunk, nous sommes partisans des CV à deux colonnes ! Ce format comble certaines lacunes, offre des avantages uniques et peut être une bonne solution pour de nombreux candidats. Créez votre CV dès aujourd'hui avec CVdunk et profitez du meilleur de nos modèles de CV à une et deux colonnes !