Archiver la presse web avec Prizmo

Régulièrement il m’arrive de devoir alimenter les revues de presse de clients et de plus en plus, ce sont des articles publiés sur le web.

La solution la plus rapide pourrait être de mettre un lien vers l’article original, mais c’est assez risqué si l’article disparaît ou change d’adresse. Alors je réalise des copies d’écran intégrales de l’article que j’archive. Le défaut majeur de cette technique c’est que l’article n’est qu’une image et qu’il est impossible d’en indexer ou copier le contenu.

Prizmo pour faire d’une image un texte

Ici et , vous saurez tout le bien que je pense de Prizmo qui, dans ces situations est d’une aide précieuse.

Une fois la copie d’écran réalisée, je l’insère dans Prizmo sur Mac pour lui faire reconnaître le texte. Si une copie d’écran est nécessairement « parfaite » en termes de cadrage et de qualité, il arrive parfois que la police utilisée sur le site d’origine pose problème (accents, caractères spéciaux, …).

Première solution, pointée par Raphael de l’équipe Creaceed, jouer sur les paramètres d’OCR. 2x voire 4x et le taux de réussite de la reconnaissance des caractères s’améliore.

reglages-ocr-prizmo

Mais cela peut rester imparfait et même plutôt galère avec les textes qui « tournent » autour d’une image ou d’une citation.

texte-tournant-web-prizmo

Corrigé, archivé : indexé !

Alors pour être certain du texte « reconnu », après avoir corrigé et réorganisé les zones dans Prizmo, je retourne sur le site pour copier les paragraphes et remplacer le texte reconnu des zones correspondantes. Quelques secondes de plus, pour un résultat « parfait ».

copier-coller-prizmo

Il ne reste plus qu’à exporter le fichier au format « PDF (image + texte accessible) » pour garder une archive que Spotlight saura indexer et que mon client pourra utiliser pour copier / coller des extraits.

export-prizmo

Téléchargez Prizmo sur le Mac App Store (44,99€), vous ne le regretterez pas !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>