Une étude du Pew Research Center intitulée “When Online Content Disappears” (Quand le contenu en ligne disparaît) montre que notre Internet bien-aimé est peut-être en train de disparaître du bout de nos doigts : un quart de toutes les pages web qui ont existé entre 2013 et 2023 ne sont plus accessibles.
Contrairement à la croyance populaire selon laquelle tout ce qui est publié sur l’internet est voué à exister pour toujours, l’étude révèle que 38% des pages qui existaient rien qu’en 2013 sont désormais perdues. Ce phénomène ne semble pas lié à l’âge des pages.
Même les pages les plus récentes semblent disparaître : 8% des pages qui existaient en 2023 étaient également inaccessibles.
L’étude utilise Common Crawl, un référentiel de données ouvert pour l’exploration de sites web qui archive des milliards de pages web et met les archives et les ensembles de données à la disposition du public. Les chercheurs ont prélevé des échantillons aléatoires de plus d’un million de pages web, puis ont vérifié les liens pour voir lesquels étaient encore actifs et lesquels étaient partis vers les grandes archives d’informations perdues dans le ciel.
Les résultats ont montré que 23% des pages d’actualités et 21% des sites web gouvernementaux examinés contenaient au moins un lien rompu, et que 54% des pages de Wikipédia contenaient une référence qui n’existe plus. Cela fait beaucoup de faits qui ne peuvent plus être raisonnablement vérifiés.