« Internet Archive » : différence entre les versions

Contenu supprimé Contenu ajouté
Jilucorg (discuter | contributions)
m accessibilité des articles : modèle 'Langue'
Regimminius (discuter | contributions)
(8 versions intermédiaires par 5 utilisateurs non affichées)
Ligne 19 :
}}
 
'''{{Langue|en|Internet Archive}}''' (ou '''IA''') est un [[Association à but non lucratif|organisme à but non lucratif]] consacré à l’[[archivage du Web]] qui agit aussi comme [[bibliothèque numérique]]. Ces [[archivage électronique|archives électroniques]] sont constituées de clichés [[instantané (informatique)|instantanés]] (copie de pagescopies prises à différents moments) de [[Page web|pages web]], de logiciels[[logiciel]]s, de [[Film (cinéma)|films]], de [[Livre (document)|livres]] et d’enregistrementsd’[[Format de fichier audio|enregistrements audio]].
 
Pour assurer la stabilité et la [[sécurité des données]] archivées, un [[site miroir]] fonctionnel est conservé à la [[Bibliotheca Alexandrina]] en [[Égypte]]<ref>{{Lien web |titre=International School of Information Science (ISIS) |url=http://www.bibalex.org/isis/frontend/archive/archive_web.aspx |site=www.bibalex.org |consulté le=2023-10-22}}</ref>. L’IA met gratuitement ses collections à la disposition des chercheurs, historiens et universitaires. Située dans le [[Richmond District (San Francisco)|Richmond District]], au sud du [[Presidio de San Francisco]], elle est membre de l'[[American Library Association]] et est officiellement reconnue comme bibliothèque par l'[[Californie|État de Californie]]<ref>{{Lien web |titre=Internet Archive Forums: Internet Archive officially a library |url=https://archive.org/post/121377/internet-archive-officially-a-library |site=archive.org |consulté le=2023-10-22}}</ref>.
 
Le [[robot d'indexation]] utilisé par IA est [[Heritrix]], un [[logiciel libre]]. Le logiciel de numérisation de livres, libre également, est Scribe<ref>{{Lien web |langue=en |titre=Scribe Software |url=https://sourceforge.net/projects/scribesw/ |site=SourceForge |date=2013-03-08 |consulté le=2023-10-22}}</ref>.
Ligne 36 :
=== Wayback Machine ===
 
La {{Anglais|[[Wayback Machine]]}} (littéralement « la machine à revenir en arrière ») est la partie des clichés du Web développédéveloppée par ''Internet Archive''. La ''Wayback Machine'' a été créécréée par [[Brewster Kahle]] afin de stocker et indexer tout ce qui se trouve sur le web<ref>{{lien web|auteur=Judy Tong|url=https://www.nytimes.com/2002/09/08/business/responsible-party-brewster-kahle-a-library-of-the-web-on-the-web.html|titre=Responsible Party - Brewster Kahle ; A Library Of the Web, On the Web|éditeur =''[[The New York Times]]''|date=8 septembre 2002}}</ref>. La Wayback Machine est mise à jour à partir du contenu d'[[Alexa (Internet)|Alexa]]. Ce service permet aux utilisateurs de voir les versions archivées de pages Web à travers le temps : c'est l'« index à trois dimensions ».
 
Les clichés sontpris disponiblesvia deleur sixpage à"[https://web.archive.org/save douzeSave]" moissont aprèsdisponibles leur captureinstantanément<ref>{{RéférenceLien web nécessaire|datelangue=22 octobre 2023}}<ref>Cetteen information|auteur=Wayback :Machine soit|titre=Backups demandefor uneGoogle.com clarification|url=https://web.archive.org/web/20240000000000*/Google.com ;|accès soiturl=libre est|site=Wayback erronéeMachine car|consulté la lecturele=27 de clichés anciens dejuillet plus de quinze ans est très fréquente.2024}}</ref>. La fréquence des [[instantané (informatique)|instantanés]] est variable, toutes les mises à jour de sites Web ne sont pas enregistrées, et des intervalles de plusieurs semaines peuvent être observés: cela est dû au fait que la plupart des captures sont faites quand les utilisateur du service demande à en faire.
 
En 2006, la Wayback Machine contenait près de deux [[pétaoctetOctet|pétaoctets]]s de données. Le volume augmente à un rythme de {{unité|20|[[téraoctet]]s}} par mois, soit une augmentation de deux tiers par rapport aux douze téraoctets par mois qui étaient le taux de croissance en 2003. Cette croissance est supérieure à la quantité de texte contenue dans les plus importantes bibliothèques du monde, notamment la [[Bibliothèque du Congrès]]. En 2009, la Wayback Machine contenait près de trois pétaoctets de données et son augmentation était de {{unité|100|téraoctets}} par mois<ref>{{Lien web |langue=en |auteur=Lucas Mearian |titre=The Internet Archive's Wayback Machine gets a new data center |url=https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html |accès url=libre |site=ComputerWorld |consulté le=27 juillet 2024}}</ref>. Les données sont archivées dans des systèmes fabriqués par Capricorne Technologies, des Petabox racks.
 
L'appellation « ''Wayback Machine'' » renvoie à des épisodes du ''[[The Rocky and Bullwinkle Show]]'', où M. Peabody, un chien à l'air professoral et son assistant Sherman (un animal de compagnie humain), utilisent une [[Voyage dans le temps|machine à remonter le temps]] appelée « WABAC Machine » pour décrire des évènements historiques célèbres<ref>{{en}} [http://www.businessweek.com/technology/content/feb2002/tc20020228_1080.htm A Library as Big as the World] - Heather Green, ''[[BusinessWeek]]'', 28 février 2002</ref>.
 
En 2015, la [[Russie]] aurait par erreur bloqué l'intégralité du site ''Wayback Machine''<ref>{{Lien web|url=http://www.zdnet.fr/actualites/the-wayback-machine-victime-de-surblocage-en-russie-39821624.htm|titre=The Wayback Machine, victime de surblocage en Russie|éditeur=[[ZDNet]]|consulté le = 2015-06-30}}</ref>.
Ligne 101 :
===== Healthcare Advocates, Inc. =====
 
En 2003, Healthcare Advocates, Inc. a été accusée dans un procès de violation de marque. La poursuite a tenté d'utiliser du matériel internet archivé accessible ''via'' Internet Archive. Après avoir perdu ce procès, la compagnie a tenté de poursuivre Internet Archive pour violation de la [[Digital Millennium Copyright Act|DMCA]] et le ''[[Computer Fraud and Abuse Act]]''. Ils ont fait valoir que, puisqu'ils avaient installé un fichier [[Protocole d'exclusion des robots|robots.txt]] sur leur [[Site web|site Web]], il aurait dû être évité par le robot d'IA<ref>{{en}} Jessica Dye, ''Website Sued for Controversial Trip into Internet Past'', ''EContent'', 28 (11): 8-9, 2005</ref>. La première plainte a été déposée le {{date-|26 juin 2003}}, et ils ont ajouté le fichier robots.txt, le {{date-|8 juillet 2003}}, les pages devant être retirées rétroactivement. Le procès s'est réglé à l'amiable<ref>{{Lien web |langue=en-us |prénom=Eric |nom=Bangeman |titre=Internet Archive settles suit over Wayback Machine |url=https://arstechnica.com/uncategorized/2006/08/7634/ |site=Ars Technica |date=2006-08-31 |consulté le=2023-10-22}}</ref>.
 
Robots.txt est utilisé dans le cadre du protocole d'exclusion des robots (''{{lang|en|Robots Exclusion Standard}}''), une norme d'application volontaire qu'IA applique et qui interdit aux robots d'indexer certaines pages marquées par le créateur comme hors limite. En conséquence, l'IA a supprimé un certain nombre de sites Web qui sont maintenant inaccessibles ''via'' la Wayback Machine. Ceci est parfois dû à un nouveau propriétaire qui plaçait un fichier robots.txt interdisant l'indexation du site. Les administrateurs disent travailler sur un système qui permettra l'accès aux archives précédentes tout en excluant les éléments créés après l'ajout du fichier.
Ligne 133 :
==== Procès contre quatre éditeurs ====
{{Article détaillé|contenu=Article connexe : {{lien|langue=en|trad=Hachette v. Internet Archive|fr=Hachette contre Internet Archive}}.}}
Pendant les interdictions de circuler liées au Covid-19, les bibliothèques sont fermées. Internet Archive met en place une ''National Emergency Library'', {{citation|Bibliothèque Nationale d'Urgence}} permettant un accès illimité aux livres numérisés. Ce ''prêt numérique contrôlé'' provenant d'ouvrages numériques de bibliothèques partenaires autorise l'emprunt d'un exemplaire à la fois par internaute, limite levée durant la période du Covid. Quatre éditeurs, Hachette, HarperCollins, Wiley et Penguin attaquent Internet Archive en justice aux États-Unis. Ils considèrent que cette mise à disposition des ouvrages est une violation des droits de [[copyright]] et contestent également que le fait de prêter une copie numérisée d'une œuvre, ce que fait l'Internet Archive, relève du ''[[Fair use]]''. En {{date-|mars 2023}}, la justice donne raison aux éditeurs et Internet Archive annonce son intention de faire appel<ref>{{lien web|url=https://www.nextinpact.com/article/71336/internet-archive-perd-son-proces-contre-hachette-et-compagnie|site=nextinpact.com|titre=Internet Archive perd son procès contre Hachette et compagnie|auteur=Martin Clavey|date=28 mars 2023}}.</ref>.
 
En {{date-|mars 2023}}, la justice donne raison aux éditeurs. Internet Archive décide de faire appel de la décision<ref>{{lien web|url=https://www.nextinpact.com/article/71336/internet-archive-perd-son-proces-contre-hachette-et-compagnie|site=nextinpact.com|titre=Internet Archive perd son procès contre Hachette et compagnie|auteur=Martin Clavey|date=28 mars 2023}}.</ref>. En attendant la suite de la procédure, quelque 500 000 références sont retirées de son catalogue, en même temps qu'il est fait appel aux témoignages des utilisateurs <ref>{{Lien web |langue=fr-FR |titre=Condamnée, Internet Archive retire 500 000 livres de sa bibliothèque |url=https://actualitte.com/article/117813/droit-justice/condamnee-internet-archive-retire-500-000-livres-de-sa-bibliotheque |site=ActuaLitté.com |consulté le=2024-06-27}}</ref>. La décision d'appel est attendue fin 2024 ou début 2025<ref>{{Lien web |langue=fr-FR |titre=Devant les juges, Internet Archive défend sa bibliothèque |url=https://actualitte.com/article/117915/droit-justice/devant-les-juges-internet-archive-defend-sa-bibliotheque |site=ActuaLitté.com |consulté le=2024-07-03}}</ref>.
 
== Notes et références ==
Ce document provient de « https://fr.wikipedia.org/wiki/Internet_Archive ».