بعد فترة وجيزة من تولي إدارة ترامب منصبه في الولايات المتحدة في أواخر يناير ، تم تخفيض أكثر من 8000 صفحة عبر العديد من المواقع الحكومية وقواعد البيانات ، نيويورك تايمز وجد. على الرغم من استعادة العديد من هذه الأشياء الآن ، إلا أن آلاف الصفحات تم تطهيرها من الإشارات إلى جنس مبادرات التنوع والتنوع ، على سبيل المثال ، لا تزال أخرى بما في ذلك موقع الوكالة الأمريكية للتنمية الدولية (USAID).
بحلول 11 فبراير ، أ حكم القاضي الفيدرالي أن الوكالات الحكومية يجب أن تعيد وصول الجمهور إلى الصفحات ومجموعات البيانات التي تحتفظ بها مراكز السيطرة على الأمراض والوقاية منها (CDC) وإدارة الغذاء والدواء (FDA). بينما فر العديد من العلماء إلى الأرشيف عبر الإنترنت في حالة من الذعر ، من المفارقات ، رجادل وزارة العدل بأن الأطباء الذين جلبوا القضية لم يتعرضوا للأذى لأن المعلومات التي تمت إزالتها كانت متوفر على أرشيف الإنترنتآلة wayback. رداً على ذلك ، قاضٍ فيدرالي كتب“لم يتم إقناع المحكمة” ، مشيرًا إلى أن المستخدم يجب أن يعرف عنوان URL الأصلي لصفحة مؤرشفة لعرضها.
تقول الحجة القانونية للإدارة “كانت قليلاً من جائزة مثيرة للاهتمام”. مارك جراهاممدير آلة Wayback ، الذي يعتقد أن حكم القاضي هو “Apropos”. على مدار الأسابيع القليلة الماضية ، تلقى أرشيف الإنترنت وغيرها من المواقع الأرشيفية اهتمامًا للحفاظ على قواعد البيانات الحكومية ومواقع الويب. لكن هذه المشاريع كانت مستمرة لسنوات. يقول جراهام إن أرشيف الإنترنت ، على سبيل المثال ، تم تأسيسه باعتباره مؤسسة غير ربحية مكرسة لتوفير وصول عالمي إلى المعرفة منذ ما يقرب من 30 عامًا ، وهو الآن يسجل أكثر من مليار عناوين URL كل يوم.
منذ عام 2008 ، استضاف أرشيف الإنترنت أيضًا نسخة يمكن الوصول إليها من نهاية أرشيف الويبالتعاون الذي يوثق يتغير إلى مواقع الحكومة الفيدرالية قبل تغيير الإدارة وبعدها. في أحدث مجموعة ، قام بالفعل برؤوس أكثر من 500 تيرابايت من المواد.
الزحف التكميلي
يقول جراهام إن قوة أرشيف الإنترنت هي النطاق. “يمكننا في كثير من الأحيان [preserve] الأشياء بسرعة ، على نطاق واسع. لكن ليس لدينا خبرة عميقة في التحليل. ” وفي الوقت نفسه ، تقدم مجموعات مثل مبادرة البيانات والحوكمة البيئية ورابطة الصحفيين للرعاية الصحية المساعدة للناشطين والأكاديميين الذين يحددون التغييرات وتوثيقها.
انضم مختبر الابتكار المكتب في كلية الحقوق بجامعة هارفارد أيضًا أرشيفها من data.govمجموعة 16 تيرابايت تتضمن أكثر من 311،000 مجموعة بيانات عامة ويتم تحديثها يوميًا ببيانات جديدة. بدأ المشروع في أواخر عام 2024 ، عندما أدركت المكتبة أن مجموعات البيانات غالبًا ما يتم تفويتها في زحفات الويب الأخرى ، كما يقول جاك كوشمانمهندس برمجيات ومدير لمختبر الابتكار المكتب.
“يمكنك أن تفوت أي شيء يجب أن تتفاعل مع JavaScript أو مع زر أو مع نموذج.” – جاك كوشمان ، مختبر ابتكار المكتبات
لا يواجه الزحف النموذجي مشكلة في التقاط ملفات HTML أو PDF أو CSV الأساسية. لكن أرشفة خدمات الويب التفاعلية التي تحركها قواعد البيانات تشكل تحديًا. سيكون من المستحيل أرشفة موقع مثل أمازون ، على سبيل المثال ، كما يقول جراهام.
إن مجموعات البيانات التي يعمل عليها مختبر الابتكار (LIL) تعمل على الأرشيف أمر صعب بالمثل. “إذا كنت تقوم بزحف ويب ونقر فقط من Link إلى Link ، كما يفعل Archive نهاية المصطلح ، فيمكنك تفويت أي شيء يجب أن تتفاعل مع JavaScript أو مع زر أو مع نموذج ، حيث يجب أن تسأل يوضح كوشمان: “للحصول على إذن ثم تسجيل شيء أو تنزيله”.
يقول: “أردنا أن نفعل شيئًا مكملاً لزحف الويب الحالي ، والطريقة التي فعلنا بها هي الذهاب إلى واجهات برمجة التطبيقات”. من خلال الانتقال إلى واجهة برمجة التطبيقات ، التي تتجاوز صفحات الويب للوصول إلى البيانات مباشرة ، يمكن لبرنامج LIL أن يجلب كتالوجًا كاملًا لمجموعات البيانات – سواء كان CSV أو Excel أو XML أو غيرها من أنواع الملفات – وسحب عناوين URL المرتبطة بها لإنشاء أرشيف. في حالة Data.gov ، كتب Cushman وزملاؤه نصًا لإرسال 300 استعلامات من شأنه أن يجلب 1000 عنصر لكل استعلام ، ثم اجتياز إجمالي 300000 عنصر لجمع البيانات. يقول كوشمان: “ما نبحث عنه هو المجالات التي ستفتح فيها بعض الأتمتة الكثير من البيانات الجديدة التي لن يتم إلغاء قفلها”.
كان العامل المهم الآخر لأرشيف LIL هو التأكد من أن البيانات كانت بتنسيق قابل للاستخدام. “قد تحصل على شيء في زحف الويب حيث [the data] يقول كوشمان: “هناك عبر 100000 صفحة ويب ، لكن من الصعب للغاية إعادتها إلى جدول بيانات أو شيء يمكنك تحليله”. إن جعلها قابلة للاستخدام ، سواء في تنسيق البيانات أو واجهة المستخدم ، يساعد في إنشاء أرشيف مستدام.
الكثير من النسخ تبقي الأشياء آمنة
إن مفتاح الحفاظ على بيانات الإنترنت هو مبدأ يمر بأقفال الاختصار: الكثير من النسخ تبقي الأشياء آمنة.
عندما عانى أرشيف الإنترنت من هجوم إلكتروني في أكتوبر الماضي ، قام الأرشيف بإسقاط الموقع لمدة ثلاثة أسابيع ونصف لتدقيق الموقع بأكمله وتنفيذ ترقيات الأمان. “المكتبات تقليديًا كان دائما يتعرض للهجوملذلك هذا لا يختلف “، يقول جراهام. كجزء من دفاعها ، الأرشيف لديها الآن عدة نسخ من المواد في المواقع المادية المتباينة ، داخل وخارج الولايات المتحدة سواء
“حكومة الولايات المتحدة هي أكبر ناشر في العالم” ، يلاحظ جراهام. وهي تنشر مواد حول مجموعة واسعة من الموضوعات ، و “الكثير منها مفيد للناس ، ليس فقط في هذا البلد ، ولكن في جميع أنحاء العالم ، سواء كان ذلك عن الطاقة أو الصحة أو الزراعة أو الأمن.” وحقيقة أن العديد من الأفراد والمنظمات يساهمون في الحفاظ على العالم الرقمي أمر جيد في الواقع.
“الهدف من ذلك هو أن تكون تلك النسخ متنوعة عبر كل مقياس يمكنك التفكير فيه. يجب أن تكون على أنواع مختلفة من الوسائط. يقول كوشمان: “يجب السيطرة عليها من قبل أشخاص مختلفين ، مع مصادر تمويل مختلفة ، بتنسيقات مختلفة”. “كل شكل من أشكال التشابه بين النسخ الاحتياطية يخلق خطر الخسارة.” يحتوي أرشيف Data.gov على نسخته الأساسية المخزنة من خلال خدمة سحابية مع الآخرين كنسخة احتياطية. يتضمن الأرشيف أيضًا برنامجًا مفتوح المصدر لتسهيل تكراره.
بالإضافة إلى الحفاظ على النسخ ، يقول كوشمان إنه من المهم تضمين توقيعات التشفير والجداول الزمنية. في كل مرة يتم فيها إنشاء أرشيف ، يتم توقيعه بإثبات تشفير لعنوان البريد الإلكتروني للبريد الإلكتروني ووقته ، والذي يمكن أن يساعد في التحقق من صحة الأرشيف.
تحد مستمر
منذ تولي الرئيس ترامب منصبه ، تمت إزالة الكثير من المواد من مواقع الويب الفيدرالية الأمريكية–يقول جراهام أكثر من الإدارات الجديدة السابقة. على نطاق عالمي ، ومع ذلك ، هذا لم يسبق له مثيل ، كما يضيف.
في الولايات المتحدة ، تم تغيير مواقع الويب الحكومية الرسمية مع كل إدارة جديدة منذ بيل كلينتون ، يلاحظ جيسون سكوت ، وهو “أخصائي أرشيف المجاني” في أرشيف الإنترنت والمؤسس المشارك لفريق أرشيف موقع الحفظ الرقمي. يقول سكوت: “هذا أكثر فوضوية”. لكن “الويب عبارة عن كيان عالي للغاية … Google هو أرشيف مثل السوبر ماركت هو متحف طعام.”
تعد مهمة المحفوظات الرقمية وظيفة صعبة ، خاصة مع وجود تراكم للمواقع التي كانت موجودة عبر تطور معايير الإنترنت. لكن هذه الجهود ليست جديدة. يقول سكوت: “لن يكون التراجع إلا من حيث مساحة القرص وموارد النطاق الترددي ، وليس العملية التي استمرت”.
بالنسبة إلى Cushman ، أكد العمل في هذا المشروع على قيمة البيانات العامة. يقول: “بيانات الحكومة التي لدينا مثل إشارة GPS”. “هذا لا يخبرنا إلى أين نذهب ، لكنه يخبرنا ما هو حولنا ، حتى نتمكن من اتخاذ القرارات. لقد ساعدني الانخراط معها لأول مرة بهذه الطريقة في تقدير الكنز الذي لدينا. “
من مقالات موقعك
المقالات ذات الصلة حول الويب