قضية الكلمات المسروقة – كارنر سكيب

قضية الكلمات المسروقة – كارنر سكيب

قضية الكلمات المسروقة(*)

أراد المؤلف أن يُعِدَّ برمجيات قادرة على الخوض في بحور المصطلحات
الطبية. وانتهى به المطاف إلى الكشف عن عمليات واسعة النطاق لانتحال(1)
مؤلفات الغير وعمليات تزوير محتملة تقدر بمئات الملايين من الدولارات.

<H. «سكيپ» گارنر>

باختصار-1

في عام 1994 اكتشفتُ نفسي من جديد. ولكوني متخصصا في الفيزياء ومهندسا لدى الشركة GeneralAtomics، أسهمت في إحدى الخلايا البحثية الفكرية الداخلية المسؤولة عن الإجابة عن الأسئلة الصعبة التي ترد من شتى أنحاء الشركة. وعلى مدى سنوات، عملت على مشاريع متنوعة تمتد مواضيعها من الانصهار البارد وحتى الطائرات الموجّهة الضارية. وفي أوائل التسعينات من القرن الماضي تعاونتُ كثيرا مع علماء في البيولوجيا وآخرين في علم الوراثة، الذين كانوا يتطرقون أمامي إلى التقانات المذهلة التي يحتاجون إليها لإجراء بحوثهم؛ فأهرع إلى محاولة ابتكارها.

وكان قد نمى إلى علمي في ذلك الوقت أن جهودا جديدة تبذل في إطار مشروع الجينوم البشري(2). والهدف منه هو فك شيفرة decipher سلسلة مؤلفة من نحو ثلاثة بلايين قاعدة من قواعد الدنا DNA، أو كودات حروفه، في صبغيات (كروموسومات) chromosomes البشر. وقد أبهرني ذلك وأثار شغفي. وكنت قد قرأت مقالا في هذه المجلة يشير إلى أن بعض التقانة الضرورية لهذا المشروع لم يتم ابتكارها بعد، وأن ذلك يتوقف على عزم علماء الفيزياء والمهندسين. وقبل معرفتي بكل ذلك، كنت قد عُيّنتُ أستاذا في المركز الطبي للمقاطعة الجنوبية الغربية في جامعة تكساس، حيث عملتُ مع شريكي في مجال العلوم، وهو متخصص بعلم الوراثة، على إنشاء أحد المراكز البحثية الأولى لمشروع الجينوم البشري.

كل شيء بدا مختلفا هناك. فقد كان زملائي يتكلّمون لغة مختلفة هي لغة الطب، في حين أنني كنت أتكلم لغة الفيزياء. ففي الفيزياء هناك معادلات أساسيّة تحكم كل شيء تقريبا. أما في الطب، فلا وجود لمعادلات شاملة – بل مجرد عدد كبير من الملاحظات، وبعض الإلمام بموضوعات متقطعة صغيرة وكم هائل من المصطلحات الطبية الخاصة. وكان عليّ أن أحضر الحلقات الدراسية وأن أدوّن قوائم ضخمة من الكلمات التي لم أسمع بها من قبل، ومن ثم عليّ أن أقضي ساعات طويلة بحثا عن معانيها في القواميس. وكان لابدّ من وجود قاموس طبي في متناول يدي.

ونظرا للشعور بالإحباط الذي ألمّ بي جرّاء عجزي عن فهم النصوص المتلاصقة، فقد قررت أن أضع برمجية تساعدني على ذلك. وكنت في حاجة إلى محرك بحث قادر على التقاط جزء من النص، وإلى التزوّد بمراجع بهدف مواصلة الاطلاع على مقالات، وكذلك إلى ملخصات وأوراق من شأنها أن تساعدني على التعجيل باستيعاب الموضوع الذي بين يديّ. فقد كانت هذه التجربة عسيرة. فمحركات البحث المخصصة لشبكة الإنترنت مازالت في نعومة أظفارها. صحيح أنها كانت مفيدة في العثور على أفضل مطعم للفلافل في المدينة، لكنها بدت عاجزة عن استيعاب فقرة تحتوي على مفاهيم متعددة متداخلة ومترابطة، وعن إحالتي إلى قراءات ذات صلة بها.

وشرعت مع بعض الطلبة والباحثين في مرحلة ما بعد الدكتوارة في دراسة تقنيات تحليل النصوص، وتمكّنا معا من وضع برمجية تدعى eTBLAST (أداة بحث أساسية محلية إلكترونية لمواءمة النصوص (3)). وقد جرى استلهامها من أداة البرمجيات BLAST المستخدمة في البحث في قواعد بيانات الدنا وسلاسل البروتينات. وكان أي استفسار يوجه إلى أداة البرمجيات BLAST يتألف عادة من سلسلة من حروف الدنا تتراوح ما بين 100 إلى 400 حرف، ويعيد سلاسل أطول تتضمن تلك الكودات codes. أما الاستفسار الموجه إلى البرمجيةeTBLAST، فكان يتألف من فقرة أو صفحة واحدة – تتكون في العادة من 100 كلمة أو أكثر. وكان تصميم نظام البحث هذا أشد صعوبة من تصميم برمجية لاستطلاع تسلسل من الحروف(4) لأن محرك البحث لا يمكن أن يعمل بصورة حرفية وحسب، بل يجب عليه أيضا أن يتعرف على المترادفات والمختصرات والأفكار المتصلة ببعضها التي يتم التعبير عنها بكلمات مختلفة، كما يجب عليه أن يراعي أيضا ترتيب الكلمات. وللإجابة عن استفسار لجزء من نص، فإن البرمجية eTBLAST تظهر لنا قائمة مرتبة من النتائج التي جمعتها من قاعدة البيانات(5) التي يجري البحث فيها، إلى جانب قياس للتشابه بين الاستفسار وبين كل ملخص تم العثور عليه.

.

      وقاعدة البيانات التي من البديهي أن يتم البحث فيها هي قاعدة البيانات Medline (التي يتيحها برنامجPubMed في الموقع pubmed.org)، وتشكل المستودع الذي تحتفظ فيه المكتبة الوطنية للطب في المعاهد الوطنية للصحة بجميع البحوث البيولوجية ذات الصلة بالطب. وهي تحتوي على عناوين وملخصات لملايين الأوراق البحثية التي استخرِجت من آلاف المجلات المحكّمة. وكان لدى قاعدة البيانات Medlineمحرك بحث يعمل على أساس الكلمات المفتاحية، وعليه فإن استفسارا مؤلفا من بضع كلمات – على سبيل المثال، «جينات سرطان الثدي» – يعطينا الكثير من النتائج التي غالبا ما تكون مزوّدة بطرائق الوصول إلى النصوص الكاملة للبحوث. وبوصفي باحثا حديثا في مجال الطب الأحيائي، فقد كنت أجهل حتى كيف أبدأ عمليّات البحث.

وكانت الإصدارات الأولى للبرمجية eTBLAST تستغرق ساعات لمقارنة فقرة مؤلفة من بضع مئات من الكلمات بما يقابلها في قاعدة البيانات Medline. لكن البرمجية نجحت في العمل، وتمكنتُ باستخدام البرمجية eTBLAST من شقّ طريقي عبر الأوراق العلمية، ومعرفة معانيها بإتقان فقرة تلو أخرى. فكنت أمرّر فيها مُقتَرحا(6) لأطروحة لخريج جامعي وأهرع إلى التعجيل بالحصول على الكتابات الوثيقة الصلة بالموضوع. حتى إنني قمت مع شركائي في البحث بالاتصال بشركة «گوگل» بشأن الترويج لبرمجيتنا، لكننا فوجئنا بأنها لا تتلاءم مع نموذج العمل الذي تتبعه هذه الشركة.

بعد ذلك أخذت الأحداث تتخذ منعطفا غريبا. فوجدت لمرات عديدة أن النص الوارد في مشاريع الطلبة كان مطابقا لنص وارد في مقالات أخرى لم يتم ذكرها. وكان الطلبة يتلقون تدريبا على أخلاقيات التصحيح والعلاج. ومن ثم وجدت نفسي وجها لوجه أمام سؤال بحثي من شأنه أن يغير مساري المهني: ما هي كمية الكتابات المتخصصة بالطب الأحيائي التي تعرضت للانتحال من قبل آخرين؟

شُوهِد من قبل(**)

حين شرعت في البحث في هذا السؤال الجديد، كانت البحوث المتعلقة بالانتحال في مجال الطب الأحيائي تتألف من دراسات استقصائية(7). وفي أحدث هذه الدراسات، اعترف الباحثون بأنهم يمارسون الانتحال بنسبة 1.4 في المئة من الوقت. إلا أن دقة تحديد هذا الرقم تعتمد على مدى أمانة القائمين على الدراسة الاستقصائية. وبمساعدة البرمجية eTBLAST، كان بإمكاننا معرفة ما إذا كان الدارسون صادقين أم لا.

وبمجرد حصولنا على مساعدة كافية من الطلبة وعلى حاسوب قوي بما فيه الكفاية، قمنا بانتقاء الملخصات عشوائيا من قاعدة البيانات Medline واستخدمناها كاستفسارات في البرمجية eTBLAST. وعندئذ يُجري الحاسوب مقارنة بين نص الاستفسار وبين محتويات قاعدة البيانات Medline بأكملها بحثا عن أوجه التشابه، ثم يعيد قائمة من النتائج المزوّدة بمقدار درجة التشابه. وكان الاستفسار الذي يرد جوابه في أوّل القائمة يحقق تشابها تاما، أي بنسبة 100%. أما النتائج التالية، فتصل درجة التشابه فيها إلى 30%، ومع ذلك كنا نجد بين الحين والآخر أن النتيجة الثانية وأحيانا الثالثة تتسم بدرجات تشابه تقارب 100%. وبعد إجراء بضعة آلاف من الاستفسارات، بدأنا نلمس أن نحو خمسة في المئة من الاستفسارات لديها درجات مرتفعة من التشابه بشكل مثير للريبة. فاستعرضنا تلك الملخصات بالعين المجردة للتأكد من أن البرمجية تعثر على أشياء يعتبرها الإنسان متشابهة. ومن ثم انطلقنا إلى مقارنة النصوص الكاملة للمقالات التي تتشابه ملخصاتها بشكل مريب.

وسرعان ما بدأنا نعثر على أمثلة صارخة على الانتحال – ليس في شكل عبارات أعيدت صياغتها فحسب، بل في هيئة مقالات برمتها؛ مما رفع الستار بأكمله عن كل ما هو مزيف. وكان الأمر مخيّبا للآمال لا بل مثيرا للذهول. صحيح أن الدراسات الاستقصائية تشير إلى أن 1.4 في المئة من الباحثين يعترفون بممارسة الانتحال، لكن الأمر هنا بدا مختلفا تماما حين رأينا أمثلة على أوراق منتحلة مصفوفة جنبا إلى جنب. وكانت القضية مثيرة بالنسبة إلى الطلبة بوجه خاص. فقد أحسوا بأنهم يقومون بمحاربة الجريمة، وهذا ما كانوا يفعلونه إلى حد ما.

وتمثلت الخطوة التي تلت ذلك بتوسيع نطاق الحوسبة والتحليل. وتحقيقا للشمول، أردنا القيام بعملية بحث عن التشابه في كل مدخل يتسم بطول كاف في قاعدة البيانات Medline – وفي ذلك الوقت كانت لدينا قرابة تسعة ملايين مدخل يحتوي كل منها على 300 كلمة في المتوسط، مضروبة تقريبا في تسعة ملايين عملية مقارنة. واستغرقت المهمة شهورا واستهلكت كمّا كبيرا من طاقة مختبراتنا الحاسوبية. وعند ظهور النتائج، أخضعناها للتحليل ووضعنا جميع النتائج الشديدة التشابه في قاعدة بيانات واحدة أطلقنا عليها اسم شُوِهد من قبل Déjà Vu.

وسرعان ما أخذت قاعدة البيانات Déjà Vu تمتلئ بأزواج من الملخصات المشابهة للغاية لملخصات قاعدة البيانات Medline – فكان هنالك نحو 000 80 زوج من النصوص التي أظهرت تشابها بنسبة 56 في المئة على الأقل. وكانت الغالبية العظمى من تلك الأزواج متشابهة جدا لأسباب وجيهة للغاية – ذلك أنها كانت مجرد تحديثات لأوراق قديمة، أو ملخصات لاجتماعات، على سبيل المثال. أما أزواج النصوص الأخرى، فكانت مثيرة للريبة.

وقدمنا بحثا إلى مجلة Nature احتوى على بيانات تتعلق بمدى تكرار حالات الانتحال وازدواج المنشورات (ما يسمى أحيانا الانتحال الذاتي(8))، وعلى بعض التفاصيل المتعلقة بمحتوى قاعدة البيانات DéjàVu، وبعض الأمثلة الأساسية (مجلة ساينتفيك أمريكان هي جزء من مجموعة Nature للنشر). فقد قَبِل المحررون بذلك، لكن المحامين مزقوا البحث لأننا أشرنا إلى بعض الملخصات بوصفها منتحلة. وكانت وجهة نظرهم مقنعة جدا: فالأشخاص الوحيدون الذين يفتون بشأن الانتحال هم المحررون ولجان استعراض الشؤون الأخلاقية. ولم يكن بوسعنا إزاء ذلك سوى عرض الحقائق فحسب – أي كمية النصوص المتداخلة أو المتشابهة في قطعتين من الكتابات العلمية. وهذا ما فعلناه في نهاية الأمر بعد أن حظينا بموافقة المحامين.

وحين خرج تقرير مجلة Nature قامت الدنيا ولم تقعد. فقد أثار ذلك استياء المحررين لأنه ألقى على كاهلهم عملا إضافيا. وتَوخِّياً لحماية حقوق التأليف والنشر الخاصة بهم، أصرّ محررو أوراق البحث الأصلية على سحب أوراق البحث التي تَمّ انتحالها. ولا شك في أن الناشر الثاني شعر بالإحراج. أما العلماء، فقد انتابهم الغضب لأن النتائج التي توصلنا إليها أظهرت عيوبا في التحكيم. بيد أن الجميع اعترفوا على مضض بأن هذا الموضوع مهم وينطوي على مشكلة خطيرة. فالعلماء والأطباء السريريون يتخذون قرارات حاسمة استنادا إلى الكتابات التي اطلعوا عليها. فكيف تبدو الصورة إذا كانت تلك القرارات مستندة إلى دراسات يشوبها الغش؟

وفي نهاية الأمر توصلنا إلى أن 0.1 في المئة من المنشورات المتخصصة منتحل بشكل صارخ من أعمال الآخرين. (وقد بحثنا فقط عن أوراق البحث التي كانت مطابقة لبعضها إلى حد كبير. وعلى الرغم من وجود الكثير من الأمثلة التي انتحلت فيها أجزاء صغيرة من الأوراق، فإن برمجيتنا لم تتمكن من كشف هذه الأمور لأنها لم تبحث إلا في الملخصات.) وكان هناك نحو واحد في المئة من الأوراق تَمَّ انتحالها ذاتيا؛ حيث إنَّ عمل أحد المؤلفين ظهر بشكل حرفي تقريبا في عدد من المجلات يصل إلى خمس مجلات. وإذا بدت هذه النسب ضئيلة، فإنه تجدر الإشارة إلى أن نحو 000 600 ورقة بحث جديدة في مجال الطب الأحيائي يتم نشرها سنويا.

ومنذ مدة قصيرة لاحظنا أن عملية النشر قد بدأت تشهد بعض التغير. فقد بدأ محررو المجلات باستخدام البرمجية eTBLAST للتدقيق في الأوراق المقدمة إليهم. وإزاء هذا التغيير غيرت طريقتي أيضا وطورت نفسي مجددا مضيفا إلى اختصاصات عملي بندا اسمه «باحث في الأخلاقيات»(9).

 

حياتي كشرطي في مجال الأخلاقيات(***)

لم تكن الدراسة الضخمة الأولى بشأن الانتحال سوى البداية. ففهم أسباب الانتحال وما يترتب عليه من تبعات على العلوم يستدعي قدرا أكبر من العمل. فمتى يكون النص المكرر مقبولا؟ ولماذا يقوم العلماء بالانتحال ومتى؟ وما هي الأنواع الأخرى من السلوك غير الأخلاقي التي تستطيع تحليلات النصوص كشف النقاب عنها؟ وهكذا قمنا بتنقيح برمجياتنا وتوسيع قواعد البيانات الخاصة بنا والشروع في دراسات جديدة.

وكشفت بعض الأعمال التي قمنا بها لاحقا فروقات دقيقة غير متوقعة في الجدل الدائر حول الانتحال. وتبين لنا أن التشابه في النصوص ليس فقط مقبولا في بعض الحالات، بل إنه يحظى بالتفضيل. ففي القسم المتعلق بالطرائق في ورقة بحثية، على سبيل المثال، حيث تُعطى الأهمية القصوى لإعادة توليد النتائج، تعمل العبارات غير الأصلية على تلبية غرض مهم وهو الإظهار بوضوح أن البروتوكول نفسه تماما قد اعتمد.

كما أننا عثرنا على بعض الهفوات الأخلاقية المريعـة بالفعل. ففي دراسة نشرت في مجلة Science، قمنا بجمع أكثر الأمثلة الصارخة على الانتحال التي تمكنا من العثور عليها – أزواج من أوراق البحث التي تتطابق فيها ورقتا بحث بمعدّل 86% – وأخضعناها للتحليل بشكل مستفيض. ومن ثم أرسلنا بالبريد الإلكتروني إلى المؤلفين والمحررين المعنيين نُسخا من هذه البحوث مزوّدة بهوامش ودراسات استقصائية سرّية، وسألناهم عما إذا كانوا يعلمون بالتشابه، وما هو تفسيرهم لذلك، وقد تلقينا الردود من تسعين في المئة منهم.

فقد كشف بعض المؤلفين عن انتهاكات فاضحة للأخلاقيات، بينما اعترف البعض بأنهم قاموا بنسخ أوراق البحث أثناء تقييمهم لها – وبأنهم أعطوا تقييما سيّئا لها من أجل عدم نشرها. وألقى آخرون مسؤولية ارتكاب الأخطاء على طلبة وهميين في مجال الطب. وورد على لسان أحد المؤلفين أنه مارس الانتحال على سبيل الدعابة. وصدف أن كان هذا الشخص هو نائب رئيس اللجنة الوطنية للأخلاقيات في بلده. ومن غير المستغرب إزاء ذلك أن يكون قد جرى سحب معظم الأوراق التي يشوبها الغش منذ ذلك الحين.

ولم تكن حالات الانتهاك هذه هي الأخيرة التي عثرنا عليها. ففي مطلع عام 2012، شرعنا في البحث عن حالات الانتفاع المزدوج من المنح والهبات – أي الحصول على المال من وكالات حكومية متعددة لتنفيذ العمل نفسه. فقمنا بتنزيل ملخصات لقرابة 000 860 منحة صادرة عن وكالات حكومية أو خاصة، بما في ذلك المعاهد الوطنية للصحة والمؤسسة الوطنية للعلوم ووزارة الدفاع ووزارة الطاقة ومؤسسة <سوزان كومين> من أجل العلاج، وأخضعناها لمعالجة البرمجية eTBLAST. وتطلبت الدراسة عمليات مقارنة بلغ عددها 000800 مضروبة في 000 800 (أي 1012 تقريبا) وقدرة حاسوبية فائقة.

وبعد استعراض ملخصات المنح الأكثر تشابها والبالغ عددها 1600 ملخص، تبين لنا أن نحو 170 زوجا من البحوث كانت لديها غايات أو أهداف أو فرضيات متطابقة. وخلصنا بالتالي إلى عدة أمور، وهي: أن الانتفاع المزدوج يحدث بشكل متسق منذ وقت طويل؛ وأنه يشمل أشهر الجامعات الأمريكية المرموقة، وأن الخسائر الناجمة عن ذلك والتي لحقت ببحوث الطب الأحيائي بلغت حجما كبيرا وصل إلى 200 مليون دولار سنويا.

 

مستقبل النشر العلمي(****)

تقوم نسبة ضئيلة من الناس على الدوام بخرق المعايير المجتمعية، والعلماء لا يختلفون عنهم في ذلك. ففي الأوقات العصيبة، التي يصحبها انكماش في التمويل ومنافسة متزايدة الشدة على الوظائف الأكاديمية، ينحو بعض العلماء إلى إساءة التصرف. والواقع أن الفورة الأخيرة للمجلات غير الموثوق بها أدت إلى تحويل النشر العلمي إلى ما يشبه عرضا غربيا متوحشا Wild West show. إذ أضحى من السهل أكثر من أي وقت مضى إيجادُ مكان لنشر أي مادة حتى ولو تم انتحالها بشكل سافر.

وتوفر تحليلات النصوص أداة جيدة للتحكم في التصرفات السيئة وضبطها. لكنها قد تعمل في نهاية الأمر على ما يتجاوز منع حدوث الانتحال؛ وهو تهيئة الفرصة لقيام طرائق جديدة كليا لتقاسم البحوث وتقديم بحوث مشتركة.

ومن الأفكار المحيّرة تلك التي تتمثل باعتماد نموذج ويكيبيديا: أي تكوين مدونة دينامية إلكترونية من العمل في موضوع يعمل العلماء باستمرار على تنقيحه وتحسينه. وكل «منشور»(10) جديد يشكل مساهمة في الكتلة المتنامية للمعرفة؛ وبالتالي تصبح الأجزاء المتعلقة بالأساليب المكررة عديمة الجدوى. ويمثل نموذج ويكيبيديا خطوة إلى الأمام باتجاه قاعدة بيانات مركزية لجميع المنشورات العلمية في الاختصاصات كافة. ففي استطاعة المؤلفين والمحررين التنقيب عن النصوص للتحقق من حداثة بحث جديد وتطوير المعايير الموثوق بها للأثر الناجم عن فكرة أو اكتشاف. ومن الناحية المثالية، فبدلا من قياس تأثير ورقة بحث معينة عن طريق قياس عدد الاستشهادات(11) التي تحظى بها، يمكن القيام بقياس مدى تأثيرها في كامل معارفنا العلمية وحتى في المجتمع.

وفي معهد فرجينيا التقاني(12) حيث انتقلتُ إلى العمل منذ أربع سنوات، كنا نناضل من أجل الحفاظ على عمل البرمجية eTBLAST التي ما زال لديها آلاف المستخدمين. وكنا في ذلك الوقت، أنا وزوجتي وشريكتي في العمل <K. منيير>، نثق بأهمية تحليل النصوص وجدواه. فنحن نعمل من أجل تطبيق البحث عن التشابه على أساس حجم الفقرة الذي أسفر عن الكشف عن حالات كثيرة من الانتحال وسرقتها إلى أطراف أخرى، بما في ذلك إدارة المنح وبحوث السوق وبذل العناية الواجبة بشأن براءات الاختراع. فهل يعني هذا أننا قد أسّسنا «گوگل» التالي؟ من يعلم؟ لكنني أتكلم انطلاقا من تجربتي حين أقول إن تحليل النصوص يمكن أن يكون كشّافا فعلا. وهنا تأكدت أن العلماء يرتكبون انتهاكات ملكية فكرية أو سرقات أدبية شأنهم في ذلك شأن الآخرين منا.

(مجلة العلوم – أغسطس2014)


 

المؤلف:

Harold “Skip” Garner

<گارنر> أستاذ علوم الأحياء وعلوم الحاسوب والطب في معهد فرجينيا التقاني Virginia Tech، وصاحب أعمال وسلسلة من المشاريع. وقد شارك في تأسيس الشركة Helio Text، وهي شركة معنية بتحليل النصوص، ويعمل في هيئة المستشارين لمجلة ساينتفيك أمريكان.


مراجع للاستزادة

A Tale of Two Citations. Mounir Errami and Harold Garner in Nature, Vol. 451, pages 397–399; January 24, 2008.
Responding to Possible Plagiarism. Tara C. Long et al. in Science, Vol. 323, pages 1293–1294; March 6, 2009.
Systematic Characterizations of Text Similarity in Full Text Biomedical Publications. Zhaohui Sun et al. in PLOS ONE, Vol. 5, No. 9, Article No. e12704; September 15, 2010.
Research Funding: Same Work, Twice the Money? Harold R. Garner et al. in Nature, Vol. 493, pages 599–601; January 31, 2012.


(*)THE CASE OF THE STOLEN WORDS

(**)DÉJÀ VU

(***)MY LIFE AS AN ETHICS COP

(****)THE FUTURE OF SCIENTIFIC PUBLISHING


(1) plagiarism
(2) the Human Genome Project
(3) electronic Text Basic Local Alignment Search Tool

(4) a string of letters

(5) the database
(6) proposal

(7) survey؛ أو: مسحية.

(8) self-plagiarism

(9) ethics researcher

(10) publication

(11) citations

(12) Virginia Tech

*مجلة العلوم

error: المحتوى محمي