ACCELERATE MULTIPLE SEQUENCE ALIGNMENT BY CLUSTER ALGORITHM USING RECONFIGURABLE HARDWARE

Document Type : Original Article

Authors

1 Electrical Engineering Department, Minia University, Minia Egypt

2 Electrical Engineering Department, Minia University, Minia Egypt,

3 Bio-Medical Engineering Department, Minia University, Minia, Egypt

Abstract

Sequence alignment of the human genome is a foundation problem in molecular biology; bioinformatician uses this similarity comparison between DNA, RNA, or protein sequences, to find the relationship between organisms or species, and for personal identification. With the next-generation sequencer, the rate of data generated is exponentially increasing the rate at which it cannot be computationally processed.
Traditional sequence alignment based on PC software's alignment tools requires several hours on state of the art workstations which cannot fulfill the increasing demand for this daily repetitive task. A hardware-based multiple sequence alignment architecture is described in this manuscript, expresses a comprehensive blueprint of the hardware implementation of small sequence alignment, for pair-wise global alignment technique to achieve high-throughput processing in a far shorter time using reconfigurable hardware, which provides better performance compared to the other platforms. The experiment was conducted for the simulation study to examine a Parallel Hardware Smith-Waterman algorithm based on Divide and Extended technique (PHSW-DE) on different FPGAs, which changing the curve of Big O notation, leads to GCUPS multiplied by a factor of 10(M-P), and about 690x faster than used software sequential algorithm. This work will conclude a solution and provide a reference to further accelerating sequence alignment on an FPGA-based architecture using a parallel algorithm. As a conclusion for this procedure, the whole human genome multiple sequencing alignment of K-Mer length can be done in less than one hour, to achieve a local hardware sequence alignment in every bioinformatics laboratory.
 
المحاذاة التسلسلية للجينوم البشري هي مشکلة أساسية في علم البيولوجيا الجزيئية ؛ يستخدم أخصائي المعلوماتبه البيولوجية مقارنة التشابه بين تسلسلات الحمض النووي ، الحمض النووي الريبي ، أو البروتين ، لإيجاد العلاقة بين الکائنات الحية . وللتعرف على الهوية الشخصية. باستخدام جهاز التسلسل من الجيل الثاني ، يزيد معدل البيانات التي يتم تخليلها يوميا زيادة کبيرة حتى اصبخ حجمها لا يمکن معالجته بطريقة حسابية او ان التحليل يستغرق أياما حتى يکتمل.
تتطلب محاذاة التسلسلات التقليدية المرتکزة على برامج الکمبيوتر عدة ساعات أو أيام وذلک على أحدث المعامل التي لا يمکنها تلبية الطلب المتزايد على هذه المهمة المتکررة يوميا. يوصف في هذه المقالة بنية محاذاة التسلسل المتعدد القائم على الأجهزة ( ال اف يى جى ايه )، ويعرض المخطط الشامل لتنفيذ تلک الأجهزة من محاذاة تسلسل معلوم ، لتقنية المحاذاة االمعتمده عالميا لتحقيق معالجة دقيقه في وقت أقصر بکثير عن برامج الکمبيوتر ، والتي توفر أداء أفضل مقارنةً بالطرق الأخرى. أجريت التجربة من أجل دراسة المحاکاة لفح ص خوارزمية سميث ووترمان المتوازية لتلک الأجهزة على أساس تقنية التقسيم والتجميع على مصفوفات مبرمجة حقليا مختلفة الإمکانيات منها الصناعية ومنها العسکرية الاستخدام ، مما يؤدي إلى تغيير منحنى تدوين کبير، مما يؤدي إلى زيادة معدل العمليات الحسابية في الثانية الواحدة ضرب بعامل عشره اس (ام-بى)، وحوالي 690مره أسرع من الخوارزمية التسلسلية للبرامج المستخدمة. يستنتج هذا العمل حلاً ويوفر مرجعا لمزيد من محاذاة التسلسل المتسارع على المصفوفات المبرمجة حقليا  باستخدام خوارزمية متوازية. وکنتيجة لهذا الإجراء ، يمکن إجراء محاذاة التسلسل المتعدد للجينوم البشري بأکمله بطول کمير (تسلسلات بطول ک)في أقل من ساعة واحدة ، لتحقيق توافق تسلسلي للأجهزة المحلية في کل مختبر معلوماتية حيوية بتکلفه اقل مما تستخدم حاليا.

Highlights

 

Keywords