Ilmuwan Dapat Merakit Seluruh Genom Di Komputer Pribadi
Para ilmuwan di Massachusetts Institute of Technology (MIT) dan Institut Pasteur di Prancis telah mengembangkan teknik untuk merekonstruksi seluruh genom (informasi genetik pada sel), termasuk genom manusia pada komputer pribadi. Teknik ini menghasilkan seratus kali lebih cepat daripada pendekatan mutakhir saat ini dan hanya menggunakan seperlima sumber daya. Studi yang diterbitkan 14 September di jurnal Cell Systems, memungkinkan representasi yang lebih ringkas dari data genom yang terinspirasi oleh kata-kata daripada huruf serta menawarkan blok bangunan padat untuk model bahasa.
“Kami dapat dengan cepat merakit seluruh genom dan metagenom, termasuk genom mikroba, pada komputer laptop sederhana,” kata Bonnie Berger (@lab_berger), Profesor Matematika Simons di Lab Ilmu Komputer dan AI di MIT dan penulis studi. “Kemampuan ini sangat penting dalam menilai perubahan mikrobioma usus yang terkait dengan penyakit dan infeksi bakteri, seperti sepsis, sehingga kita dapat lebih cepat mengobatinya dan menyelamatkan nyawa.”
Proyek perakitan genom telah berjalan jauh sejak Proyek Genom Manusia, yang selesai merakit genom manusia lengkap pertama pada tahun 2003 dengan biaya sekitar $2,7 miliar dan lebih dari satu dekade kolaborasi internasional. Tapi sementara proyek perakitan genom manusia tidak lagi memakan waktu bertahun-tahun, mereka masih membutuhkan beberapa hari dan kekuatan komputer yang besar. Teknologi sekuensing generasi ketiga menawarkan terabyte sekuens genomik berkualitas tinggi dengan puluhan ribu pasangan basa, namun perakitan genom menggunakan sejumlah besar data dan terbukti menantang untuk dikembangkan lebih lanjut
Untuk mendekati perakitan genom lebih efisien daripada teknik saat ini, yang melibatkan pembuatan perbandingan berpasangan antara semua kemungkinan pasangan, Berger dan rekannya beralih ke model bahasa. Dibangun dari konsep grafik de Bruijn, struktur data sederhana dan efisien yang digunakan untuk perakitan genom, para peneliti mengembangkan grafik minimizer-space de Bruin (mdBG), yang menggunakan urutan nukleotida pendek yang disebut minimizer, bukan nukleotida tunggal.
"Grafik ruang-minimimal de Bruijn kami hanya menyimpan sebagian kecil dari total nukleotida, sambil mempertahankan struktur genom keseluruhan, memungkinkan mereka menjadi besar urutannya menjadi lebih efisien daripada grafik de Bruijn klasik," kata Berger.
Para peneliti menerapkan metode mereka untuk mengumpulkan data HiFi nyata (yang memiliki akurasi pembacaan molekul tunggal yang hampir sempurna) untuk lalat buah Drosophila melanogaster, serta data genom manusia yang disediakan oleh Pacific Biosciences (PacBio). Ketika mereka mengevaluasi genom yang dihasilkan, Berger dan rekan menemukan bahwa perangkat lunak berbasis mdBG mereka membutuhkan sekitar 33 kali lebih sedikit waktu dan 8 kali lebih sedikit perangkat keras komputasi memori akses acak (RAM) daripada perakit genom lainnya. Perangkat lunak mereka melakukan perakitan genom untuk data manusia HiFi 81 kali lebih cepat dengan penggunaan memori 18 kali lebih sedikit daripada assembler Peregrine dan 338 kali lebih cepat dengan penggunaan memori 19 kali lebih sedikit daripada assembler hifiasm.
Selanjutnya, Berger dan rekannya menggunakan metode mereka untuk menyusun indeks untuk koleksi 661.406 genom bakteri, koleksi terbesar dari jenisnya hingga saat ini. Mereka menemukan bahwa teknik baru dapat mencari seluruh koleksi untuk gen resistensi antimikroba dalam 13 menit - sebuah proses yang memakan waktu 7 jam menggunakan penyelarasan urutan standar.
"Kami tahu representasi kami efisien tetapi tidak tahu itu akan menskalakan dengan baik pada data nyata, setelah pengoptimalan kode lebih lanjut," kata Berger.
"Gagasan keseluruhan hanya berfungsi dan tidak memerlukan beberapa langkah pra-pemrosesan yang biasanya mahal, seperti koreksi kesalahan, yang dilakukan oleh sebagian besar metode perakitan genom lainnya," kata Rayan Chikhi (@RayanChikhi), seorang peneliti dan pemimpin kelompok di Institut Pasteur sekaligus seorang penulis studi.
"Kami juga dapat menangani pengurutan data dengan tingkat kesalahan hingga 4%," tambah Berger. "Dengan sekuenser yang sudah lama dibaca dengan tingkat kesalahan yang berbeda menjadikan penurunan dalam harga; kemampuan ini membuka pintu menuju demokratisasi analisis data pengurutan."
Berger mencatat bahwa sementara metode saat ini berkinerja terbaik saat memproses pembacaan PacBio HiFi, yang berada jauh di bawah tingkat kesalahan 1%, metode ini mungkin akan segera kompatibel dengan pembacaan ultra-panjang dari Oxford Nanopore, yang saat ini memiliki tingkat kesalahan 5-12% tetapi mungkin segera menawarkan membaca di 4%.
"Kami membayangkan menjangkau ilmuwan lapangan untuk membantu mereka mengembangkan situs pengujian genomik yang cepat, melampaui PCR dan susunan penanda yang mungkin melewatkan perbedaan penting antara genom," kata Berger.
Pekerjaan ini didukung oleh National Institutes of Health, ANR Inception, PRAIRIE, dan PANGAIA.
Sumber : Materi disediakan oleh Cell Press, 2021