BIOLOGI ONLINE

blog pendidikan biologi

Teknologi Text-Mining untuk Pengembangan Ilmu Biologi sebagai Ilmu Interdisipliner di Masa Depan

Marselina Tando, NIM 13506100

Program Studi Teknik Informatika

Sekolah Teknik Elektro dan Informatika

Institut Teknologi Bandung

Jln. Ganesha no. 10 Bandung 40132

Indonesia

email: se_tan_303@yahoo.co.id, if16100@students.if.itb.ac.id

 


Abstrak Pesatnya pertumbuhan repositori data teks menyulitkan orang-orang untuk mengakses informasi yang dibutuhkan dengan cara yang nyaman dan efektif. Permasalahan ini muncul sebagai dampak banyaknya informasi yang terintegrasi dalam teks yang kurang terstruktur. Akibatnya, komputer tidak dapat melakukan interpretasi dengan mudah. Dalam makalah ini, disajikan ulasan mengenai teknik text-mining dalam peranannya untuk menjawab kebutuhan masa depan dalam hal penyediaan informasi yang bermanfaat dan mudah diakses oleh khalayak umum. Sebagai contoh bidang aplikasi, dibahas mengenai ilmu biologi, sebagai salah satu ilmu interdisipliner yang memilki tingkat kompleksitas cukup tinggi dan tengah mengalami perkembangan pesat pada dekade ini. Contoh aplikasi langsung yang dibahas adalah mengenai pembuatan hipotesis dan pembuatan sistem ekstraksi informasi dan penjawaban query biologi. Pengembangan lebih lanjut dari konsep ini dapat diterapkan pada bidang keilmuan lainnya.

Kata Kunci: text-mining, ekstraksi informasi, ontologi, ekstraksi relasi, data mining,

 

1. PENDAHULUAN

 Era informasi telah mengakibatkan usaha penyimpanan data elektronik dalam jumlah yang sangat besar menjadi sulit untuk dilakukan. Perkembangan teknologi yang memungkinkan penemuan, pengembangan, dan pertukaran informasi dalam waktu yang cepat menimbulkan permasalahan yang sama pada repositori data : berlebihnya beban data yang harus disimpan. Hal ini juga menjadi masalah tersendiri bagi pengguna informasi, yaitu sulitnya untuk menemukan informasi yang benar-benar berguna dalam waktu yang singkat dan cara yang nyaman [3].

Biologi merupakan salah satu ilmu pengetahuan interdisipliner yang mengalami perkembangan pesat. Literatur, data, dan informasi yang berkaitan dengan biologi beserta cabang-cabangnya, seperti biosistem, biomedik, biologi molekular, dan bioinformatika, mengalami pertumbuhan secara kuantitas dengan persentase sekitar 10% setiap tahunnya. Bidang dengan kompleksitas tinggi ini menjadi salah satu area riset urtama dalam kurun waktu dua dekade terakhir [1].

Text mining menjadi kunci penting untuk menjawab permasalahan di masa depan mengenai pengaksesan informasi yang bermanfaat dengan jumlah data yang terus mengalami peningkatan. Sebagai contoh aplikasi, akan diulas mengenai pembuatan hipotesis dan sistem ektraksi informasi serta penjawaban query biologi [2].

                Dalam makalah ini, diterapkan sistematika sebagai berikut. Bagian pertama akan membahas pendahuluan, yaitu mengenai latar belakang dan sistematika penulisan makalah. Selanjutnya, akan dibahas mengenai penelitian terkait yang telah dilakukan sebelumnya. Di bagian berikutnya, akan dijelaskan mengenai tahap-tahap yang digunakan dalam text mining. Pada bagian keempat, akan dibahas mengenai aplikasi text mining dalam biologi sebagai ilmi interdisipliner. Sebagai penutup, akan disajikan kesimpulan dan arah pengembangan di masa depan yang diperoleh dari review makalah.

2. PENELITIAN TERKAIT

Dalam bagian ini dipaparkan mengenai penelitian-penelitian yang telah dilakukan sebelumnya. Pada bagian 2.1 dibahas mengenai penelitian yang telah dilakukan sebelumnya terkait dengan identifikasi entitas biologi, sedangkan pada bagian 2.2 dibahas mengenai penelitian yang telah dilakukan sebelumnya terkait dengan ekstraksi relasi biologis. Kedua penelitian tersebut memiliki peran penting dalam menyiapkan data setengah-jadi yang kemudian akan diolah lebih lanjut dengan teknik text mining untuk memperoleh informasi yang dibutuhkan.

2.1 Penelitian Terkait Identifikasi Entitas Biologi

Ekstraksi informasi dari suatu dokumen biologi sangat tergantung pada identifikasi entitas biologi dalam dokumen itu sendiri. Pada awalnya, proses identifikasi entitas dan pemberian tag masing-masing dilakukan secara manual. Namun, dengan perkembangan literatur teks dan data yang sangat pesat, tidak memungkinkan lagi untuk melakukannya secara manual. Beberapa pendekatan yang telah dilakukan dapat diklasifikasikan sebagai berikut [2].

(i)                   Pendekatan rule-based

Pendekatan ini menggunakan karakteristik morfolojik dan informasi Part-Of-Speech serta kata kunci untuk memberikan tag pada sebuah nama.

(ii)                 Pendekatan dictionary-based

Pendekatan ini melakukan identifikasi terhadap nama gen atau protein dengan melakukan pencocokkan terhadap entry dalam kamus, baru kemudian memberikan tag  tertentu.

(iii)                Pendekatan machine-learning-based

Teknik machine-learning  seperti Hidden Markov Model, Naive Bayes, dan Support Vector Machine telah berhasil diaplikasikan untuk membantu identifikasi nama entitas protein atau gen.

(iv)               Analisis statistik

Analisis statistik dilakukan untuk melakukan clustering terhadap abstrak dan melakukan identifikasi kata kunci yang terdapat dalam abstrak. Identifikasi term dan metode klasifikasi berdasarkan pembelajaran statistik ini secara umum dapat menangani tipe pengetahuan baru melakukan representasi dengan lebih efektif daripada pendekatan dengan rule-based dan dictionary-based.

(v)                 Pendekatan hibrid

Pendekatan hibrid memadukan pendekatan rule-based dan dictionary-based untuk identifikasi gen atau protein yang terdiri dari banyak kata. Walaupun hasil yang dicapai dengan metode ini cukup memuaskan, namun permasalahan sinonim tak spesifik belum dapat ditangani sepenuhnya.

2.2. Penelitian Terkait Ekstraksi Relasi Biologi

Meskipun identifikasi entitas dari teks telah cukup membantu untuk mendapatkan informasi lebih lanjut, namun inferensi terhadap isi dokumen membutuhkan lebih dari sekedar identifikasi entitas. Konteks dari entitas dalam sebuah dokumen dapat diturunkan dari analisis relasi antar-entitas dalam dokumen. Penelitian mengenai relasi ini sangat membantu dalam penerapan sistem ekstraksi informasi dan penjawaban query biologi yang akan dibahas lebih lanjut pada bagian selanjutnya. Beberapa pendekatan yang telah digunakan untuk melakukan ekstraksi relasi antraa lain sebagai berikut [2].

(i)                   Pendekatan co-occurence-based

Dengan pendekatan ini, setelah entitas biologi diekstrak dari dokumen, relasi diantaranya kemudian diturunkan dengan asumsi bahwa 2 entitas dalam kalimat atau abstrak yang sama dinyatakan berhubungan. Negasi dalam teks tidak diperhitungkan.

(ii)                 Pendekatan linguistic-based

Pendekatan ini umumnya menggunakan teknik shallow parsing untuk mengetahui lokasi kata kerja atau kata benda dalam suatu dokumen. Rule dikembangkan secara spesifik untuk mengekstrak kata-kata latar dari term yang didefinisikan sebelumnya dan memformatnya sebagai relasi.

(iii)                Pendekatan campuran

Pendekatan campuran ini dapat berupa mekanisme unsupervised learning untuk melakukan ektraksi relasi dari konsep ilmu tertentu. Sebagai contoh, dilakukan ekstraksi relasi antara konsep dalam biologi molekular dari abstrak jurnal MEDLINE yang merupakan bagian dari corpus GENIA [2]. Untuk tiap kalimat yang mengandung 2 entitas biologi, graf berarah dibuat untuk menunjukkan ketergantungan antara kedua entiti tersebut berdasarkan analisis linguistik. Meskipun akan terdapat banyak graf berarah dari ekstraksi awal corpus, hanya beberapa graf signifikan saja yang akan diidentifikasikan sebagai relasi biologi.

3. TAHAP-TAHAP DALAM TEXT-MINING

Jika proses data mining melakukan penemuan pengetahuan dari data yang sifatnya terstruktur, maka text mining menemukan dan melakukan ekstraksi pengetahuan dari data yang tidak terstruktur. Text mining melibatkan 3 aktivitas utama : (i) temu-balik informasi, yang mengumpulkan teks-teks yang relevan dengan kebutuhan, (ii) ekstraksi informasi, yang mengidentifikasi dan mengekstrak beberapa tipe spesifik dari informasi yang dicari, dan (iii) data mining, yang menemukan asosiasi antara potongan-potongan informasi yang diekstrak dari beberapa teks berbeda [1].

3.1    Tahap Temu-Balik Informasi

Tahap temu-balik informasi merupakan aktivitas untuk menemukan dokumen yang dapat menjawab kebutuhan informasi dengan menggunakan bantuan indeks. Hampir seluruh komputer pada saat ini menggunakan sistem temu-balik informasi secara frekuentif, seperti mesin pencari GoogleTM. Para pengguna yang memanfaatkan jasa mesin pencari ini harus menghadapi permasalahan yang sama : membaca dokumen yang sangat banyak untuk kemudian menemukan fakta yang dan menentukan apakah infornasi yang dibutuhkan terdapat di dalamnya.

Selain mesin pencari untuk tujuan yang tidak spesifik, telah banyak pula terdapat perangkat temu-balik informasi yang telah didesain secara spesifik untuk melakukan query terhadap basis data penerbit jurnal-jurnal yang berkaitan dengan ilmu tertentu. Beberapa contohnya antara lain sebagai berikut Textpresso, Query Chem, iHOP, dan PubMatrix [1].

3.2 Tahap Ekstraksi Informasi

Untuk melakukan identifikasi dan tabulasi dari fakta yang berada pada dokumen dalam kuantitas sangat besar, ekstraksi informasi merupakan teknologi yang sangat relevan untuk menjawab kebutuhan tersebut. Tujuan akhir dari aplikasi teknologi ini adalah untuk melakukan ekstraksi informasi dari teks tanpa mensyaratkan end-user perlu membaca  teks. Ekstraksi informasi dapat digunakan untuk mendukung layanan temu-balik fakta atau sebagai tahapan dalam melakukan text mining berbasiskan teks konseptual.

Gambar 2 Pemrosesan teks tak terstruktur menjadi teks terstruktur dengan teknik text mining

Term merupakan kunci untuk melakukan spesialisasi berdasarkan bidang ilmu karena merupakan penanda entitas biologi dalam dokumen. Sayangnya, penamaan entitas biologi ini tergolong cukup rumit dikarenakan ketidakakuratan dan inkonsistensi [1]. Variansi dari sebuah term harus dapat diidentifikasi, diindeks, dihubungkan, dan dipetakan ke basis data dan ontologi biologi yang sangat banyak. Ontologi sendiri merupakan konsep yang memegang peranan penting dalam text miningkarena konsep ini menyediakan interpretasi semantik terhadap teks serta membatasi interpretasi yang mungkin dari entitas biologi (Gambar 1) [4].

Penamaan entitas biologi merupakan tahap pertama dari ekstraksi informasi (Gambar 2). Tahapan ini bergantung pada pengenalan term secara otomatis, yang mengekstrak term dari koleksi dokumen dan memberikan label sebuah term tertentu. Mayoritas dari pendekatan yang dilakukan dalam konteks biologi adalah melakukan integrasi antara identifikasi dan klasifikasi term dalam satu tahap. Beberapa pendekatan tel2ah dibahas secara singkat pada bagian penelitian terkait, yaitu pendekatan rule-based, dictionary-based, dan machine-learning-based.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Setelah dilakukan identifikasi entitas biologi, teks kemudian dibagi-bagi menjadi token, untuk mengidentifikasi batas-batas dari kata dan kalimat, yang kemudian dilanjutkan dengan pemberian tag

(part-of-speech tagging). Pemberian tag ini merupakan aktivitas memberikan label seperti noun untuk kata benda, verb untuk kata kerja, dan adjective untuk kata sifat pada term dalam dokumen. Analisis sintaks kemudian dilakukan untuk menentukan potongan tekstual dari sebuah kalimat (Gambar 3).

Gambar 3 Part-of-Speech Tagging

3.3 Tahap Data Mining

Tahap data mining digunakan untuk menemukan asosiasi yang tidak ditemukan sebelumnya dari antara fakta-fakta yang telah diekstrak oleh tahapan sebelumnya. Tahap ini merupakan tahapan yang membungkus integrasi antara text mining dan data mining. Kebanyakan teknik data mining yang diterapkan pada biologi menggunakan asumsi bahwa data yang ada merupakan data biologi yang telah terstruktur dengan baik, tidak seperti data tekstual tak terstruktur yang digunakan dalam teknik text mining. Data tekstual tak terstruktur yang telah digunakan untuk meningkatkan performansi hasil PSI-BLAST (position spesific iterated BLAST), dan pencarian homolog sekuensial telah berhasil mengintegrasikan text mining dengan data mining untuk keperluan klasifikasi fungsional berbasis sekuens dari protein dengan menggunakan metode supervised machine-learning. Akan tetapi, karena cluster tersebut masih relatif sedikit yang melalui tahap validasi, text mining masih digunakan sebagai satu tahapan maju dari clustering ekspresi gen dan menginterpretasikan cluster tersebut melalui asosiasi dengan literatur dari penerbit.

 

4. TEXT-MINING DALAM BIOLOGI SEBAGAI ILMU INTERDISIPLINER

 

4.1 TEXT MINING DALAM PEMBUATAN HIPOTESIS

Biologi merupakan salah satu contoh bidang ilmu yang menunjukkan pergeseran kecenderungan pengetahuan sains dari cara berpikir yang digerakkan oleh hipotesis ke arah cara berpikir terintegrasi yang bersifat holistik, yaitu memadukan hipotesis dengan data. Data mengenai ilmu pengetahuan interdisiplin seperti biologi dapat ditemui dalam bentuk yang sangat beragam, seperti data terstruktur yang berasal dari basis data, data eksperimen, atau bahkan data tak terstruktur yang berasal dari teks bebas. Jumlah data tekstual yang bersifat tak terstruktur mengalami peningkatan yang sangat pesat hingga sangat sulit untuk menemukan pengetahuan dan membuat hipotesis sains tanpa penggunaan teknologi akstraksi pengetahuan, yang sangat bertumpu pada teknik data mining.

Dalam disiplin ilmu dengan data yang melimpah namun kurang berisi dalam hal hipotesis di dalamnya (seperti data gen fungsional dan biomedik), metode sains deduktif sulit untuk dipertahankan karena tidak dapat memberikan perkembangan terakhir dari ilmu pengetahuan tertentu dengan cepat. Untuk itu, pada saat ini penemuan pengetahuan dengan metode induksi yang digerakkan oleh data mengalami perkembangan yang pesat. Ciri khas metode ini adalah rapid mining kandidat hipotesis dari literatur-literatur, yang kemudian diuji dan divalidasi secara subsekuens dengan data eksperimen yang tersedia [1].

Dengan metode tersebut dapat dibuat koneksi antara beberapa argumen yang nampak terpisah dan tidak memilki korelasi apapun. Beberapa koneksi dari jurnal-jurnal dan informasi penerbit MEDLINE yang dibuat dengan metode ini antara lain sebagai berikut: (i) keterhubungan antara penyakit migraine dan defisiensi magnesium, yang telah divalidasi secara subsekuens melalui eksperimen, (ii) keterhubungan antara indomethacin dan gangguan Alzheimer, (iii) serta keterhubungan antara Curcuma longa dan gangguan retina. Dengan menggunakan teknik yang sama pula dan dengan berdasar kepada bukti literatur, dapat diberikan saran mengenai pemberian thalidomide untuk penanganan beberapa penyakit, seperti hepatitis C kronis dan gangguan pankreas akut [1].

Pembuatan hipotesis dengan text mining dilakukan berdasarkan fakta bahwa kemungkinan adanya keterhubungan atau asosiasi antara entitas atau fakta yang terpisah satu sama lain dapat terjadi. Kemungkinan-kemungkinan ini dimunculkan dan dipadukan dengan data-data yang ada, sehingga dapat menghasilkan informasi yang berguna.

4.2 TEXT MINING DALAM SISTEM EKSTRAKSI INFORMASI DAN PENJAWABAN QUERY BIOLOGI

Untuk memperoleh pemahaman yang lebih mendalam mengenai sistem ekstraksi informasi biologi ini, dibahas secara spesifik mengenai salah satu contohnya, yaitu BIEQA : Biological Information Extraction and Query Answering. BIEQA secara khusus dirancang untuk menerima teks atau dokumen biologi yang telah diberikan tag secara ontologis sebagai input dan melakukan ekstraksi dari informasi tersebut mengenai relasi yang menghubungkan dua konsep biologi dalam teks tersebut. Relasi hasil ekstraksi digunakan untuk membantu pengguna melakukan ekstraksi informasi dari dokumen teks dengan cara yang lebih efisien. Sistem ini dibuat khusus dengan menggunakan corpus ontologi GENIA dan bersifat spesifik untuk jurnal-jurnal yang ada dalam basis data penerbit MEDLINE.

Beberapa aspek unik dari BIEQA antara lain sebagai berikut.

(i)   Sistem menggunakan pendekatan yang mengintegrasikan pemrosesan bahasa alami dan teknik pencocokan pola untuk memperoleh seluruh relasi biologi yang terdapat dalam sebuah corpus. Sistem telah dirancang untuk bekerja dengan koleksi abstrak di mana entitas biologinya telah diberi tag sesuai dengan konsep ontologinya, bersama dengan ontologi yang menjadi input. Hal ini menginisiasi pattern mining dengan rangkaian konsep ontologi untuk mengekstrak relasi biologi di dalamnya.

(ii) Relasi biner yang telah diekstrak kemudian direpresentasikan dalam bentuk triplet berurut <Ci, R, Cj>, di mana Ci dan Cj merupakan konsep biologi dan R merupakan relasi biologi yang diperoleh dari corpus. Seluruh relasi diasosiasikan dengan nilai keanggotaan fuzzy, berdasarkan frekuensi relatif kemunculan relasi. Seluruh relasi didefinisikan pada level konseptual untuk memudahkan deskripsinya.

(iii)              Seluruh informasi relevan, seperti nama entitas biologi dan kategori biologisnya, serta  relasi biologi dan kemunculannya, seluruhnya dikumpulkan dalam sebuah basis data pengetahuan yang terstruktur. Basis pengetahuan ini kemudian diindeks berdasarkan relasi, entitas, dan konsepnya dengan menggunakan mekanisme indeks novel.

Secara umum, sistem yang dibahas memiliki 5 modul utama yang memilki peranan masing-masing yang terintegrasi dalam sistem [2].

(i)           Ekstraktor Entitas

Modul ini menerima masukan berupa abstrak makalah biologi yang telah mengandung tag dan mengekstrak nama entitas dari teks. Karena entitas dapat saja diselipkan dalam tag tunggal maupun ganda, maka diperlukan desain rule untuk melakukan pre-proses dan kemudian mengekstrak entitas biologi dari dokumen teks yang telah diberi tag.

(i)             Meta Language (ML) Tag Filter dan POS Tagger

Modul ini berfungsi untuk menyaring tag-tag ML dari dokumen input. Dokumen yang telah disaring kemudian dianalisa dengan bantuan POS (Part-of-Speech) Tagger untuk mengubah tiap kalimat ke dalam bentuk semi-terstruktur berbasiskan konsep.

(ii)           Biological Relation Extractor

Modul ini menggunakan rekord semi-terstruktur yang dihasilkan dari modul sebelumnya melalui kolaborasi dengan ontologi yang telah didefinisikan sebelumnya, untuk pertama-tama mengekstrak seluruh komponen informasi dan seluruh triplet relasi biologi (Ci, R, Cj).

(iii)                            Knowledge Base Manager

Modul ini menyimpan koleksi abstrak untuk melakukan ekstraksi informasi yang lebih efisian dari waktu ke waktu. Di dalamnya terdapat parser dokumen yang menyimpan lokasi terdapatnya relasi biologi dalam koleksi untuk membuat basis data yang telah terindeks menurut entitas, konsep, dan relasi.

(iv) Pemroses Query

Modul pemrosesan query menyediakan antar-muka query intelijen yang memungkinkan pengguna untuk membuat formulasi query pada tingkat spesifikasi yang berbeda-beda. Query yang dimasukkan oleh pengguna dapat mengandung informasi yang sederhana hingga kompleks, dapat meliputi pertanyaan mengenai eksistensi nama entitas tertentu hingga eksistensi sepasang entiitas atau konsep yang dihubungkan oleh relasi biologi tertentu.

 

 

5. KESIMPULAN

Teknologi text mining dapat diaplikasikan dalam berbagai area ilmu pengetahuan, termasuk biologi sebagai ilmu interdisipliner. Beberapa pengembangan text-mining dalam bidang biologi antara lain pembuatan hipotesis/kesimpulan secara induktif serta pembuatan sistem ekstraksi informasi biologi untuk identifikasi relasi dan akses literatur yang relevan.

Beberapa arah pengembangan text-mining untuk menjadi teknologi masa depan yang dapat membantu perkembangan ilmu pengetahuan antara lain sebagai berikut [1].

i)              i)    Tersedianya jurnal atau literatur dalam format full-text akan memberikan signifikansi yang cukup besar dalam performansi text-mining, mengingat masih banyaknya abstrak yang kekurangan informasi relevan di dalamnya.

ii)                      ii)   Integrasi text mining dengan data mining akan merintis pengembangan aplikasi yang lebih luas dalam berbagai bidang ilmu pengetahuan teori maupun terapan, seperti pencarian similaritas struktur kimiawi atau integrasi rekam medis dengan data gen dan bukti dari literatur untuk kepentingan aplikasi farmasi. Dengan memadukan aplikasi dengan konsep sistem tersebar, maka akan memberikan lebih banyak manfaat kepada masyarakat.

iii)   Pengembangan konsep text-mining  juga dapat dimanfaatkan dalam pembuatan model berdasarkan litaratur yang ada. Pembuatan model ini dapat diawali dengan perancangan model kualitatif atau struktural, yang biasanya diturunkan dari rangkaian gen dan kemudian dapat diintegrasikan dengan bukti yang diturunkan dari literatur melalui konsep text-mining.

Eksplorasi dan eksploitasi teknik data mining masih berada pada tahap awal pengembangan, namun telah mencapai kemajuan yang cukup pesat. Teknik ini diharapkan dapat menjadi alat yang dapat diandalkan oleh para ahli ilmu pengetahuan di masa depan untuk dapat melakukan ekstraksi informasi pengetahuan intersisipliner dengan lebih efektif dan efisien, yang pada akhirnya akan membawa kemajuan yang lebih pesat pada perkembangan ilmu pengetahuan secara keseluruhan.

 

 

DAFTAR REFERENSI

[1] Ananiaduo, Sophia. et al. (2006) Text mining and its appplications in systems biology.

[2] Abulaish, M. and Dey, Lipika. (2006) Biological relation extraction and query answering from MEDLINE abstracts using ontology-based text mining.

[3] Cohen, Aaron M. and Hersh, William R. (2004) A survey of current work in biomedical text mining.

[4] Spasic, Irene. et al. (2005) Text mining and ontologies in biomedicine : Making sense of raw text.

About these ads

10/28/2011 - Posted by | Uncategorized

Belum ada komentar.

Berikan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Logout / Ubah )

Twitter picture

You are commenting using your Twitter account. Logout / Ubah )

Facebook photo

You are commenting using your Facebook account. Logout / Ubah )

Google+ photo

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

Ikuti

Get every new post delivered to your Inbox.

Bergabunglah dengan 951 pengikut lainnya.

%d blogger menyukai ini: