How to use CD-Hit ?

0517021 羅佳華

關於CD-Hit


CD-Hit是由 Dr.Weizhong Li 發展的一個蛋白質或核甘酸序列比對分群軟體,可以用於幫助使用者找到具有代表性的序列,在合理的時間內處理巨量的序列資列,降低使用者手上資料的複雜度,減少後續計算需求。
剛推出時的著重於針對蛋白質序列的分群,目前對於DNA序列、次世代定序的原始短序列也有相對應的程式可供使用,使它的應用更為廣泛。



CD-Hit 程式的選擇

使用者可依不同的使用需求,選擇下載不同功能的CD-Hit程式,各程式說明如下:

CD-HIT : 利用序列相似程度將蛋白質進行分群。

CD-HIT-2D : 對兩個蛋白質序列集合進行去重複。

CD-HIT-EST : 利用序列相似程度將DNA進行分群。

CD-HIT-EST-2D : 對兩筆DNA序列集合進行去重複。

CD-HIT-454 : 去除為了454定序而複製出的大量重複測序片段。

CD-HIT-OTU : 用於物種分類,將rRNA序列依照給定閾值歸類進不同的OTUs。

CD-HIT-DUP : 用於辨認Illumina複製的片段。

CD-HIT-LAP : 用於辨認重疊的測序片段。