How to use CD-Hit ?
0517021 羅佳華
關於CD-Hit
CD-Hit是由 Dr.Weizhong Li 發展的一個蛋白質或核甘酸序列比對分群軟體,可以用於幫助使用者找到具有代表性的序列,在合理的時間內處理巨量的序列資列,降低使用者手上資料的複雜度,減少後續計算需求。
剛推出時的著重於針對蛋白質序列的分群,目前對於DNA序列、次世代定序的原始短序列也有相對應的程式可供使用,使它的應用更為廣泛。
CD-Hit 程式的選擇
使用者可依不同的使用需求,選擇下載不同功能的CD-Hit程式,各程式說明如下:
CD-HIT : 利用序列相似程度將蛋白質進行分群。
CD-HIT-2D : 對兩個蛋白質序列集合進行去重複。
CD-HIT-EST : 利用序列相似程度將DNA進行分群。
CD-HIT-EST-2D : 對兩筆DNA序列集合進行去重複。
CD-HIT-454 : 去除為了454定序而複製出的大量重複測序片段。
CD-HIT-OTU : 用於物種分類,將rRNA序列依照給定閾值歸類進不同的OTUs。
CD-HIT-DUP : 用於辨認Illumina複製的片段。
CD-HIT-LAP : 用於辨認重疊的測序片段。