Protein

View in Explore

Genbank accession

CAB5208537.1 [GenBank]

Protein name

Collagen triple helix repeat

RBP type

TSP

Evidence DepoScope

Probability 1,00

Evidence RBPdetect2

Probability 0,88

Protein sequence

MTTPNYPVIEVNVESAIVDVNVDSTPGVYIEAGVQGPIGPQGATGPTGPTGPTGPTGPTGAASTVAGPTGATGPTGPTGATGPTGTQGPTGATGPTGTPGITGPTGPKGLDSTIAGSTGPTGNTGNTGATGPTGNTGTTGATGPTGNTGTTGATGPTGAASTVAGPIGATGPTGPTGTTGPTGAASTVPGPQGNTGATGPTGPTGNTGTTGATGPTGNTGTTGATGPTGPTGAKGATGPTGPTGTTGPTGAASTVAGPTGSTGNTGATGPTGPTGADSIIPGPTGPTGAKGATGPTGPTGPTGTGPTGPTGAKGATGPAGAGIDPTGTTHITNTTVSTDTTTGAFVVDGGVGVGKDIHVGGDFHIVGSGTLRVNDVDVLNYDPNVWYVSDNTGDDTLHSGHREWNAFKTIKKALSVALAGDTVFILPGEYEEVFPLTVPKGVSVRGSGLRESQVMSTIATNNLDAFLVSGESTISDITIKNMFYDAVNDTGYAFRFQNNAVVTSRSTYIERCTVLNKGSTTTSTDPYGFASGNAGRGAYIDGSQVTRTSIEAAMLFNECTFIVPNSRGIIITNGARTEVLTSFFYFADLALEGVVGATGRAGDGKTYLTLTGVSGSGFTVGETIRFTPSVGSPVDVVVDAVNGSKITVDGRETLLSETTTYTAILGLTSSTTATDLTRHDVGEFGAEVRTFATAQVYGNRAVKADGNGVRIHLIAHNFAYIGTGADLTNDRSAVVQANEAIETNGGQIYYNSIDQNGDFRVGSLFTVNGETGAVSFSGPAFDVNSLTGINFTDGTHTTTVNPTGITTGNLVLAGNTVSTISGNLIFDPASEISLSANTTVTGTLTVSTGVTVGSTSVINSSGQWTGSPTGLYGPTGPTGTAGYVGADGATGPTGPTGNTGPTGPTPVTTTYIAQSLSLTSGVYVSGSLSSIQTFDDGQSYAITDGSGTSPAWIIDVGFTGVTSFNQVDVNISYTQASGHVIYIQLYNNNTSTWDNIGNYSGLAGYTQFQLGVISGNPYINAGNVSARLYHSNSGNVSHQTFLDYVAVVDSISGGQGPRGATGPTGATGAGATGATGPTGNTGTTGATGPTGTTGNTGSTGPTGPTGVTGNTGATGPTGPTGTTGNTGATGPTGPTGPTGAGYDGVTSTTTATPASTGTITLTTNKQGAFITGSRVRAVNTTSNYFEGTVTITGGTSFAIAADYNLGTTAASSWTITSVGVRGVTGPTGPTGPTGTTGNTGATGPTGPTGTTGNTGATGPTGTTGNTGATGPTGNTGVTGATGPTGPTGVTGNTGATGPTGSGFDGVTSTTTATPASSGTITLTTTKQGAFVTGNRVRAVNTTSNYFEGIVTITGGTSFAIAADYNVGTTTATTWTITIAGVVGATGPTGPTGPTGSTGVTGATGPTGPTGNTGATGPTGPTGAASTVAGPTGPTGSTGLTGATGPTGPTGSTGLTGATGPTGPTGPTGAGYDSVTSTTSVTPASTGTITLTTNKQGAFVTGSRVRAFNAVSNYFEGIVTITGSTSFAIAADYNVGTTTAASWTITIAGVIGPTGPTGPTGTTGNTGATGPTGPTGSTGVTGATGPTGPTGTTGAASTVPGPTGPTGPTGSTGAASTVPGPTGPTGNTGTTGNTGATGPTGNTGSAGPTGPTGPTGTTGNTGATGPTGNTGSAGPTGPTGPTGTTGNTGATGPTGTTGNTGATGPTGTTGNTGPTGPTGTTGNTGATGPTGTTGNTGPTGPTGNTGAASTVPGPTGPTGNTGSAGPTGPTGTTGNTGPTGPTGPTGSTGAASTVPGPTGPTGSSGSSGPTGPTGSGSTGPTGPTGSSGTAPIDIYLQSLFWQ

Physico‐chemical properties

protein length:	1841 AA
molecular weight:	174624,16780 Da
isoelectric point:	4,62831
aromaticity:	0,04943
hydropathy:	-0,20570

Domains

Domains [InterPro]

DC_0620
STR
19–116

DC_0620 DC_1453 DC_0763 DC_1391 IPR008160 DC_1245 DC_0841

IPR050149
Unmapped
33–321

IPR050149 IPR011050 DC_2298 DC_1245 DC_0841 IPR008160

DC_0620
STR
100–189

DC_0620 DC_1051 DC_1245 DC_0620

CAB5208537.1

1 1841

Architecture

STR

STR 19-303 | STR 319-1837 |

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0620	STR	DC_0620	19	116	Novel HMM	DC_0620	Central	Low	Positional only	205 proteins / 205 hits
IPR050149	Unmapped	-	33	321	InterPro	Collagen superfamily	-	-	-	-
DC_0620	STR	DC_0620	100	189	Novel HMM	DC_0620	Central	Low	Positional only	205 proteins / 205 hits
DC_1453	STR	DC_1453	184	260	Novel HMM	DC_1453	Central	Low	Positional only	102 proteins / 102 hits
DC_1051	STR	DC_1051	251	303	Novel HMM	DC_1051	Central	Low	Positional only	8 proteins / 8 hits
DC_0763	STR	DC_0763	319	811	Novel HMM	DC_0763	Central	Low	Positional only	71 proteins / 71 hits
IPR011050	STR	IPR011050	384	579	Merged direct domain	Pectin lyase fold/virulence factor	Central	Low	Positional only	572 proteins / 572 hits
DC_2298	STR	DC_2298	796	948	Novel HMM	DC_2298	Central	Low	Positional only	339 proteins / 339 hits
DC_1391	STR	DC_1391	929	1110	Novel HMM	DC_1391	Central	Low	Positional only	28 proteins / 28 hits
DC_1245	STR	DC_1245	1088	1266	Novel HMM	DC_1245	Central	Low	Positional only	25 proteins / 25 hits
IPR008160	STR	DC_0536	1219	1273	InterPro cluster	Collagen triple helix repeat	C-terminal	High	Text match	355 proteins / 386 hits
DC_1245	STR	DC_1245	1252	1426	Novel HMM	DC_1245	Central	Low	Positional only	25 proteins / 25 hits
DC_1245	STR	DC_1245	1418	1602	Novel HMM	DC_1245	Central	Low	Positional only	25 proteins / 25 hits
DC_0841	STR	DC_0841	1594	1684	Novel HMM	DC_0841	Central	Low	Positional only	60 proteins / 60 hits
DC_0841	STR	DC_0841	1660	1755	Novel HMM	DC_0841	Central	Low	Positional only	60 proteins / 60 hits
IPR008160	STR	DC_0536	1691	1747	InterPro cluster	Collagen triple helix repeat	C-terminal	High	Text match	355 proteins / 386 hits
DC_0620	STR	DC_0620	1741	1837	Novel HMM	DC_0620	Central	Low	Positional only	205 proteins / 205 hits

Tail Spike Domain Segmentation

This protein has been segmented into three structural domains: N-terminal, central domain, and C-terminal.

Domain Layout

N-terminal

Central

C-terminal

CAB5208537.1

1 1841

Domain	Start	End	Length (AA)	Confidence
N-terminal	1	441	441	0,9590
Central domain	442	909	469	0,7497
C-terminal	910	1841	931	0,0283

Legend: N-terminal Central domain C-terminal

3D Structure with Domain Coloring

The structure is colored according to the domain segmentation: N-terminal (blue), Central (green), C-terminal (pink).

Domain Coloring

N-terminal
1-441

Central
442-909

C-terminal
910-1841

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	uncultured Caudovirales phage [NCBI]	2100421	Uroviricota > Caudoviricetes > Peduoviridae > Maltschvirus maltsch >
Host	No host information

Coding sequence (CDS)

Genbank protein accession

CAB5208537.1 [NCBI]

Genbank nucleotide accession

LR798231 [NCBI]

CDS location

range 23940 -> 29465
strand +

CDS

ATGACAACTCCGAATTATCCAGTAATAGAAGTTAACGTTGAAAGTGCAATAGTAGATGTTAATGTCGATTCAACCCCCGGCGTATATATTGAAGCTGGTGTGCAAGGACCGATTGGTCCACAAGGAGCTACTGGACCTACTGGACCTACTGGGCCTACTGGGCCTACTGGGCCTACTGGCGCGGCCTCAACCGTAGCAGGACCTACTGGAGCTACAGGACCAACAGGACCTACTGGAGCAACTGGGCCTACAGGTACACAAGGTCCTACTGGAGCAACTGGGCCAACAGGTACTCCTGGAATTACCGGACCGACCGGACCAAAAGGATTAGATTCAACTATAGCAGGCTCGACCGGCCCTACAGGCAATACTGGTAATACAGGCGCAACAGGACCCACTGGCAATACAGGAACAACAGGGGCAACAGGTCCTACAGGTAATACAGGAACAACAGGGGCAACTGGACCAACAGGTGCTGCTTCAACAGTGGCAGGACCAATCGGTGCCACCGGTCCCACAGGACCAACAGGTACTACGGGTCCAACAGGTGCCGCATCAACTGTTCCTGGCCCGCAAGGTAATACCGGAGCAACAGGACCTACAGGACCTACTGGTAATACAGGAACAACTGGAGCAACAGGCCCTACTGGTAATACAGGGACAACTGGTGCAACTGGACCTACAGGACCAACCGGCGCAAAAGGAGCAACAGGGCCAACAGGACCAACAGGTACTACGGGTCCAACAGGTGCTGCTTCGACAGTAGCTGGGCCTACAGGATCTACTGGTAATACAGGTGCTACTGGGCCCACAGGACCAACCGGCGCTGATAGTATTATACCTGGACCTACAGGACCAACCGGCGCAAAAGGAGCAACTGGCCCAACAGGACCTACTGGCCCAACCGGTACAGGCCCTACAGGACCAACCGGCGCAAAAGGAGCAACTGGCCCAGCAGGTGCCGGCATTGATCCAACAGGTACTACTCACATAACAAATACAACCGTATCAACAGATACAACAACAGGCGCCTTTGTTGTCGATGGCGGTGTTGGCGTTGGCAAAGATATACACGTAGGTGGAGACTTCCATATAGTTGGAAGTGGAACTCTTAGAGTCAACGATGTTGATGTTTTAAACTATGATCCCAACGTTTGGTACGTTAGTGATAACACAGGTGATGACACGCTACATTCCGGGCATAGAGAATGGAATGCTTTTAAAACTATTAAGAAAGCATTGTCTGTTGCTCTTGCTGGCGATACTGTGTTTATTCTACCAGGCGAATATGAAGAAGTATTCCCACTAACAGTTCCAAAAGGCGTTAGTGTACGTGGTAGTGGTCTACGTGAAAGTCAAGTAATGTCAACTATTGCTACAAACAATCTTGATGCGTTCCTAGTATCAGGCGAAAGTACCATTAGCGACATTACCATTAAAAATATGTTCTATGATGCTGTTAACGATACAGGCTATGCGTTCCGCTTTCAGAATAATGCTGTAGTCACTAGTCGCAGTACATACATTGAACGTTGTACAGTATTAAATAAAGGATCAACAACAACATCAACTGATCCATACGGCTTTGCTAGTGGTAATGCAGGACGCGGTGCATACATTGACGGTAGTCAAGTAACAAGAACTAGTATAGAAGCCGCAATGTTGTTTAACGAGTGTACATTTATTGTACCAAATAGCCGCGGTATTATTATAACCAACGGTGCTCGCACTGAAGTATTAACCAGCTTCTTTTACTTTGCTGATCTAGCCCTTGAAGGTGTTGTTGGAGCAACTGGACGTGCTGGAGATGGCAAGACTTACTTAACTCTAACTGGAGTTAGCGGTAGTGGATTTACAGTTGGTGAAACTATTAGATTTACTCCAAGTGTAGGCAGTCCTGTTGACGTCGTAGTTGACGCAGTTAATGGTAGTAAGATTACTGTTGATGGTCGTGAAACACTACTGTCAGAAACTACAACCTACACAGCTATTTTAGGTCTAACATCTAGTACAACTGCTACAGACTTAACACGCCACGATGTTGGCGAATTTGGTGCTGAAGTTAGAACATTTGCTACAGCACAGGTCTACGGTAATCGTGCTGTTAAGGCAGACGGCAACGGTGTTAGAATACATCTAATAGCACACAACTTTGCTTATATTGGTACAGGTGCTGACTTAACCAATGATAGAAGTGCTGTGGTACAGGCCAACGAAGCTATTGAAACAAATGGCGGACAAATTTATTACAATTCTATTGACCAAAACGGAGACTTTAGAGTTGGCTCATTGTTTACAGTCAACGGCGAAACAGGTGCTGTTAGTTTCTCTGGACCGGCGTTTGACGTAAACAGTTTAACCGGTATTAACTTTACTGACGGTACCCATACTACTACTGTTAATCCAACAGGCATTACTACAGGAAACTTAGTACTAGCTGGCAACACTGTTAGCACCATCTCGGGCAACTTAATATTTGATCCAGCGAGTGAAATTAGCCTTAGTGCTAATACAACTGTTACAGGAACATTAACTGTTTCAACAGGCGTTACAGTTGGTTCAACTAGTGTTATCAATTCAAGCGGCCAATGGACAGGTAGTCCAACGGGATTATATGGCCCAACAGGCCCTACAGGAACTGCTGGTTATGTTGGTGCTGATGGAGCAACCGGACCTACAGGCCCAACAGGCAACACTGGACCTACAGGACCTACTCCGGTTACTACAACATATATAGCTCAGTCATTAAGTTTGACCAGCGGTGTATATGTTTCAGGAAGTTTATCAAGCATACAGACATTTGACGACGGACAATCATATGCTATAACTGATGGCAGCGGTACTTCACCTGCGTGGATAATCGATGTTGGATTTACTGGGGTAACATCGTTTAATCAGGTTGACGTAAACATTAGTTACACACAAGCATCAGGGCACGTCATTTATATTCAGTTATATAATAACAATACAAGTACGTGGGATAATATTGGAAATTATAGCGGACTTGCTGGATACACTCAATTTCAATTAGGTGTTATTTCCGGTAATCCTTATATAAACGCAGGCAACGTTAGCGCAAGACTTTATCACAGTAATAGTGGTAACGTTAGCCATCAAACATTTTTAGATTATGTTGCTGTAGTTGATTCAATATCTGGCGGACAAGGTCCTCGCGGCGCCACAGGCCCAACTGGAGCAACTGGAGCAGGTGCTACTGGAGCAACAGGACCTACAGGTAATACCGGAACAACGGGTGCCACTGGACCTACCGGTACTACAGGGAATACTGGGTCAACAGGCCCAACAGGACCAACTGGTGTTACTGGCAATACTGGTGCTACTGGACCAACGGGTCCTACAGGTACTACGGGAAATACAGGTGCTACTGGCCCAACAGGACCTACAGGACCAACTGGTGCTGGGTATGACGGTGTTACTTCTACTACTACAGCAACACCTGCCTCAACAGGTACTATAACACTTACAACAAATAAACAGGGCGCATTTATTACTGGCAGTCGAGTAAGAGCTGTTAACACTACTTCTAATTACTTTGAAGGTACTGTAACAATTACAGGCGGAACAAGTTTTGCTATCGCCGCTGATTATAATTTAGGAACAACAGCCGCATCATCTTGGACAATTACATCTGTAGGTGTCCGCGGAGTTACAGGCCCAACTGGCCCAACTGGTCCTACAGGTACTACGGGAAATACAGGTGCTACTGGCCCAACAGGACCTACAGGTACAACGGGAAATACAGGTGCTACTGGACCTACAGGTACAACGGGAAATACAGGTGCTACTGGACCTACGGGCAATACAGGAGTAACTGGAGCAACAGGACCAACAGGACCAACTGGTGTTACTGGCAATACTGGGGCAACTGGCCCAACAGGTTCTGGGTTTGACGGAGTTACTTCCACTACTACAGCAACACCGGCAAGCTCTGGAACTATTACACTAACAACTACTAAACAAGGTGCGTTTGTCACTGGCAATCGTGTTCGTGCTGTTAATACTACATCAAATTATTTTGAGGGTATTGTAACAATTACTGGCGGTACTTCGTTCGCTATTGCCGCTGATTATAATGTTGGAACAACAACTGCTACTACCTGGACTATTACTATTGCTGGTGTTGTTGGTGCTACAGGACCCACAGGACCCACAGGACCTACAGGTAGTACTGGGGTAACTGGAGCTACCGGTCCTACTGGTCCTACGGGAAATACTGGCGCTACAGGACCTACAGGCCCTACAGGAGCCGCATCAACCGTAGCTGGTCCAACTGGCCCTACGGGAAGTACTGGATTAACTGGCGCTACAGGACCTACTGGCCCTACGGGAAGTACTGGATTAACTGGCGCTACAGGACCTACTGGACCTACAGGACCAACTGGTGCTGGATACGATAGTGTTACTTCTACTACTAGTGTTACACCAGCAAGTACTGGTACTATAACACTTACAACAAATAAACAAGGTGCGTTTGTTACTGGTAGTCGTGTAAGAGCATTCAATGCCGTAAGTAATTACTTTGAAGGTATTGTAACAATTACAGGTAGTACTTCATTTGCCATTGCGGCAGACTACAACGTTGGAACAACAACTGCCGCTAGTTGGACTATTACTATAGCTGGTGTTATTGGACCTACAGGACCTACTGGACCTACTGGTACAACGGGAAATACTGGCGCTACAGGACCTACAGGACCTACTGGTAGTACTGGGGTAACTGGTGCTACAGGACCTACTGGACCTACTGGTACTACAGGCGCCGCTTCGACAGTTCCTGGACCTACAGGCCCAACTGGCCCAACTGGAAGTACTGGTGCCGCTTCAACAGTACCAGGACCAACAGGACCTACAGGCAATACAGGTACAACGGGAAATACAGGTGCTACTGGACCTACGGGCAATACAGGAAGTGCTGGCCCAACTGGACCTACGGGACCAACTGGTACAACGGGAAATACAGGTGCTACTGGACCTACGGGCAATACAGGAAGTGCTGGCCCAACTGGACCTACGGGACCAACTGGTACAACGGGAAATACAGGTGCTACCGGACCTACAGGTACTACGGGAAATACAGGTGCTACCGGACCTACAGGTACTACGGGAAATACAGGCCCAACTGGCCCAACTGGTACAACGGGAAATACAGGTGCTACTGGACCTACAGGAACCACAGGCAATACGGGCCCAACAGGACCAACTGGTAATACTGGTGCGGCATCAACAGTACCGGGCCCAACTGGTCCTACGGGCAATACAGGAAGTGCTGGACCAACTGGTCCTACAGGTACTACGGGAAATACAGGCCCAACTGGCCCAACTGGCCCAACTGGAAGTACTGGTGCCGCTTCAACAGTACCAGGACCAACTGGCCCTACAGGCAGTTCGGGTTCAAGTGGCCCAACTGGCCCTACTGGCTCTGGATCAACAGGACCAACAGGACCAACTGGTTCAAGTGGTACTGCCCCTATAGATATATACCTCCAAAGTTTGTTCTGGCAATAA

Genome Context

Tertiary structure

PDB ID

8c65ba1b20c4a0396da93edd888c89499111e161bfa2a63c592fdb33ee255896

ColabFold

Source ColabFold

Method ColabFold

Resolution 0,6092

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Tail Spike Domain Segmentation

Tail Spike Domain Segmentation

3D Structure with Domain Coloring

Domain Coloring

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence