Protein

View in Explore

Genbank accession

AUE22482.1 [GenBank]

Protein name

tail fiber protein

RBP type

Evidence GenBank

Probability 1,00

Evidence RBPdetect

Probability 0,91

Evidence RBPdetect2

Probability 0,96

Protein sequence

MADYKLSELNSIDTIRSDDLLHVRVKKRPEMLGDEDRRMTYQDFLASFKLERFVQIAGSTMTGDLGIVKLLYGGKAVFDPTGSSEITMGDVLKTFKINANGLKLTIADASRSATVYHTLNKPSPNELGMRTNEENDARYARLAVTNTFSGTQNIQGDVNLLRLRNQNANNAQYIEGVDLDGSARWLVGISKNGSDAVQLYNNKYDSALTIASNISVNKSLAITGQVQPSDFSNLDARYFTQTAANQRFAQLAGNNTFSGSNTFTNFVIKKNANAITIQNVDTTTALYIQARKSDGTNKWYIGNDGDENIVNIYNYLAKTQISLGNTITMSKTVQIGGQVQPSDWTNIDSRYIPAATLSTIARTNAQNTFNGAQTVVSDGEGLVIKNSTQNRPLYIRGKDAANVSRWWLGVGDPNSTDVALNNSFSGTQLILGNSSASINKTLTLAGQIQPSDFSNLDARYYTQSTANSRYMLAYSSGTGTEVGDSDGVAWNAKTGLYNVTRFNGGSTLLVFQMYQGSSSTPSAQLKFDYRNGGFWYRSSRDNFGFEEDFTQIYTERYKPTPSAIGAYTKAETDQKIAQAVSDSTDLNKIYPVGIVTWFNSNVNPNTALPGLTWTYLNNGVGRTIRIAAANGSDVATTGGSDSVTLAVGNLPSHTHSFSATTSSFDYGTKTTNTTGAHTHSVSGSTNNTGAHTHTVGGRYGGDSIGGKQRVQVSGTEQVSSSAGAHAHTVSGTAASNGNHAHTVGIGAHSHTVSGNTGGTGSGSAFSVTNQFYKLMAWVRTA

Physico‐chemical properties

protein length:	781 AA
molecular weight:	83878,31590 Da
isoelectric point:	8,71079
aromaticity:	0,08707
hydropathy:	-0,42049

Domains

Domains [InterPro]

DC_0032
ATT
1–266

DC_0032 G3DSA:6.20.80.10 DC_1993

G3DSA:6.20.80.10
STR
159–218

G3DSA:6.20.80.10 DC_1993 G3DSA:6.20.80.10 IPR022246 IPR005003 IPR005003 IPR005003 IPR005003 IPR005003

IPR048388
ATT
159–247

IPR048388 IPR048388 IPR048388

IPR051934
Unmapped
427–753

IPR051934

AUE22482.1

1 781

Architecture

ATT

STR

ATT

STR

ATT 1-354 | STR 355-378 | ATT 379-473 | STR 474-777 |

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0032	ATT	DC_0032	1	266	Novel HMM	DC_0032	N-terminal	Low	Positional only	139 proteins / 139 hits
G3DSA:6.20.80.10	STR	G3DSA:6.20.80.10	159	218	Merged direct domain	G3DSA:6.20.80.10	Central	Low	Positional only	37 proteins / 37 hits
IPR048388	ATT	DC_0224	159	247	InterPro cluster	Tail fibre protein gp37, trimerization region	Central	Medium	Text match	404 proteins / 802 hits
DC_1993	STR	DC_1993	243	359	Novel HMM	DC_1993	Central	Low	Positional only	126 proteins / 126 hits
G3DSA:6.20.80.10	STR	G3DSA:6.20.80.10	272	331	Merged direct domain	G3DSA:6.20.80.10	Central	Low	Positional only	37 proteins / 37 hits
IPR048388	ATT	DC_0224	273	354	InterPro cluster	Tail fibre protein gp37, trimerization region	Central	Medium	Text match	404 proteins / 802 hits
DC_1993	STR	DC_1993	354	777	Novel HMM	DC_1993	Central	Low	Positional only	126 proteins / 126 hits
G3DSA:6.20.80.10	STR	G3DSA:6.20.80.10	379	440	Merged direct domain	G3DSA:6.20.80.10	Central	Low	Positional only	37 proteins / 37 hits
IPR048388	ATT	DC_0224	379	473	InterPro cluster	Tail fibre protein gp37, trimerization region	Central	Medium	Text match	404 proteins / 802 hits
IPR051934	Unmapped	-	427	753	InterPro	Bacteriophage Tail Fiber Structural Protein	-	-	-	-
IPR022246	RBD	DC_0194	475	584	InterPro cluster	Bacteriophage T7, Gp17, C-terminal	C-terminal	Low	Positional only	166 proteins / 166 hits
IPR005003	Unmapped	-	652	661	InterPro	Bacteriophage lambda, Tail fiber protein, repeat-1	-	-	-	-
IPR005003	Unmapped	-	672	685	InterPro	Bacteriophage lambda, Tail fiber protein, repeat-1	-	-	-	-
IPR005003	Unmapped	-	686	697	InterPro	Bacteriophage lambda, Tail fiber protein, repeat-1	-	-	-	-
IPR005003	Unmapped	-	720	733	InterPro	Bacteriophage lambda, Tail fiber protein, repeat-1	-	-	-	-
IPR005003	Unmapped	-	744	756	InterPro	Bacteriophage lambda, Tail fiber protein, repeat-1	-	-	-	-

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Salmonella virus VSe102 [NCBI]	2053700	Viruses > Duplodnaviria > Heunggongvirae > Uroviricota > Caudoviricetes
Host	Salmonella enteritidis [NCBI]	149539	cellular organisms > Bacteria > Pseudomonadati > Pseudomonadota > Gammaproteobacteria > Enterobacterales

Coding sequence (CDS)

Genbank protein accession

AUE22482.1 [NCBI]

Genbank nucleotide accession

MG251392.1 [NCBI]

CDS location

range 48465 -> 50810
strand +

CDS

ATGGCAGATTACAAGTTGAGTGAATTAAACTCAATCGATACAATCCGTTCAGATGACCTTCTTCATGTCAGGGTTAAAAAGAGACCTGAAATGCTGGGTGATGAAGACCGTCGAATGACCTATCAAGACTTCTTAGCATCTTTTAAGCTTGAAAGATTTGTTCAGATTGCTGGTAGTACTATGACTGGTGACTTAGGGATTGTTAAGTTACTTTATGGTGGTAAGGCAGTCTTTGACCCTACAGGCTCTTCCGAGATTACTATGGGGGATGTTTTAAAGACTTTTAAAATTAATGCAAATGGTCTTAAACTAACTATTGCAGATGCTTCAAGGTCTGCAACTGTTTATCATACTCTTAATAAGCCAAGTCCTAATGAGCTTGGGATGAGAACTAATGAAGAGAATGACGCAAGATATGCAAGGCTTGCTGTCACAAACACATTCTCTGGGACTCAGAACATTCAAGGTGATGTTAACTTACTTCGCCTTAGAAACCAAAATGCAAATAATGCACAATATATTGAAGGTGTAGACCTAGATGGCTCGGCTAGATGGTTGGTTGGTATTAGTAAAAATGGTTCTGATGCAGTGCAGTTGTACAATAATAAATATGACTCAGCTTTGACTATTGCAAGTAATATCTCTGTTAATAAGTCTTTAGCAATTACTGGTCAAGTCCAACCTTCGGATTTCTCTAACTTAGATGCGAGATACTTTACTCAGACGGCAGCTAATCAGAGGTTTGCACAGTTAGCTGGTAATAACACATTTAGTGGTTCTAATACTTTCACTAATTTTGTTATTAAGAAGAATGCTAATGCTATTACTATTCAAAATGTAGATACAACTACGGCTTTGTATATCCAAGCAAGGAAATCAGATGGAACTAATAAGTGGTACATTGGTAATGACGGTGATGAGAACATTGTAAACATCTATAACTATTTAGCAAAAACACAAATCTCACTAGGTAACACCATTACCATGAGTAAAACAGTCCAAATTGGTGGTCAAGTTCAACCTTCTGATTGGACTAACATTGACTCTAGATATATTCCGGCAGCAACATTAAGTACGATTGCAAGAACTAATGCACAAAATACTTTTAATGGTGCGCAAACAGTTGTTAGTGATGGCGAAGGTTTAGTTATTAAAAACTCTACTCAGAATAGGCCATTGTATATTCGTGGTAAGGACGCTGCCAATGTATCAAGATGGTGGTTAGGTGTTGGTGACCCAAATTCTACTGATGTAGCCTTAAACAACAGCTTCTCTGGCACTCAGTTAATTTTAGGTAACTCATCTGCAAGTATCAATAAGACATTAACCCTAGCAGGGCAGATTCAACCCTCAGATTTCTCTAACTTAGATGCTAGATATTACACGCAATCTACCGCAAACTCTAGGTATATGCTTGCTTATTCTTCTGGCACTGGTACAGAGGTAGGTGATAGTGATGGCGTTGCTTGGAATGCTAAAACTGGTCTGTATAATGTTACAAGGTTTAATGGAGGCTCAACACTACTTGTTTTCCAAATGTATCAAGGTTCAAGCTCTACTCCTTCTGCTCAATTGAAATTCGACTACAGGAATGGAGGATTTTGGTACAGGTCATCAAGGGATAATTTTGGTTTTGAAGAGGACTTCACACAGATTTATACAGAAAGGTATAAACCAACCCCTTCAGCTATCGGTGCATACACTAAAGCAGAAACTGACCAGAAGATTGCACAGGCAGTAAGTGATTCAACAGACCTTAACAAAATCTACCCTGTTGGTATTGTAACGTGGTTTAACAGTAATGTTAACCCTAATACAGCACTTCCTGGGTTAACTTGGACGTACCTGAACAATGGTGTTGGTAGAACTATCCGAATTGCAGCAGCAAATGGTTCAGATGTTGCTACAACTGGAGGTTCAGATTCTGTTACGTTAGCAGTGGGAAACTTACCTTCACACACTCATAGCTTCTCTGCGACTACTTCATCATTTGACTATGGTACTAAAACCACTAACACTACTGGTGCTCACACCCACTCAGTGAGTGGTTCTACTAACAACACTGGTGCTCATACACATACAGTTGGTGGTCGTTATGGTGGTGACTCTATCGGTGGTAAACAACGTGTTCAGGTATCTGGTACAGAACAGGTATCTAGCTCTGCTGGTGCTCACGCTCACACTGTGTCTGGTACTGCTGCCTCTAACGGAAACCATGCTCACACTGTTGGTATTGGTGCTCACAGTCATACAGTTAGTGGTAACACTGGTGGTACAGGTTCTGGTTCAGCATTTAGTGTAACTAACCAGTTCTATAAGCTGATGGCTTGGGTAAGAACTGCTTAA

Genome Context

Tertiary structure

PDB ID

f4acade53cb49636ef05c87627339828fb31a7302d883e53b8123bf516be6ebd

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,6969

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence