N-sulfoglucosamine sulfohydrolase (SGSH) - coding DNA reference sequence

(used for variant description)

(last modified April 3, 2017)

This file was created to facilitate the description of sequence variants on transcript NM_000199.3 in the SGSH gene based on a coding DNA reference sequence following the HGVS recommendations.

The sequence was taken from NG_008229.1, covering SGSH transcript NM_000199.3.

Please note that introns are available by clicking on the exon numbers above the sequence.

 (upstream sequence)
                                         .         .                g.5027
                                  gaccggggtcggggcagggggcggggc       c.-61

 .         .         .         .         .         .                g.5087
 cgagcgggagaccagagagccggagccggatcccgatcccgagtccgagccgccgccgcc       c.-1

          .         .         .         .         .         .       g.5147
 ATGAGCTGCCCCGTGCCCGCCTGCTGCGCGCTGCTGCTAGTCCTGGGGCTCTGCCGGGCG       c.60
 M  S  C  P  V  P  A  C  C  A  L  L  L  V  L  G  L  C  R  A         p.20

          .         .         | 02         .         .         .    g.8240
 CGTCCCCGGAACGCACTGCTGCTCCTCG | CGGATGACGGAGGCTTTGAGAGTGGCGCGTAC    c.120
 R  P  R  N  A  L  L  L  L  A |   D  D  G  G  F  E  S  G  A  Y      p.40

          .         .         .         .         .         .       g.8300
 AACAACAGCGCCATCGCCACCCCGCACCTGGACGCCTTGGCCCGCCGCAGCCTCCTCTTT       c.180
 N  N  S  A  I  A  T  P  H  L  D  A  L  A  R  R  S  L  L  F         p.60

          .         .         .         .         .         .       g.8360
 CGCAATGCCTTCACCTCGGTCAGCAGCTGCTCTCCCAGCCGCGCCAGCCTCCTCACTGGC       c.240
 R  N  A  F  T  S  V  S  S  C  S  P  S  R  A  S  L  L  T  G         p.80

           | 03        .         .         .         .         .    g.10313
 CTGCCCCAG | CATCAGAATGGGATGTACGGGCTGCACCAGGACGTGCACCACTTCAACTCC    c.300
 L  P  Q   | H  Q  N  G  M  Y  G  L  H  Q  D  V  H  H  F  N  S      p.100

          .         .         .         .         .      | 04  .    g.10640
 TTCGACAAGGTGCGGAGCCTGCCGCTGCTGCTCAGCCAAGCTGGTGTGCGCACAG | GCATC    c.360
 F  D  K  V  R  S  L  P  L  L  L  S  Q  A  G  V  R  T  G |   I      p.120

          .         .         .         .         .         .       g.10700
 ATCGGGAAGAAGCACGTGGGGCCGGAGACCGTGTACCCGTTTGACTTTGCGTACACGGAG       c.420
 I  G  K  K  H  V  G  P  E  T  V  Y  P  F  D  F  A  Y  T  E         p.140

          .         .         .         .         .         .       g.10760
 GAGAATGGCTCCGTCCTCCAGGTGGGGCGGAACATCACTAGAATTAAGCTGCTCGTCCGG       c.480
 E  N  G  S  V  L  Q  V  G  R  N  I  T  R  I  K  L  L  V  R         p.160

          .         .       | 05 .         .         .         .    g.11106
 AAATTCCTGCAGACTCAGGATGACCG | GCCTTTCTTCCTCTACGTCGCCTTCCACGACCCC    c.540
 K  F  L  Q  T  Q  D  D  R  |  P  F  F  L  Y  V  A  F  H  D  P      p.180

          .         .         .         .         .         .       g.11166
 CACCGCTGTGGGCACTCCCAGCCCCAGTACGGAACCTTCTGTGAGAAGTTTGGCAACGGA       c.600
 H  R  C  G  H  S  Q  P  Q  Y  G  T  F  C  E  K  F  G  N  G         p.200

          .         .         .         .         .         .       g.11226
 GAGAGCGGCATGGGTCGTATCCCAGACTGGACCCCCCAGGCCTACGACCCACTGGACGTG       c.660
 E  S  G  M  G  R  I  P  D  W  T  P  Q  A  Y  D  P  L  D  V         p.220

     | 06    .         .         .         .         .         .    g.11572
 CTG | GTGCCTTACTTCGTCCCCAACACCCCGGCAGCCCGAGCCGACCTGGCCGCTCAGTAC    c.720
 L   | V  P  Y  F  V  P  N  T  P  A  A  R  A  D  L  A  A  Q  Y      p.240

          .         .      | 07  .         .         .         .    g.13161
 ACCACCGTCGGCCGCATGGACCAAG | GAGTTGGACTGGTGCTCCAGGAGCTGCGTGACGCC    c.780
 T  T  V  G  R  M  D  Q  G |   V  G  L  V  L  Q  E  L  R  D  A      p.260

          .         .         .         .         .         .       g.13221
 GGTGTCCTGAACGACACACTGGTGATCTTCACGTCCGACAACGGGATCCCCTTCCCCAGC       c.840
 G  V  L  N  D  T  L  V  I  F  T  S  D  N  G  I  P  F  P  S         p.280

          .         .         .         .         .         .       g.13281
 GGCAGGACCAACCTGTACTGGCCGGGCACTGCTGAACCCTTACTGGTGTCATCCCCGGAG       c.900
 G  R  T  N  L  Y  W  P  G  T  A  E  P  L  L  V  S  S  P  E         p.300

          .         .         .         .          | 08        .    g.14400
 CACCCAAAACGCTGGGGCCAAGTCAGCGAGGCCTACGTGAGCCTCCTAG | ACCTCACGCCC    c.960
 H  P  K  R  W  G  Q  V  S  E  A  Y  V  S  L  L  D |   L  T  P      p.320

          .         .         .         .         .         .       g.14460
 ACCATCTTGGATTGGTTCTCGATCCCGTACCCCAGCTACGCCATCTTTGGCTCGAAGACC       c.1020
 T  I  L  D  W  F  S  I  P  Y  P  S  Y  A  I  F  G  S  K  T         p.340

          .         .         .         .         .         .       g.14520
 ATCCACCTCACTGGCCGGTCCCTCCTGCCGGCGCTGGAGGCCGAGCCCCTCTGGGCCACC       c.1080
 I  H  L  T  G  R  S  L  L  P  A  L  E  A  E  P  L  W  A  T         p.360

          .         .         .         .         .         .       g.14580
 GTCTTTGGCAGCCAGAGCCACCACGAGGTCACCATGTCCTACCCCATGCGCTCCGTGCAG       c.1140
 V  F  G  S  Q  S  H  H  E  V  T  M  S  Y  P  M  R  S  V  Q         p.380

          .         .         .         .         .         .       g.14640
 CACCGGCACTTCCGCCTCGTGCACAACCTCAACTTCAAGATGCCCTTTCCCATCGACCAG       c.1200
 H  R  H  F  R  L  V  H  N  L  N  F  K  M  P  F  P  I  D  Q         p.400

          .         .         .         .         .         .       g.14700
 GACTTCTACGTCTCACCCACCTTCCAGGACCTCCTGAACCGCACCACAGCTGGTCAGCCC       c.1260
 D  F  Y  V  S  P  T  F  Q  D  L  L  N  R  T  T  A  G  Q  P         p.420

          .         .         .         .         .         .       g.14760
 ACGGGCTGGTACAAGGACCTCCGTCATTACTACTACCGGGCGCGCTGGGAGCTCTACGAC       c.1320
 T  G  W  Y  K  D  L  R  H  Y  Y  Y  R  A  R  W  E  L  Y  D         p.440

          .         .         .         .         .         .       g.14820
 CGGAGCCGGGACCCCCACGAGACCCAGAACCTGGCCACCGACCCGCGCTTTGCTCAGCTT       c.1380
 R  S  R  D  P  H  E  T  Q  N  L  A  T  D  P  R  F  A  Q  L         p.460

          .         .         .         .         .         .       g.14880
 CTGGAGATGCTTCGGGACCAGCTGGCCAAGTGGCAGTGGGAGACCCACGACCCCTGGGTG       c.1440
 L  E  M  L  R  D  Q  L  A  K  W  Q  W  E  T  H  D  P  W  V         p.480

          .         .         .         .         .         .       g.14940
 TGCGCCCCCGACGGCGTCCTGGAGGAGAAGCTCTCTCCCCAGTGCCAGCCCCTCCACAAT       c.1500
 C  A  P  D  G  V  L  E  E  K  L  S  P  Q  C  Q  P  L  H  N         p.500

                                                                    g.14949
 GAGCTGTGA                                                          c.1509
 E  L  X                                                            p.502

          .         .         .         .         .         .       g.15009
 ccatcccaggaggcctgtgcacacatcccaggcatgtcccagacacatcccacacgtgtc       c.*60

          .         .         .         .         .         .       g.15069
 cgtgtggccggccagcctggggagtagtggcaacagcccttccgtccacactcccatcca       c.*120

          .         .         .         .         .         .       g.15129
 aggagggttcttccttcctgtggggtcactcttgccattgcctggagggggaccagagca       c.*180

          .         .         .         .         .         .       g.15189
 tgtgaccagagcatgtgcccagcccctccaccaccaggggcactgccgtcatggcagggg       c.*240

          .         .         .         .         .         .       g.15249
 acacagttgtccttgtgtctgaaccatgtcccagcacgggaattctagacatacgtggtc       c.*300

          .         .         .         .         .         .       g.15309
 tgcggacagggcagcgcccccagcccatgacaagggagtcttgttttctggcttggtttg       c.*360

          .         .         .         .         .         .       g.15369
 gggacctgcaaatgggaggcctgaggccctcttcaggctttggcagccacagatacttct       c.*420

          .         .         .         .         .         .       g.15429
 gaacccttcacagagagcaggcaggggcttcggtgccgcgtgggcagtacgcaggtccca       c.*480

          .         .         .         .         .         .       g.15489
 ccgacactcacctgggagcacggcgcctggctcttaccagcgtctggcctagaggaagcc       c.*540

          .         .         .         .         .         .       g.15549
 tttgagcgacctttgggcaggtttctgcttcttctgttttgccccatggtcaagtccctg       c.*600

          .         .         .         .         .         .       g.15609
 ttccccaggcaggtttcagctgattggcagcaggctccctgagtgatgagcttgaacctg       c.*660

          .         .         .         .         .         .       g.15669
 tggtgtttctgggcagaagcttatcttttttgagagtgtccgaagatgaaggcatggcga       c.*720

          .         .         .         .         .         .       g.15729
 tgcccgtcctctggcttgggttaattcttcggtgacactggcattgctgggtggtgatgc       c.*780

          .         .         .         .         .         .       g.15789
 ccgtcctctggcttgggttaattcttcggtgacactggcgttgctgggtggcaatgccca       c.*840

          .         .         .         .         .         .       g.15849
 tcctctgccttgggttaattcttcggtgacactggcgttgctgggtggcgatgcccgtcc       c.*900

          .         .         .         .         .         .       g.15909
 tctggcttgggttaattcttggatgacgtcggcgttgctgggagaatgtgccgttcctgc       c.*960

          .         .         .         .         .         .       g.15969
 cctgcctccacccacctcgggagcagaagcccggcctggacacccctcggcctggacacc       c.*1020

          .         .         .         .         .         .       g.16029
 cctcgaaggagagggcgcttccttgagtaggtgggctccccttgcccttccctccctatc       c.*1080

          .         .         .         .         .         .       g.16089
 actccatactggggtgggctggaggaggccacaggccagctattgtaaaagctttttatt       c.*1140

          .         .         .                                     g.16121
 ttagtaaaatatacagaagttctttttctgaa                                   c.*1172

 (downstream sequence)

Legend:
Nucleotide numbering (following the rules of the HGVS for a 'Coding DNA Reference Sequence') is indicated at the right of the sequence, counting the A of the ATG translation initiating Methionine as 1. Every 10^th nucleotide is indicated by a "." above the sequence. The N-sulfoglucosamine sulfohydrolase protein sequence is shown below the coding DNA sequence, with numbering indicated at the right starting with 1 for the translation initiating Methionine. Every 10^th amino acid is shown in bold. The position of introns is indicated by a vertical line, splitting the two exons. The start of the first exon (transcription initiation site) is indicated by a '\', the end of the last exon (poly-A addition site) by a '/'. The exon number is indicated above the first nucleotide(s) of the exon. To aid the description of frame shift variants, all stop codons in the +1 frame are shown in bold while all stop codons in the +2 frame are underlined.