arylsulfatase G (ARSG) - coding DNA reference sequence

(used for variant description)

(last modified January 25, 2023)

This file was created to facilitate the description of sequence variants on transcript NM_014960.4 in the ARSG gene based on a coding DNA reference sequence following the HGVS recommendations.

The sequence was taken from NC_000017.10, covering ARSG transcript NM_014960.4.

Please note that introns are available by clicking on the exon numbers above the sequence.

 (upstream sequence)
                                                   .                g.5016
                                             ggctgcgcccaggccg       c.-781

 .         .         .         .         .         .                g.5076
 gcgggcccagcagctgcgaaccgccggcgcaccacctgtttccgcgcccggggacttccc       c.-721

 .         .         .         .         .         .                g.5136
 cggcggggctcagaagtgtgggatcggtcgcttggcttcccctggcgtcagcgacccagg       c.-661

 .         .         .         .         .         .                g.5196
 gtaacctcctccactgctgcgtgccgtgcaggcctgcctgtgtgagagccacgtgtgccg       c.-601

 .         .         .         .         .         | 02             g.52772
 cgctctgggcacagccttggaaagtcaggaccgcgacggcagcagagca | gaaaccttaca    c.-541

 .         .         .         .         .         .                g.52832
 gaaacatgaagccctcaaccatctgctactcagttattcggggctgacggcggcttctag       c.-481

 .         .         .         .         .         .                g.52892
 aacatccaggtgttctgcagatgcgagaactcatcctgtagtcaccagatggagtcccaa       c.-421

 .         .         .         .         .         .                g.52952
 acagccaagcagatgtaaggcctgtgctgtggctctgaggccctgaatacagaagggtca       c.-361

 .         .         .         .         .         .                g.53012
 ctttcttagtggccaaagagcagttgttgacattgatgtctaattattgaacacgaccag       c.-301

 .         .         .         .         .         .                g.53072
 tcattttactgagctgcggtgaggaaacactgaccatagaagatcaagccaaatgaggga       c.-241

 .         .         .         .         .         .                g.53132
 ttgcaaatttcctgattcttttgaattaggattccagatgggggcctcatttctacagcc       c.-181

 .         .         .         .         .         .                g.53192
 cccaacattcctatagccgttatcactgccatcaccactgccaccagcatcttcttgcag       c.-121

 .         .         .         .         .         .                g.53252
 attccacccctgctccccagagacttcctgctttgaaagtgagcagaaaggaagctctca       c.-61

 .         .         .         .         .         .                g.53312
 gaaaaatctctagtggtggctgccgtcgctccagacaatcggaatcctgccttcaccacc       c.-1

          .         .         .         .         .         .       g.53372
 ATGGGCTGGCTTTTTCTAAAGGTTTTGTTGGCGGGAGTGAGTTTCTCAGGATTTCTTTAT       c.60
 M  G  W  L  F  L  K  V  L  L  A  G  V  S  F  S  G  F  L  Y         p.20

          .         .         .         .         .         .       g.53432
 CCTCTTGTGGATTTTTGCATCAGTGGGAAAACAAGAGGACAGAAGCCAAACTTTGTGATT       c.120
 P  L  V  D  F  C  I  S  G  K  T  R  G  Q  K  P  N  F  V  I         p.40

          .         .         .         .         .         .       g.53492
 ATTTTGGCCGATGACATGGGGTGGGGTGACCTGGGAGCAAACTGGGCAGAAACAAAGGAC       c.180
 I  L  A  D  D  M  G  W  G  D  L  G  A  N  W  A  E  T  K  D         p.60

          .         .         .         | 03         .         .    g.89444
 ACTGCCAACCTTGATAAGATGGCTTCGGAGGGAATGAG | GTTTGTGGATTTCCATGCAGCT    c.240
 T  A  N  L  D  K  M  A  S  E  G  M  R  |  F  V  D  F  H  A  A      p.80

          .         .         .         .         .         .       g.89504
 GCCTCCACCTGCTCACCCTCCCGGGCTTCCTTGCTCACCGGCCGGCTTGGCCTTCGCAAT       c.300
 A  S  T  C  S  P  S  R  A  S  L  L  T  G  R  L  G  L  R  N         p.100

          .         .         .         .         .         .       g.89564
 GGAGTCACACGCAACTTTGCAGTCACTTCTGTGGGAGGCCTTCCGCTCAACGAGACCACC       c.360
 G  V  T  R  N  F  A  V  T  S  V  G  G  L  P  L  N  E  T  T         p.120

          .         .         .         .       | 04 .         .    g.92957
 TTGGCAGAGGTGCTGCAGCAGGCGGGTTACGTCACTGGGATAATAG | GCAAATGGCATCTT    c.420
 L  A  E  V  L  Q  Q  A  G  Y  V  T  G  I  I  G |   K  W  H  L      p.140

          .         .         .     | 05   .         .         .    g.97419
 GGACACCACGGCTCTTATCACCCCAACTTCCGTG | GTTTTGATTACTACTTTGGAATCCCA    c.480
 G  H  H  G  S  Y  H  P  N  F  R  G |   F  D  Y  Y  F  G  I  P      p.160

          .         .         .         .         .         .       g.97479
 TATAGCCATGATATGGGCTGTACTGATACTCCAGGCTACAACCACCCTCCTTGTCCAGCG       c.540
 Y  S  H  D  M  G  C  T  D  T  P  G  Y  N  H  P  P  C  P  A         p.180

          .         .       | 06 .         .         .         .    g.102519
 TGTCCACAGGGTGATGGACCATCAAG | GAACCTTCAAAGAGACTGTTACACTGACGTGGCC    c.600
 C  P  Q  G  D  G  P  S  R  |  N  L  Q  R  D  C  Y  T  D  V  A      p.200

          .         .         .         .         .         .       g.102579
 CTCCCTCTTTATGAAAACCTCAACATTGTGGAGCAGCCGGTGAACTTGAGCAGCCTTGCC       c.660
 L  P  L  Y  E  N  L  N  I  V  E  Q  P  V  N  L  S  S  L  A         p.220

          .         .         .         .     | 07   .         .    g.114382
 CAGAAGTATGCTGAGAAAGCAACCCAGTTCATCCAGCGTGCAAG | CACCAGCGGGAGGCCC    c.720
 Q  K  Y  A  E  K  A  T  Q  F  I  Q  R  A  S  |  T  S  G  R  P      p.240

          .         .         .         .         .         .       g.114442
 TTCCTGCTCTATGTGGCTCTGGCCCACATGCACGTGCCCTTACCTGTGACTCAGCTACCA       c.780
 F  L  L  Y  V  A  L  A  H  M  H  V  P  L  P  V  T  Q  L  P         p.260

          .         .         .         .         .         .       g.114502
 GCAGCGCCACGGGGCAGAAGCCTGTATGGTGCAGGGCTCTGGGAGATGGACAGTCTGGTG       c.840
 A  A  P  R  G  R  S  L  Y  G  A  G  L  W  E  M  D  S  L  V         p.280

          .         .         .         .         .         .       g.114562
 GGCCAGATCAAGGACAAAGTTGACCACACAGTGAAGGAAAACACATTCCTCTGGTTTACA       c.900
 G  Q  I  K  D  K  V  D  H  T  V  K  E  N  T  F  L  W  F  T         p.300

   | 08      .         .         .         .         .         .    g.116321
 G | GAGACAATGGCCCGTGGGCTCAGAAGTGTGAGCTAGCGGGCAGTGTGGGTCCCTTCACT    c.960
 G |   D  N  G  P  W  A  Q  K  C  E  L  A  G  S  V  G  P  F  T      p.320

          .         .   | 09     .         .         .         .    g.130920
 GGATTTTGGCAAACTCGTCAAG | GGGGAAGTCCAGCCAAGCAGACGACCTGGGAAGGAGGG    c.1020
 G  F  W  Q  T  R  Q  G |   G  S  P  A  K  Q  T  T  W  E  G  G      p.340

          .         .         .         .         .         .       g.130980
 CACCGGGTCCCAGCACTGGCTTACTGGCCTGGCAGAGTTCCAGTTAATGTCACCAGCACT       c.1080
 H  R  V  P  A  L  A  Y  W  P  G  R  V  P  V  N  V  T  S  T         p.360

          .  | 10      .         .         .         .         .    g.140940
 GCCTTGTTAAG | CGTGCTGGACATTTTTCCAACTGTGGTAGCCCTGGCCCAGGCCAGCTTA    c.1140
 A  L  L  S  |  V  L  D  I  F  P  T  V  V  A  L  A  Q  A  S  L      p.380

          .         .         .         .         .         .       g.141000
 CCTCAAGGACGGCGCTTTGATGGTGTGGACGTCTCCGAGGTGCTCTTTGGCCGGTCACAG       c.1200
 P  Q  G  R  R  F  D  G  V  D  V  S  E  V  L  F  G  R  S  Q         p.400

          .   | 11     .         .         .         .         .    g.147226
 CCTGGGCACAGG | GTGCTGTTCCACCCCAACAGCGGGGCAGCTGGAGAGTTTGGAGCCCTG    c.1260
 P  G  H  R   | V  L  F  H  P  N  S  G  A  A  G  E  F  G  A  L      p.420

          .         .         .         .    | 12    .         .    g.166024
 CAGACTGTCCGCCTGGAGCGTTACAAGGCCTTCTACATTACCG | GTGGAGCCAGGGCGTGT    c.1320
 Q  T  V  R  L  E  R  Y  K  A  F  Y  I  T  G |   G  A  R  A  C      p.440

          .         .         .         .         .         .       g.166084
 GATGGGAGCACGGGGCCTGAGCTGCAGCATAAGTTTCCTCTGATTTTCAACCTGGAAGAC       c.1380
 D  G  S  T  G  P  E  L  Q  H  K  F  P  L  I  F  N  L  E  D         p.460

          .         .         .         .         .         .       g.166144
 GATACCGCAGAAGCTGTGCCCCTAGAAAGAGGTGGTGCGGAGTACCAGGCTGTGCTGCCC       c.1440
 D  T  A  E  A  V  P  L  E  R  G  G  A  E  Y  Q  A  V  L  P         p.480

          .         .         .         .         .         .       g.166204
 GAGGTCAGAAAGGTTCTTGCAGACGTCCTCCAAGACATTGCCAACGACAACATCTCCAGC       c.1500
 E  V  R  K  V  L  A  D  V  L  Q  D  I  A  N  D  N  I  S  S         p.500

          .         .         .         .         .         .       g.166264
 GCAGATTACACTCAGGACCCTTCAGTAACTCCCTGCTGTAATCCCTACCAAATTGCCTGC       c.1560
 A  D  Y  T  Q  D  P  S  V  T  P  C  C  N  P  Y  Q  I  A  C         p.520

          .                                                         g.166282
 CGCTGTCAAGCCGCATAA                                                 c.1578
 R  C  Q  A  A  X                                                   p.525

          .         .         .         .         .         .       g.166342
 cagaccaatttttattccacgaggaggagtacctggaaattaggcaagtttgcttccaaa       c.*60

          .         .         .         .         .         .       g.166402
 tttcatttttaccctctttacaaacacacgctttagtttagtcttggagtttagttttgg       c.*120

          .         .         .         .         .         .       g.166462
 agttagccttgcatatcccttctgtatcctgtccctcctccacgccgacccgagagcagc       c.*180

          .         .         .         .         .         .       g.166522
 tgagctgcgctggctctgggcagggagtgtgccttaatgggaagcacacgggctttggag       c.*240

          .         .         .         .         .         .       g.166582
 tcaggcacaggtgccagctccagcttttgaacttgggcaattgtttaacctaacctgcaa       c.*300

          .         .         .         .         .         .       g.166642
 gttgattttgagggttaaataaaggcatacatgaaaatgcctggcaaattacctgacaca       c.*360

          .         .         .                                     g.166678
 gagcagacattcaatacattttagtttccttgtttc                               c.*396

 (downstream sequence)

Legend:
Nucleotide numbering (following the rules of the HGVS for a 'Coding DNA Reference Sequence') is indicated at the right of the sequence, counting the A of the ATG translation initiating Methionine as 1. Every 10^th nucleotide is indicated by a "." above the sequence. The Arylsulfatase G protein sequence is shown below the coding DNA sequence, with numbering indicated at the right starting with 1 for the translation initiating Methionine. Every 10^th amino acid is shown in bold. The position of introns is indicated by a vertical line, splitting the two exons. The start of the first exon (transcription initiation site) is indicated by a '\', the end of the last exon (poly-A addition site) by a '/'. The exon number is indicated above the first nucleotide(s) of the exon. To aid the description of frame shift variants, all stop codons in the +1 frame are shown in bold while all stop codons in the +2 frame are underlined.