この技術を使ってヒト細胞の中にある遺伝子(ゲノム)を調べてみると大変面白いことがわかってきました。つまり、ヒトどおしでも遺伝子は互いにほんのわずかづつ違っているのだということもまたはっきりしてきたのです。ヒトという生物種の同一性を示す特徴を持ちながら、ヒトどおしでもわずかに異なり個人個人区別ができる多型性ということでした。どんな生物種でも、この『同一性』と『多型性』が遺伝子DNAには刻まれているのです。
勿論、これはDNAの塩基配列が決められるようになるより前から膨大な遺伝学研究を元に推定されていたのですが、DNAの塩基配列を直接容易に決められるようになって身近なものとなりました。従って、それまではわかっているとは言っても推論でしかなかったことが、実験結果に基づいた議論を出来るように変わったのですから事は重大でした。そこで、この後は多型性を示す遺伝子領域を洗い出すという作業が研究の中心課題となりました。
その結果明らかになってきたのが『ショートタンデムリピート(STR)』でした。DNA上のある場所の塩基配列に見られるものですが、2−5塩基程度の長さの同じ塩基配列が繰り返し現れるという現象です。これは、遺伝子としては機能していない部分(イントロン)に現れるのですが、その短い配列が繰り替えされている『回数』が人によって違うのです(直列に同じ配列が繰り返される回数が違うということをVariable Number of Tandem Repeat=VNTRと言います)。従って、一人一人についてこの『繰り返し回数』を調べることによって一人一人を区別することが出来るようになったのです。
実験的にはこの部分をPCR実験法を使って増幅して、その長さを正確に求めれば良いのですが、塩基配列を決めるためのDNAシークエンサーを使って極めて正確に求められるようになったのです。勿論、一人一人の塩基配列を全部決めればより正確に個人を識別できますが、不必要な個人情報まで明らかにしてしまってプライバシーを侵害するという問題もありますし、塩基配列が決められるようになったとは言え全塩基配列を決めるのはまだまだ容易ではありません。ちょうど、個人の識別は簡単にできて全てを明らかにしてしまうわけでは無いという『ちょうど良い方法』が STR-PCR という方法なのです。
たとえば、遺伝子Aの近くにあるSTRが出現する領域を調べて繰り返し回数に4回から7回の可能性が仮にあったとしましょう。4回繰り返している人、5回繰り返している人などと分類することができますが、4から7回の可能性ですから、全ての人を4グループにしかわけることができません。しかし、染色体は母方、父方から半分づつもらっているので、これを考慮に入れると、一人の人は4回繰り返しの可能性を持つ染色体を2組持っていることになります。そこで、4x4回の16通りの組み合わせが取れるということになるでしょう。しかし、これでもまだ人を16グループにしか分類できませんので、億という単位の人間を一人一人にまで同定識別することは到底不可能です。
そこで、研究者が考えたことはこういう特徴を持つDNAの領域をもっと見つけてそれらを組み合わせて解析したらよいだろうということでした。それから暫くの間は、こうした特長を持つ遺伝子領域の発見に力が注がれることになり、今では100箇所以上にこうした分析に使える領域があることが明らかになったのです。そこで、9個所の遺伝子の場所をピックアップして、それらの組み合わせを決めるように STR-PCR 実験をすることにしたのです。
仮にAからIまで9箇所の遺伝子の領域を設定するとしましょう。A、B、C・・・という遺伝子のぞれぞれは、4回から9回というように繰り返し回数で分類できます。Aの領域では4x4の16通り、Bの領域では5x5の25通り、という具合に各領域で個々に分類できますが、9箇所全部を同時に使うと、それらの数値を全部掛け算した数だけ区別することができるようになるということになります。つまり、Aは4とおり、Bは5とおり、Cは4とおり、Dは4とおり、Eは3とおり、Fは6とおり、Gは6とおり、Hは2とおり、Iは5とおりだったとします。すると全体を組み合わせて使えば、4^2 x 5^2 x 4^2 x 4^2 x 3^2 x 6^2 x 6^2 x 2^2 x 5^2 = 1.194 x 10^11とおりの区別が可能になるということになり、実に千2百億とおりの区別が可能になるというわけです。ただ、実際に実験をしてみた場合に、本当にこれだけの区別が出来るようになるのかどうかは定かではありません。つまり、各遺伝子の領域(上のA,B,C等のこと)上で特定の繰り返し回数が好まれているという事情があれば、理論上4通りと考えられても実は3通りしかないという場合も考えられるからです。そういうことがあるとすると区別にも限界が出てきますので、その場合は調査する遺伝子の数を増やすなどの措置を取らなければなりません。現在、私達の場合は、培養細胞の識別を目的としており、世界の全人口に相当する精度を出す必要はありませんので9箇所で調べています。
そこで、問題は、遺伝子の情報が容易に知られるようになった現在という時代、これはどのように保護されるべきなのかということが問題になります。先天異常があるというような問題になり、それが理由で就職差別が起こったりするということは当然起こりうることですから、それを法律はどう守るのかということでしょうか。日本では人類遺伝学会などのガイドラインものもありますが、米国の規制法なども参考にして議論をして欲しいと思います。
このデータを巡って私達は大きく悩むことになりました。どのような悩みなのか、それについてお話したいと思います。
データの上に表示されている『compare』というボタンを押します。すると、細胞のリストが表示されますが、その中に『EV』という項目があることがわかるでしょう。EVは0と1の並び方が細胞相互でどの程度違うかと言うことを著す計算結果ですが、これが 1.000 ということはその細胞と比較した元の細胞(この例ではHeLa)と完全に一致しているということを示しています。実験の精度の問題もありますので、EVの値が 0.800 以上となっているものが同一細胞と判定できることになります(この数値を正確に知るためにグラフを利用します)。HeLa細胞の場合は比較した一覧表を順に下って眺めてゆくと EV=0.800 以上の値を示す細胞がHeLaであることはわかりますが、別の名称のついた細胞がいくつもあることに気が付くでしょう。実はこれらの細胞が間違った細胞だったのだということになるのです。本来は、そこに記載されている名称の細胞であってHeLaとは違う独立した細胞(ユニークな細胞)であるとして当初発表されたものでした。しかし、このような実験で調べてみると実はHeLa細胞だったということになってしまったのです。このような事例がJCRB細胞バンクで収集した細胞の中に16種ほどあることが明らかになりました(一覧表)。