トークン

トークンとは？

トークンとは、自然言語処理（NLP）やプログラミングの分野で、テキストデータを扱う際の基本的な単位となる要素のことです。特に、大規模言語モデル（LLM）などの生成AIにおいては、テキストを処理する過程で、文章を意味のある小さな単位に分割するために用いられます。この分割された各単位がトークンと呼ばれ、AIが言語を理解し、生成するための基礎となります。

トークンとは、文章を分割した最小単位のことです。たとえば、「私はラーメンが好きです。」という文をトークンに分割すると、「私」「は」「ラーメン」「が」「好き」「です」「。」といった要素にわけられます。この分割方法は、言語や使用するツールによって異なり、単語、文字、サブワード（単語の一部）などがトークンとして扱われます。

トークン化は、AIがテキストデータを効率的に処理し、学習するための前処理として非常に重要なステップです。トークン化によって、AIは単語やフレーズの意味を理解し、文法的な構造を解析することが可能になります。

トークンには、大きく分けて「単語トークン」「文字トークン」「サブワードトークン」の3種類があります。

単語トークンは、スペースや句読点などの区切り文字で区切られた単語をトークンとする方法です。例えば、「I have a pen.」という文は、「I」「have」「a」「pen」「.」という5つのトークンに分割されます。

文字トークンは、文字単位でテキストを分割する方法で、日本語のように単語の区切りが明確でない言語に適しています。例えば、「私はラーメンが好きです。」という文は、「私」「は」「ラ」「ー」「メ」「ン」「が」「好」「き」「で」「す」「。」というように分割されます。

サブワードトークンは、単語をさらに細かい単位（サブワード）に分割する方法で、未知語への対応や語彙数の削減に有効です。例えば、「unbreakable」という単語は、「un」「break」「able」という3つのサブワードに分割されます。

これらのトークン化手法は、AIモデルの性能や処理効率に大きく影響を与えるため、適切な手法を選択することが重要です。

生成AIにおいて、トークンは言語モデルがテキストを生成・理解するための基本的な構成要素として機能します。

大規模言語モデル（LLM）は、大量のテキストデータを学習し、トークンの出現パターンや文脈を把握することで、自然な文章を生成する能力を獲得します。例えば、GPT-3のようなLLMは、入力されたテキストをトークンに分割し、その文脈に基づいて次につづくトークンを予測することで文章を生成します。この際、モデルは過去の学習データから得られた知識を基に、もっとも可能性の高いトークンを選択します。

また、トークンは生成AIの性能を評価する指標としても用いられます。例えば、perplexity（パープレキシティ）という指標は、モデルがテキストを予測する際の不確実性を示すもので、トークン単位での予測精度を測るために使用されます。このように、トークンは生成AIの性能向上や評価において不可欠な要素となっています。

トークンを扱う際には、いくつかの注意点があります。

まず、トークン化の方法によって、AIモデルの性能が大きく左右されるため、適切なトークン化手法を選択することが重要です。例えば、特定の言語やタスクに最適化されたトークナイザー（トークン化を行うツール）を使用することで、より高い精度でテキストを処理できます。

次に、トークンの数には制限がある場合があります。多くのLLMでは、一度に処理できるトークンの最大数が決まっており、この制限を超えるテキストを入力すると、エラーが発生したり、テキストが途中で切り捨てられたりする可能性があります。そのため、長文を扱う場合には、テキストを分割したり、要約したりするなどの工夫が必要です。

また、トークンはAIモデルの利用料金にも影響を与えることがあります。一部のクラウドサービスでは、APIの使用量に応じて課金されるため、トークン数が多いほどコストが増加する場合があります。

これらの点に注意しながら、トークンを効果的に活用することが、生成AIを使いこなすうえで重要となります。

監修

株式会社SHIFT「ヒンシツ大学」クオリティエヴァンジェリスト
林栄一

＞＞ヒンシツ大学のページへ

AI用語集一覧に戻る