AI・LLM が漢字に弱い理由

「うかんむりの漢字2文字の単語には、どのようなものがありますか?」

このような質問を ChatGPT や Google Gemini といった AI・LLM にしたことはありますか? 2026年3月現在、少しおかしな答えが返ってきます。今回はその理由を解説していきます。

「うかんむりの漢字2文字の単語には、どのようなものがありますか?」に対する AI・LLM の答え

ChatGPT

### よく使われる例

* **安定(あんてい)** ※「安」に宀あり(ただし「定」にも宀あり → OK)
* **安心(あんしん)**
* **安宅(あんたく)**
* **官室(かんしつ)**
* **宮廷(きゅうてい)**
* **宮室(きゅうしつ)**
* **家宅(かたく)**
* **宿営(しゅくえい)**
* **寄宿(きしゅく)**
* **守宮(やもり/しゅきゅう)**

### 少し難しめ・やや古風

* **寛容(かんよう)**
* **審査(しんさ)**
* **実害(じつがい)**
* **宗家(そうけ)**
* **官僚(かんりょう)**

うかんむりの漢字2文字ではない「安心」「宮廷」「宿営」「審査」「官僚」が含まれていました。

Google Gemini

### 日常・一般
* **宇宙**(うちゅう)
* **家庭**(かてい)
* **完全**(かんぜん)
* **安心**(あんしん)
* **宣伝**(せんでん)
* **宗教**(しゅうきょう)
* **容量**(ようりょう)
* **客室**(きゃくしつ)

### 法律・政治
* **憲法**(けんぽう)
* **官邸**(かんてい)
* **室長**(しつちょう)
* **密輸**(みつゆ)

### 住まい・建物
* **宿舎**(しゅくしゃ)
* **宮殿**(きゅうでん)
* **茶室**(ちゃしつ)
* **寮内**(りょうない)

うかんむりの漢字2文字なのは「宇宙」「客室」だけでした。ChatGPT よりひどい結果です。

なぜ AI・LLM は不正確な回答をしたのか?

AI・LLM は漢字の意味や成り立ち、使い方などは理解していますが、適切な内容を予測し文章を生成するのが本来の役割です。そのため、漢字を漢字としてではなく「意味」と「文脈」で捉え、部首や画数といった具体的な「形状」ではなく抽象的な「コード」として捉え、確率的に正しい「もっともらしい」回答をします。その結果が不正確な回答 (ハルシネーション) の原因になっています。

例えるなら「左脳 (具体) では理解できているが、右脳 (抽象) では理解できていない」というあべこべな状態です。

どのように質問すれば良いのか?

文字コードの標準規格である Unicode には、CJK統合漢字 という 一 から 鿿 までの漢字が収録されています。この中で、うかんむりの部分は 宀 (宀) から 寷 (寷) になります。

Unicode の CJK統合漢字 のうかんむりを含む部分
0123456789ABCDEF
5B80
5B90
5BA0
5BB0宿
5BC0
5BD0
5BE0
5BF0寿

左脳だけで理解できるよう、「Unicode の 宀 から 寷 を使い2文字の単語になるものは、どのようなものがありますか?」と具体的に質問してみました。

「Unicode の 宀 から 寷 を使い2文字の単語になるものは、どのようなものがありますか?」に対する AI・LLM の答え

ChatGPT

## 代表例(両方とも宀系)

* 安定(あんてい)
* 安宅(あんたく)
* 安室(あんしつ/あむろ)
* 宮廷(きゅうてい)
* 宮室(きゅうしつ)
* 宮家(きゅうけ)
* 守宮(やもり/しゅきゅう)
* 守安(しゅあん・人名など)
* 宗家(そうけ)
* 宗室(そうしつ)
* 官室(かんしつ)
* 官庁(かんちょう)※「庁」も範囲内
* 実害(じつがい)
* 実定(じってい)
* 定室(ていしつ)
* 定家(ていか)
* 審査(しんさ)
* 審定(しんてい)
* 寛容(かんよう)
* 寛政(かんせい)
* 寝室(しんしつ)
* 宿営(しゅくえい)
* 寄宿(きしゅく)

うかんむりの漢字2文字ではない「宮廷」「官庁」「審査」「寛政」「宿営」が含まれてはいますが、最初に比べ多くの組み合わせを答えています。

Google Gemini

### 代表的な熟語
* **宇宙** (U+5B87 / U+5B99)
* **家庭** (U+5BA6 / U+5庭 ※)
    * *補足: 「庭」はうかんむりではないため、厳密に範囲内なのは **家** (U+5BA6) のみです。*
* **宴会** (U+5BB4 / 会) 
* **密室** (U+5BC6 / U+5BA4)
* **客室** (U+5BA2 / U+5BA4)
* **宮室** (U+5BAE / U+5BA4)
* **宣官** (U+5BA3 / U+5官 ※古語的)
* **宰官** (U+5BB0 / U+5官)

うかんむりの漢字2文字ではない「家庭」「宴会」が含まれてはいますが、最初に比べ答えが正確になっています。

AI・LLM との対話における問題点

AI・LLM は「もっともらしい」回答を生成するように作られているため、分からないことに対して「分かりません」とは言いません。しかし、対話というのは相手が分かること・分からないことを把握しなければ成立しません。

AI・LLM が分かること・分からないことをユーザーに示さなければ、ユーザーは正しい質問をすることができず、対話が成立しなくなってしまいます。現時点の AI・LLM との対話における問題の多くは、対話自体が成立していないことに起因しているのだと思います。

私が知りたかった、うかんむりの漢字2文字は「家宝」でした。

関連記事