【あざい るぅか🔁AIVtuberをアジャイル開発で育成】13億パラメータの日本語のGPT言語モデル rinna/japanese-gpt-1bの使い方。Google Colabの無料枠で試してみた【あざい るぅか】



あざい るぅか🔁AIVtuberをアジャイル開発で育成 :13億パラメータの日本語のGPT言語モデル rinna/japanese-gpt-1bの使い方。Google Colabの無料枠で試してみた【あざい るぅか】

13億パラメータの日本語のGPT言語モデル rinna/japanese-gpt-1bの使い方。Google Colabの無料枠で試してみた【あざい るぅか】

日本語の #言語モデル で13億パラメータあるそうです。りんなさん、凄いっ。
速報で使い方を検証した動画なので無音です。
無編集にしてあるのでチャプター単位で実際の処理時間も確認いただけます。
#GoogleColab #rinna
2022/12/06 パラメーターのキー名が変わったようなので、更新しました。
変更後:bad_words_ids
変更前:bad_word_ids

ValueError: The following `model_kwargs` are not used by the model: [‘bad_word_ids’] (note: typos in the generate arguments will also show up in this list)

【手順】
0:00 ランタイムの設定とパッケージの導入
ランタイムにGPUを割り当てます。
!nvidia-smi
!pip install transformers[ja]
!pip install sentencepiece
ランタイムを再起動します。

1:56 tokenizerとmodelの導入
import torch
from transformers import T5Tokenizer, AutoModelForCausalLM
tokenizer = T5Tokenizer.from_pretrained(“rinna/japanese-gpt-1b”)
model = AutoModelForCausalLM.from_pretrained(“rinna/japanese-gpt-1b”)

3:53 cudaの適用
if torch.cuda.is_available():
model = model.to(“cuda”)

4:14 rinna/japanese-gpt-1bの実行
text = “Vtuber あざい るぅかは、”
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors=”pt”)
with torch.no_grad():
output_ids = model.generate(
token_ids.to(model.device),
max_length=100,
min_length=100,
do_sample=True,
top_k=500,
top_p=0.95,
pad_token_id=tokenizer.pad_token_id,
bos_token_id=tokenizer.bos_token_id,
eos_token_id=tokenizer.eos_token_id,
bad_words_ids=[[tokenizer.unk_token_id]]
)
output = tokenizer.decode(output_ids.tolist()[0])
print(output)

5:12 生成された日本語の例

【備考】
AttributeError: ‘NoneType’ object has no attribute ‘encode’ tokenizer
というエラーメッセージが出た場合は以下を疑ってみてください。

・pip installを使ったパッケージの導入が不足している。
・「transformers[ja]」ではなく「transformers」を導入した。
・pip installを終えたあとランタイムを再起動していない。

【参考】
https://huggingface.co/rinna/japanese-gpt-1b

日本語に特化した13億パラメータのGPT言語モデルを公開
https://rinna.co.jp/%E3%83%8B%E3%83%A5%E3%83%BC%E3%82%B9/f/%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%81%AB%E7%89%B9%E5%8C%96%E3%81%97%E3%81%9F13%E5%84%84%E3%83%91%E3%83%A9%E3%83%A1%E3%83%BC%E3%82%BF%E3%81%AEgpt%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB%E3%82%92%E5%85%AC%E9%96%8B