kotoba-whisper-v2.0,v2.1,v2.2の違いを検証

この記事は約22分で読めます。

kotoba-whisper-v2.1,kotoba-whisper-v2.2 と試してみたので、ついでにkotoba-whisper-v2.0
も試してみた。

テストデータ

試すにあたり丁度良い長さの音声を探していたのだが、アナウンスハウス松山合同会社の北野由美氏「坊ちゃん」のデータを利用させて貰った。サンプル音声は93秒である。
文章は青空文庫の坊ちゃんからの引用である

親譲りの無鉄砲で小供の時から損ばかりしている。小学校に居る時分学校の二階から飛び降りて一週間ほど腰を抜かした事がある。なぜそんな無闇をしたと聞く人があるかも知れぬ。別段深い理由でもない。新築の二階から首を出していたら、同級生の一人が冗談に、いくら威張っても、そこから飛び降りる事は出来まい。弱虫やーい。と囃したからである。小使に負ぶさって帰って来た時、おやじが大きな眼をして二階ぐらいから飛び降りて腰を抜かす奴があるかと云ったから、この次は抜かさずに飛んで見せますと答えた。
 親類のものから西洋製のナイフを貰って奇麗な刃を日に翳して、友達に見せていたら、一人が光る事は光るが切れそうもないと云った。切れぬ事があるか、何でも切ってみせると受け合った。そんなら君の指を切ってみろと注文したから、何だ指ぐらいこの通りだと右の手の親指の甲をはすに切り込んだ。幸ナイフが小さいのと、親指の骨が堅かったので、今だに親指は手に付いている。しかし創痕は死ぬまで消えぬ。

プログラムの調整

kotoba-whisper-v2.0の環境設定はとても簡単だった。v2.1が動く環境ならそのまま動く。
モデルのダウンロードが必要だが、こちらはプログラムを動かせば勝手にダウンロードしてくれる。ただ自分の環境だと、またもや1時間コースだった。。。
一応、こんな感じにサンプルを変更してみて実行時間も測定してみる。
尚、Pythonを触って10時間程度スキルしか無い。

import time
....
#start
start_time = time.time() 
# run inference
result = pipe("kitano-boccyann.mp3", chunk_length_s=15, return_timestamps=True ,generate_kwargs=generate_kwargs)
print(result)
#end
print(time.time()-start_time)

kotoba-whisper-v2.0の標準サンプルだと、タイムスタンプやchunk_length_sの指定が無かったのだが追加してみる。
chunk_length_sは長い音声ファイルを使用するときに使うらしい。モデルによって最適な数値は変わるようだが、通常は指定した方が良さそうである。

検証に使ったPCは以下のとおり。少々前に流行したスペックだ。

MB:Deskmini X300
CPU:Ryzen 7 PRO 4750G (ただしcTDP 45Wに制限)
MEMORY:DDR4-3200 32GB
SSD:WD Black SN750 NVMe

kotoba-whisper-v2.0 chunk_length_sの指定無し版

まずは、kotoba-whisper-v2.0の、ほぼサンプルのままのテスト結果

{‘text’: ‘ぼっちゃん、夏目漬け親譲りの無鉄砲で子供の時から損ばかりしている小学校にいる自分、学校の2階から飛び降りて1週間ほど腰を抜かしたことがあるかもしれぬなぜそんなむやみをしたと聞く人があるかもしれぬ別段深い理由でもない冗談にいくら威張ってもそこから飛び降りることはできまい弱虫やーいと生やいと生やしたから子遣いにおぶさって帰って帰ってきたときれいな歯をきれいな葉を飛びて腰を抜かすやつがあるかとこの次は抜かさずに飛んでみせますと答えた新類のものから一人が光ることは光るが切れそうもないと言った切れぬことがあるか何でも切ってみせると受け合ったそんなに指を切ってみろと注文したからいまだに親指は手についているしかしないないな手の親指の甲を蓮に切り込んだ幸いナイフが小さいな指の骨が固かったのでいまだに親指は手についているしかし傷跡は死ぬまで消えぬ’, ‘chunks’: [{‘timestamp’: (0.0, 3.5), ‘text’: ‘ぼっちゃん、夏目漬け’}, {‘timestamp’: (3.5, 9.28), ‘text’: ‘親譲りの無鉄砲で子供の時から損ばかりしている’}, {‘timestamp’: (9.28, 14.36), ‘text’: ‘小学校にいる自分、学校の2階から飛び降りて’}, {‘timestamp’: (14.36, 17.5), ‘text’: ‘1週間ほど腰を抜かしたことがあるかもしれぬ’}, {‘timestamp’: (17.5, 20.5), ‘text’: ‘なぜそんなむやみをしたと聞く人があるかもしれぬ’}, {‘timestamp’: (20.5, 24.54), ‘text’: ‘別段深い理由でもない’}, {‘timestamp’: (0.0, 4.88), ‘text’: ‘冗談にいくら威張ってもそこから飛び降りることはできまい’}, {‘timestamp’: (4.88, 7.0), ‘text’: ‘弱虫やーいと生やいと生やしたから’}, {‘timestamp’: (7.0, 13.0), ‘text’: ‘子遣いにおぶさって帰って帰ってきたときれいな歯を’}, {‘timestamp’: (13.0, 17.08), ‘text’: ‘きれいな葉を飛びて腰を抜かすやつがあるかと’}, {‘timestamp’: (17.08, 20.5), ‘text’: ‘この次は抜かさずに飛んでみせますと答えた’}, {‘timestamp’: (20.5, 20.52), ‘text’: ‘新類のものから’}, {‘timestamp’: (0.0, 2.7), ‘text’: ‘一人が光ることは光るが’}, {‘timestamp’: (2.7, 4.34), ‘text’: ‘切れそうもないと言った’}, {‘timestamp’: (4.34, 8.74), ‘text’: ‘切れぬことがあるか何でも切ってみせると受け合った’}, {‘timestamp’: (8.74, 12.84), ‘text’: ‘そんなに指を切ってみろと注文したから’}, {‘timestamp’: (12.84, 15.3), ‘text’: ‘いまだに親指は手についている’}, {‘timestamp’: (15.3, 19.26), ‘text’: ‘しかしないないな手の親指の甲を蓮に切り込んだ’}, {‘timestamp’: (19.26, 24.84), ‘text’: ‘幸いナイフが小さいな指の骨が固かったので’}, {‘timestamp’: (0.0, 2.44), ‘text’: ‘いまだに親指は手についている’}, {‘timestamp’: (2.44, 6.36), ‘text’: ‘しかし傷跡は死ぬまで消えぬ’}]}
40.79887413978577

約40.8秒で文字起こしが完了した。十分理解できるレベルで文字起こしができている。CPUのみでも実時間の半分以下である。

kotoba-whisper-v2.0 chunk_length_s=15を指定

v2.1,v2.2と同じchunk_length_s=15を指定してみた。ほぼ同じ条件になるのかな?

{‘text’: ‘ぼっちゃん夏目漱石親譲りの無鉄砲で子供の時から損ばかりしている小学校にいる自分学校の2階から飛び降りて1週間ほど腰を抜かしたことがあるなぜそんなむやみをしたと聞く人があるかもしれぬ別段深い理由でもない新築の2階から首を出していたら同級生の一人が冗談にいくら威張ってもそこから飛び降りることはできまい弱虫やーいと林からである小遣いにおぶさって帰ってきた時親父が大きな目をして2回ぐらいから飛び降りて腰を抜かすやつがあるかと言ったからこの次は抜かさずに飛んでみせますと答えた親類のものから西洋製のナイフをもらってきれいな葉を火にかざして友達に見せていたら一人が光ることは光るが切れそうもないと言った切れぬことがあるか何でも切ってみせると受け合ったそんなら君の指を切ってみろと注文したからなんだ指ぐらいこの通りだと右の手の親指の甲をハスに切り込んだ幸いナイフが小さいのと親指の骨が硬かったのでいまだに親指は手についているしかし傷跡は死ぬまで消えぬ’, ‘chunks’: [{‘timestamp’: (0.0, 3.44), ‘text’: ‘ぼっちゃん夏目漱石’}, {‘timestamp’: (3.44, 9.3), ‘text’: ‘親譲りの無鉄砲で子供の時から損ばかりしている’}, {‘timestamp’: (9.3, 11.9), ‘text’: ‘小学校にいる自分’}, {‘timestamp’: (11.9, 14.28), ‘text’: ‘学校の2階から飛び降りて’}, {‘timestamp’: (14.28, 17.18), ‘text’: ‘1週間ほど腰を抜かしたことがある’}, {‘timestamp’: (17.18, 21.58), ‘text’: ‘なぜそんなむやみをしたと聞く人があるかもしれぬ’}, {‘timestamp’: (21.58, 24.56), ‘text’: ‘別段深い理由でもない’}, {‘timestamp’: (24.56, 28.54), ‘text’: ‘新築の2階から首を出していたら’}, {‘timestamp’: (28.54, 30.42), ‘text’: ‘同級生の一人が’}, {‘timestamp’: (30.42, 34.64), ‘text’: ‘冗談にいくら威張ってもそこから飛び降りることはできまい’}, {‘timestamp’: (34.64, 37.0), ‘text’: ‘弱虫やーいと林からである’}, {‘timestamp’: (37.0, 40.52), ‘text’: ‘小遣いにおぶさって帰ってきた時’}, {‘timestamp’: (40.52, 47.08), ‘text’: ‘親父が大きな目をして2回ぐらいから飛び降りて腰を抜かすやつがあるかと言ったから’}, {‘timestamp’: (47.08, 56.18), ‘text’: ‘この次は抜かさずに飛んでみせますと答えた親類のものから西洋製のナイフをもらって’}, {‘timestamp’: (56.18, 60.08), ‘text’: ‘きれいな葉を火にかざして友達に見せていたら’}, {‘timestamp’: (60.08, 64.26), ‘text’: ‘一人が光ることは光るが切れそうもないと言った’}, {‘timestamp’: (64.26, 68.74), ‘text’: ‘切れぬことがあるか何でも切ってみせると受け合った’}, {‘timestamp’: (68.74, 72.84), ‘text’: ‘そんなら君の指を切ってみろと注文したから’}, {‘timestamp’: (72.84, 75.78), ‘text’: ‘なんだ指ぐらいこの通りだと’}, {‘timestamp’: (75.78, 79.24), ‘text’: ‘右の手の親指の甲をハスに切り込んだ’}, {‘timestamp’: (79.24, 84.9), ‘text’: ‘幸いナイフが小さいのと親指の骨が硬かったので’}, {‘timestamp’: (84.9, 87.28), ‘text’: ‘いまだに親指は手についている’}, {‘timestamp’: (87.28, 91.16), ‘text’: ‘しかし傷跡は死ぬまで消えぬ’}]}
82.40455508232117

いきなり倍の時間がかかってしまった。
ただ「夏目漬け」が適切に「夏目漱石」になっている。
良く見ると全体的に認識率が上がっているっぽい。漢字がおかしいだけで、より自然な日本語だ。

kotoba-whisper-v2.1 chunk_length_s=15を指定

v2.0の句読点対応版。自分が一番最初にテストしてみたモデルだ。ほぼサンプルプログラムのままである。

{‘text’: ‘ぼっちゃん夏目漱石。親譲りの無鉄砲で、子供の時から損ばかりしている。小学校にいる自分。学校の2階から飛び降りて。1週間ほど腰を抜かしたことがある。なぜそんなむやみをしたと聞く人があるかもしれぬ。別段深い理由でもない。新築の2階から首を出していたら。同級生の一人が。冗談にいくら威張っても、そこから飛び降りることはできまい。弱虫やーいと林からである。小遣いにおぶさって帰ってきた時。親父が大きな目をして2回ぐらいから飛び降りて腰を抜かすやつがあるかと言ったから。この次は抜かさずに飛んでみせますと答えた親類のものから、西洋製のナイフをもらって。きれいな葉を火にかざして、友達に見せていたら。一人が光ることは光るが、切れそうもないと言った。切れぬことがあるか、何でも切ってみせると受け合った。そんなら君の指を切ってみろと注文したから。なんだ指ぐらいこの通りだと。右の手の親指の甲をハスに切り込んだ。幸い、ナイフが小さいのと、親指の骨が硬かったので。いまだに親指は手についている。しかし、傷跡は死ぬまで消えぬ。’, ‘chunks’: [{‘timestamp’: (0.0, 3.44), ‘text’: ‘ぼっちゃん夏目漱石。’}, {‘timestamp’: (3.44, 9.3), ‘text’: ‘親譲りの無鉄砲で、子供の時から損ばかりしている。’}, {‘timestamp’: (9.3, 11.9), ‘text’: ‘小学校にいる自分。’}, {‘timestamp’: (11.9, 14.28), ‘text’: ‘学校の2階から飛び降りて。’}, {‘timestamp’: (14.28, 17.18), ‘text’: ‘1週間ほど腰を抜かしたことがある。’}, {‘timestamp’: (17.18, 21.58), ‘text’: ‘なぜそんなむやみをしたと聞く人があるかもしれぬ。’}, {‘timestamp’: (21.58, 24.56), ‘text’: ‘別段深い理由でもない。’}, {‘timestamp’: (24.56, 28.54), ‘text’: ‘新築の2階から首を出していたら。’}, {‘timestamp’: (28.54, 30.42), ‘text’: ‘同級生の一人が。’}, {‘timestamp’: (30.42, 34.64), ‘text’: ‘冗談にいくら威張っても、そこから飛び降りることはできまい。’}, {‘timestamp’: (34.64, 37.0), ‘text’: ‘弱虫やーいと林からである。’}, {‘timestamp’: (37.0, 40.52), ‘text’: ‘小遣いにおぶさって帰ってきた時。’}, {‘timestamp’: (40.52, 47.08), ‘text’: ‘親父が大きな目をして2回ぐらいから飛び降りて腰を抜かすやつがあるかと言ったから。’}, {‘timestamp’: (47.08, 56.18), ‘text’: ‘この次は抜かさずに飛んでみせますと答えた親類のものから、西洋製のナイフをもらって。’}, {‘timestamp’: (56.18, 60.08), ‘text’: ‘きれいな葉を火にかざして、友達に見せていたら。’}, {‘timestamp’: (60.08, 64.26), ‘text’: ‘一人が光ることは光るが、切れそうもないと言った。’}, {‘timestamp’: (64.26, 68.74), ‘text’: ‘切れぬことがあるか、何でも切ってみせると受け合った。’}, {‘timestamp’: (68.74, 72.84), ‘text’: ‘そんなら君の指を切ってみろと注文したから。’}, {‘timestamp’: (72.84, 75.78), ‘text’: ‘なんだ指ぐらいこの通りだと。’}, {‘timestamp’: (75.78, 79.24), ‘text’: ‘右の手の親指の甲をハスに切り込んだ。’}, {‘timestamp’: (79.24, 84.9), ‘text’: ‘幸い、ナイフが小さいのと、親指の骨が硬かったので。’}, {‘timestamp’: (84.9, 87.28), ‘text’: ‘いまだに親指は手についている。’}, {‘timestamp’: (87.28, 91.16), ‘text’: ‘しかし、傷跡は死ぬまで消えぬ。’}]}
68.16942620277405

句読点が入って多少読みやすくなったかな?
ただ句読点の使い方が若干あやしい。
v2.0のchunk_length_s=15と同じくらいの認識率だ。しかも若干速いが理由は全く分からない。。。

kotoba-whisper-v2.2 chunk_length_s=15を指定

v2.1の話者分離対応版。こちらも、ほぼサンプルプログラムのままである

{‘chunks’: [{‘timestamp’: [0.89, 1.79], ‘text’: ‘ぼっちゃん’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [2.29, 3.71], ‘text’: ‘夏目漱石’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [4.92, 9.48], ‘text’: ‘親譲りの無鉄砲で子供の時から損ばかりしている’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [10.43, 17.29], ‘text’: ‘小学校にいる自分、学校の2階から飛び降りて1週間ほど腰を抜かしたことがある。’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [18.34, 21.75], ‘text’: ‘なぜそんなむやみをしたと聞く人があるかもしれぬ’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [22.68, 24.72], ‘text’: ‘別段深い理由でもない’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [25.87, 28.58], ‘text’: ‘新築の2階から首を出していたら’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [28.79, 37.11], ‘text’: ‘同級生の一人が冗談にいくら威張ってもそこから飛び降りることはできまい’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [34.63, 42.95], ‘text’: ‘弱虫やーいと生やしたからである’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [38.39, 40.8], ‘text’: ‘小遣いにおぶさって帰ってきた時’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [41.12, 43.13], ‘text’: ‘親父が大きな目をして’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [43.37, 47.45], ‘text’: ‘2回ぐらいから飛び降りて腰を抜かすやつがあるかと言ったから’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [47.5, 50.67], ‘text’: ‘この次は抜かさずに飛んでみせますと答えた’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [52.85, 60.16], ‘text’: ‘親類のものから西洋製のナイフをもらって’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [56.19, 63.5], ‘text’: ‘きれいな葉を火にかざして’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [58.29, 65.6], ‘text’: ‘友達に見せていたら’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [60.7, 64.43], ‘text’: ‘一人が光ることは光るが切れそうもないと言った’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [65.35, 68.91], ‘text’: ‘切れぬことがあるか何でも切ってみせると受け合った’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [69.89, 73.05], ‘text’: ‘そんなら君の指を切ってみろと注文したから’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [73.25, 79.38], ‘text’: ‘なんだ指ぐらいこの通りだと右の手の親指の甲を蓮に切り込んだ’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [80.56, 87.46], ‘text’: ‘幸いナイフが小さいのと親指の骨が硬かったので’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [84.88, 91.78], ‘text’: ‘いまだに親指は手についている’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [88.3, 91.26], ‘text’: ‘しかし傷跡は死ぬまで消えぬ’, ‘speaker_id’: ‘SPEAKER_00’}], ‘speaker_ids’: [‘SPEAKER_00’], ‘chunks/SPEAKER_00’: [{‘timestamp’: [0.89, 1.79], ‘text’: ‘ぼっちゃん’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [2.29, 3.71], ‘text’: ‘夏目漱石’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [4.92, 9.48], ‘text’: ‘親譲りの無鉄砲で子供の時から損ばかりしている’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [10.43, 17.29], ‘text’: ‘小学校にいる自分、学校の2階から飛び降りて1週間ほど腰を抜かしたことがある。’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [18.34, 21.75], ‘text’: ‘なぜそんなむやみをしたと聞く人があるかもしれぬ’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [22.68, 24.72], ‘text’: ‘別段深い理由でもない’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [25.87, 28.58], ‘text’: ‘新築の2階から首を出していたら’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [28.79, 37.11], ‘text’: ‘同級生の一人が冗談にいくら威張ってもそこから飛び降りることはできまい’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [34.63, 42.95], ‘text’: ‘弱虫やーいと生やしたからである’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [38.39, 40.8], ‘text’: ‘小遣いにおぶさって帰ってきた時’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [41.12, 43.13], ‘text’: ‘親父が大きな目をして’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [43.37, 47.45], ‘text’: ‘2回ぐらいから飛び降りて腰を抜かすやつがあるかと言ったから’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [47.5, 50.67], ‘text’: ‘この次は抜かさずに飛んでみせますと答えた’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [52.85, 60.16], ‘text’: ‘親類のものから西洋製のナイフをもらって’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [56.19, 63.5], ‘text’: ‘きれいな葉を火にかざして’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [58.29, 65.6], ‘text’: ‘友達に見せていたら’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [60.7, 64.43], ‘text’: ‘一人が光ることは光るが切れそうもないと言った’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [65.35, 68.91], ‘text’: ‘切れぬことがあるか何でも切ってみせると受け合った’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [69.89, 73.05], ‘text’: ‘そんなら君の指を切ってみろと注文したから’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [73.25, 79.38], ‘text’: ‘なんだ指ぐらいこの通りだと右の手の親指の甲を蓮に切り込んだ’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [80.56, 87.46], ‘text’: ‘幸いナイフが小さいのと親指の骨が硬かったので’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [84.88, 91.78], ‘text’: ‘いまだに親指は手についている’, ‘speaker_id’: ‘SPEAKER_00’}, {‘timestamp’: [88.3, 91.26], ‘text’: ‘しかし傷跡は死ぬまで消えぬ’, ‘speaker_id’: ‘SPEAKER_00’}], ‘text/SPEAKER_00’: ‘ぼっちゃん夏目漱石親譲りの無鉄砲で子供の時から損ばかりしている小学校にいる自分、学校の2階から飛び降りて1週間ほど腰を抜かしたことがある。なぜそんなむやみをしたと聞く人があるかもしれぬ別段深い理由でもない新築の2階から首を出していたら同級生の一人が冗談にいくら威張ってもそこから飛び降りることはできまい弱虫やーいと生やしたからである小遣いにおぶさって帰ってきた時親父が大きな目をして2回ぐらいから飛び降りて腰を抜かすやつがあるかと言ったからこの次は抜かさずに飛んでみせますと答えた親類のものから西洋製のナイフをもらってきれいな葉を火にかざして友達に見せていたら一人が光ることは光るが切れそうもないと言った切れぬことがあるか何でも切ってみせると受け合ったそんなら君の指を切ってみろと注文したからなんだ指ぐらいこの通りだと右の手の親指の甲を蓮に切り込んだ幸いナイフが小さいのと親指の骨が硬かったのでいまだに親指は手についているしかし傷跡は死ぬまで消えぬ’}
189.16594123840332

話者1名をちゃんと認識しているようだ。
句読点が減ってしまったし、認識時間は倍以上に増えてしまった。
ただ認識率は、v2.1とそんなに変わらない。
ちょっと遅いので、本気で利用する場合はGPU必須な感じがする。

まとめ

単に文字起こしをしたい場合は、今のところkotoba-whisper-v2.1が良さそうだ。句読点があると読みやすい。
パラメータを最適化するのであれば、違う評価にもなるのだろうけど。
試しにv2.1について、chunk_length_sの指定無しだと40秒だった。高速化したが認識率も下がってしまった。同じように「夏目漱石」が「夏目漬け」になってしまったし。

v2.2は話者分離が必要な場合のみ使用という感じだろうか。正直環境設定が大変だったので、万人が気軽に使えるような気がしない。Hugging Faceの登録も必要で状況により有料になる。GPUを所有していてガッツリ使う場合に良いのだろう。上級者向けな気がする。
ちなみにサンプルの音声はプロの方なのでとても美しく聞きやすい。そのため通常より認識率が高いと思われる。一般人の録音データの文字起こしでは参考にならないかもしれない。ちなみに自分が必要だった文字起こしはテストのような、きれいな文字起こしでは無い。必要に応じて自力でタイプ修正する必要がありそうだ。

こんなツールが無料で提供されているのは、とても驚きだ。すごい時代になったものである。
MS-DOSの時代だったら、ありえない技術だ。当時の数値演算コプロセッサが今のGPUなのか?
老兵はもう時代に取り残されていて、全くついていけない。。。

コメント