GPT-5では出力形式を文脈自由文法で制限できるんだけど、その技術的な説明(使ってるライブラリの解説記事)。
https://guidance-ai.github.io/llguidance/llg-go-brrr
正規表現ベースのレクサとEarleyパーサを組み合わせて、LLMのトークン辞書内の各トークンに対してその場所で出現できるかというのを計算して、出現できないトークンはサンプリング時に出現確率を0にする。
この処理はGPUが計算をしている間にCPUでやるので高速にする必要があるし、初期化作業も高速にする必要がある。
正規表現エンジンはderivativeベースのもので、部分式やderivativeの計算はハッシュテーブルにキャッシュする。
LLMのトークン辞書はトライ木で表す。木を辿りながらレクサ+パーサが各バイトを受け取れるかどうかチェックして、受け取れれば子を辿る。全ての子を辿り終わった後はレクサ+パーサの状態を戻す必要がある(この辺derivativeベースのレクサ+Earleyパーサ(動的計画法ベースで表を作っていく)という構成の相性がよい?)。
パーサの方から次に許されるレクサのトークンの情報をレクサに渡して絞り込む。
「猫型ロボット」ってフランス語だとchatbotなんだろうかと思って調べてみたら、フランス語版Wikipediaの« Doraemon »だとchat-robotと説明されていた。
こういうのは去年の大統領選挙であった“Your Vote, Your Choice” (夫と違う候補にこっそり投票しても良いんですよというキャンペーン動画)などがよっぽど気にいらなかったのか、それとも逆にこういう声が元々あったからあのような動画が作られたのか。
https://bsky.app/profile/taineko399.bsky.social/post/3lvxsotu3t224
https://youtu.be/FaCPck2qDhk?si=1EY5CxeIAYW_Y6uk
ちなみに動画を作ったのは非営利団体で、主にキリスト教系の人々がプロテスタントとカトリック両方に向けて進歩的な候補への投票を呼びかけるなどの活動をしている。
「ノー・モア・ヒバクシャ」で有名な山口仙二氏の国連演説の全文が、今年の8月4日に音声と自筆原稿と共に公開されていた(音声からの書き起し)。
https://note.com/nagasaki_0809/n/nc15d105aaf15
こちらは以前からあった英語版。
https://www.ne.jp/asahi/hidankyo/nihon/english/img/820624senji-yamaguchi_speech.pdf
最近Wikipediaで~2025-000000みたいなユーザ名を見るなと思ったら仮アカウントという仕組みらしい。IPアドレスを出すのはプライバシー関係の法的に良くないということで、Cookieベースのものにしたとのこと。
国連難民高等弁務官事務所(UNHCR)では、難民に対する偽情報対策としてプレバンキング(偽情報が出る前に否定すること)をしていて、ゲーム(アナログ・デジタル両方)やInstagram動画を作ったらしい。
https://www.japanforunhcr.org/news/2025/how-can-we-protect-refugees-growing-digital-threats
https://platform.openai.com/docs/guides/predicted-outputs
https://www.anthropic.com/news/head-of-japan-hiring-plans
AI業界については電力や水の問題の他にも、労働環境の問題も気になっている。開発者のほか、強化学習用の評価をする人なども。AI業界に限らない話ではあるけど。
WindsurfはClaude Opus 4.1をリリース前に試用させてもらえたらしい。一時期は4へのアクセスをブロックされてたけど、OpenAIによる買収の可能性がなくなったから?
https://www.anthropic.com/news/claude-opus-4-1
WindsurfではOpus 4.1の価格は3.7 Sonnetの20倍に設定されてる。WindsurfのSonnet 4は定価は3.7の3倍っぽいけど期間限定で2倍になっている。
https://arxiv.org/abs/2507.21509
https://wired.jp/article/anthropic-revokes-openais-access-to-claude/
Kagiは日本語の「鍵」に由来する一方で発音はkah-geeらしんだけど、Kagiのマスコットキャラクターが犬なのはコーギーとかけている? (コーギーっぽくはない)
Kagiを試用してみる。独自インデックス由来の結果は10 %〜40 %程度で他は外部API由来の結果らしい。日本語でも英語でも検索精度は悪くないが、速度は0.7〜1.4秒程度かかる。検索範囲を「世界」に設定しても日本語の検索結果はやや優先される。
特定の検索APIを除外するような設定はないし、そもそもどのAPIを使っているのかの説明はUIやメインのドキュメントには無い(更新履歴に断片的な情報はある)。
検索結果のランキングを調整できるのを売りの1つとしているが、ドメイン単位なので「古いJavaのAPIリファレンスの優先度を下げる」といったことはできなさそう。カスタムbangを設定すれば「!java String」みたいなクエリでJavaの特定のバージョンに絞ったAPIの検索はできそう。
検索結果ページが軽量であることを持って環境負荷が低いと言っているけど、複数の検索APIに並列してクエリを送っているのであれば、純粋なGoogle検索等と比べてサーバ側のトータルの環境負荷は高くなるのでは。
Emacs 30でdefadviceが非推奨となったため、DDSKKを起動時に警告メッセージが出るようになった。define-adviceに書き換えるPRを作成した。
https://github.com/skk-dev/ddskk/pull/228
それに伴いテストを追加して別のPRとして出した(元のDDSKKにはほとんどテストが無かった)。