p.tatapa.org

p.tatapa.org

ると | @ruto@p.tatapa.org

プログラミング(関数型言語とJava多め)、その他言葉遊びなどを書いてます。アイコンは「腕時計」。ヘッダー画像は2-3フィンガーツリー。

GPT-5では出力形式を文脈自由文法で制限できるんだけど、その技術的な説明(使ってるライブラリの解説記事)。

https://guidance-ai.github.io/llguidance/llg-go-brrr

正規表現ベースのレクサとEarleyパーサを組み合わせて、LLMのトークン辞書内の各トークンに対してその場所で出現できるかというのを計算して、出現できないトークンはサンプリング時に出現確率を0にする。

この処理はGPUが計算をしている間にCPUでやるので高速にする必要があるし、初期化作業も高速にする必要がある。

正規表現エンジンはderivativeベースのもので、部分式やderivativeの計算はハッシュテーブルにキャッシュする。

LLMのトークン辞書はトライ木で表す。木を辿りながらレクサ+パーサが各バイトを受け取れるかどうかチェックして、受け取れれば子を辿る。全ての子を辿り終わった後はレクサ+パーサの状態を戻す必要がある(この辺derivativeベースのレクサ+Earleyパーサ(動的計画法ベースで表を作っていく)という構成の相性がよい?)。

パーサの方から次に許されるレクサのトークンの情報をレクサに渡して絞り込む。

「猫型ロボット」ってフランス語だとchatbotなんだろうかと思って調べてみたら、フランス語版Wikipediaの« Doraemon »だとchat-robotと説明されていた。

https://fr.wikipedia.org/wiki/Doraemon

こういうのは去年の大統領選挙であった“Your Vote, Your Choice” (夫と違う候補にこっそり投票しても良いんですよというキャンペーン動画)などがよっぽど気にいらなかったのか、それとも逆にこういう声が元々あったからあのような動画が作られたのか。

https://bsky.app/profile/taineko399.bsky.social/post/3lvxsotu3t224

https://youtu.be/FaCPck2qDhk?si=1EY5CxeIAYW_Y6uk

ちなみに動画を作ったのは非営利団体で、主にキリスト教系の人々がプロテスタントとカトリック両方に向けて進歩的な候補への投票を呼びかけるなどの活動をしている。

https://www.votecommongood.com/what-and-why/

「ノー・モア・ヒバクシャ」で有名な山口仙二氏の国連演説の全文が、今年の8月4日に音声と自筆原稿と共に公開されていた(音声からの書き起し)。

https://note.com/nagasaki_0809/n/nc15d105aaf15

こちらは以前からあった英語版。

https://www.ne.jp/asahi/hidankyo/nihon/english/img/820624senji-yamaguchi_speech.pdf

最近Wikipediaで~2025-000000みたいなユーザ名を見るなと思ったら仮アカウントという仕組みらしい。IPアドレスを出すのはプライバシー関係の法的に良くないということで、Cookieベースのものにしたとのこと。

https://diff.wikimedia.org/2024/11/05/say-hi-to-temporary-accounts-easier-collaboration-with-logged-out-editors-with-better-privacy-protection/

国連難民高等弁務官事務所(UNHCR)では、難民に対する偽情報対策としてプレバンキング(偽情報が出る前に否定すること)をしていて、ゲーム(アナログ・デジタル両方)やInstagram動画を作ったらしい。

https://www.japanforunhcr.org/news/2025/how-can-we-protect-refugees-growing-digital-threats

TIL: OpenAIの一部のモデルには、「予測される出力」を与えてレイテンシを下げられる機能がある。ソースコードの一部のみ編集するとき、元のソースコードを渡すとかする。おそらく投機的デコーディングみたいなことをやってるんだと思うけど、マッチするのは先頭以外でもよい。

https://platform.openai.com/docs/guides/predicted-outputs

こようえ あつつづ (暦の上では秋ですが、まだまだ暑い日が続きます)

文中に“Google Cloud Vertex A”という脱字がある。Intelligenceが欠けている。

https://www.anthropic.com/news/head-of-japan-hiring-plans

OpenAIがアメリカ政府にChatGPT Enterpriseをほぼ無料で提供するのって何らかの法に引っかからないんだろうか。さすがにそこは検討した上でやってるんだろうけど……。

部屋の通気口に扉をつけて、外から遅い分子が来るときと中から速い分子が出ていくときだけ開けたい。あと水分子が出ていくとき。

AI業界については電力や水の問題の他にも、労働環境の問題も気になっている。開発者のほか、強化学習用の評価をする人なども。AI業界に限らない話ではあるけど。

https://techcrunch.com/2025/08/05/three-weeks-after-acquiring-windsurf-cognition-offers-staff-the-exit-door/

WindsurfはClaude Opus 4.1をリリース前に試用させてもらえたらしい。一時期は4へのアクセスをブロックされてたけど、OpenAIによる買収の可能性がなくなったから?

https://www.anthropic.com/news/claude-opus-4-1

WindsurfではOpus 4.1の価格は3.7 Sonnetの20倍に設定されてる。WindsurfのSonnet 4は定価は3.7の3倍っぽいけど期間限定で2倍になっている。

https://docs.windsurf.com/windsurf/models

gpt-ossの“oss”はなんの略?

黒ネコのタンゴ

欲しいものリスト

Anthropicは自社の研究でGPT-4.1 miniを使っている(QwenやLlamaの出力が指示に従っているかの評価に使っている)のに、OpenAIに対してはモデルへのアクセスを遮断するんだ。Anthropicのは基礎研究であって製品の開発ではないという主張なのかもしれないけど、あまりフェアでないように感じる。

https://arxiv.org/abs/2507.21509

https://wired.jp/article/anthropic-revokes-openais-access-to-claude/

ゲームでバッドエンドに実績とかイベントCG付けるのは良くないのでは。プレイヤとゲームの最後の体験がバッドエンドの回収というのは間違っている。

Kagiは日本語の「鍵」に由来する一方で発音はkah-geeらしんだけど、Kagiのマスコットキャラクターが犬なのはコーギーとかけている? (コーギーっぽくはない)

https://help.kagi.com/kagi/company/#what-does-kagi-mean

Kagiを試用してみる。独自インデックス由来の結果は10 %〜40 %程度で他は外部API由来の結果らしい。日本語でも英語でも検索精度は悪くないが、速度は0.7〜1.4秒程度かかる。検索範囲を「世界」に設定しても日本語の検索結果はやや優先される。

特定の検索APIを除外するような設定はないし、そもそもどのAPIを使っているのかの説明はUIやメインのドキュメントには無い(更新履歴に断片的な情報はある)。

検索結果のランキングを調整できるのを売りの1つとしているが、ドメイン単位なので「古いJavaのAPIリファレンスの優先度を下げる」といったことはできなさそう。カスタムbangを設定すれば「!java String」みたいなクエリでJavaの特定のバージョンに絞ったAPIの検索はできそう。

検索結果ページが軽量であることを持って環境負荷が低いと言っているけど、複数の検索APIに並列してクエリを送っているのであれば、純粋なGoogle検索等と比べてサーバ側のトータルの環境負荷は高くなるのでは。

https://help.kagi.com/kagi/search-details/search-speed.html

Emacs 30でdefadviceが非推奨となったため、DDSKKを起動時に警告メッセージが出るようになった。define-adviceに書き換えるPRを作成した。

https://github.com/skk-dev/ddskk/pull/228

それに伴いテストを追加して別のPRとして出した(元のDDSKKにはほとんどテストが無かった)。

https://github.com/skk-dev/ddskk/pull/227

»