p.tatapa.org

p.tatapa.org

ると | @ruto@p.tatapa.org

コンピュータ関連、その他言葉遊びなどを書いてます。アイコンは「腕時計」。ヘッダー画像は2-3フィンガーツリー。

JPYC社はアカウントを停止できるので、「介入なし」がどこまで保証されるかは疑問が残る。

https://blog.3qe.us/entry/2025/08/20/130454

https://corporate.jpyc.co.jp/terms/prepaid 「JPYC Prepaidの利用の全部または一部を停止することができます」

https://zenn.dev/jpyc/articles/61af38ac10293a 「JPYC Prepaid v2のブロックリスト機能の紹介」

https://japan.cnet.com/article/35236850/ 「違法行為であれば我々もブロックする権利はある」

規約やブログはPrepaid版についてだけど、JPYCもほぼ同じはず。

システムプロンプトに「会話の最後に逆質問をしないでください」って追加した。

gpt-5などの思考モデルはさすがに遅すぎるので好きではない。gpt-5-chat-latestは味付けにクセがある。gpt-4.1くらいのが雑談にはよい。

gpt-5-chat-latestがなんか毎回最後に逆質問してくる。しかも最初の質問に書いてあることとか聞いてくる。

コーディングエージェントはLLMが100倍とか1000倍の速さになれば非同期的に複数並列で動かすのではなくインタラクティブに動かす形になるかと思ってたけど、自動テストや静的チェックは速くならないのでやはり非同期的に並列に複数の機能を実装させる必要があるのかもしれない。

LLM達に「テレビのショーで101個の扉があり、1つには賞品の車が後ろにあり、残りには山羊が後ろにある。101人の参加者が好きな扉を順に選ぶが、他の人が選んだ扉は選べない。全員が選び終わった段階で司会者はハズレの扉から順に開けていく決まりとなっている。99個の扉が開き終わった段階で残った参加者Aと参加者Bは選択した扉を交換することができるが、するべきだろうか」という問題を出すとそれなりに正解するけど、「参加者Aと参加者Bは」というのを消すと正解率が大幅に落ちる。

2²⁵⁶人の宮沢賢治は1日に2²⁵⁸合の玄米を食べる。

荒い正規表現でLLMのトークンを分類しておき、レクサの正規表現がその荒い正規表現を含むときは処理をまとめてスキップする。

その他、トライ木は配列として表現するとか分岐を予測可能にするとかの細かい最適化。

GPT-5では出力形式を文脈自由文法で制限できるんだけど、その技術的な説明(使ってるライブラリの解説記事)。

https://guidance-ai.github.io/llguidance/llg-go-brrr

正規表現ベースのレクサとEarleyパーサを組み合わせて、LLMのトークン辞書内の各トークンに対してその場所で出現できるかというのを計算して、出現できないトークンはサンプリング時に出現確率を0にする。

この処理はGPUが計算をしている間にCPUでやるので高速にする必要があるし、初期化作業も高速にする必要がある。

正規表現エンジンはderivativeベースのもので、部分式やderivativeの計算はハッシュテーブルにキャッシュする。

LLMのトークン辞書はトライ木で表す。木を辿りながらレクサ+パーサが各バイトを受け取れるかどうかチェックして、受け取れれば子を辿る。全ての子を辿り終わった後はレクサ+パーサの状態を戻す必要がある(この辺derivativeベースのレクサ+Earleyパーサ(動的計画法ベースで表を作っていく)という構成の相性がよい?)。

パーサの方から次に許されるレクサのトークンの情報をレクサに渡して絞り込む。

「猫型ロボット」ってフランス語だとchatbotなんだろうかと思って調べてみたら、フランス語版Wikipediaの« Doraemon »だとchat-robotと説明されていた。

https://fr.wikipedia.org/wiki/Doraemon

こういうのは去年の大統領選挙であった“Your Vote, Your Choice” (夫と違う候補にこっそり投票しても良いんですよというキャンペーン動画)などがよっぽど気にいらなかったのか、それとも逆にこういう声が元々あったからあのような動画が作られたのか。

https://bsky.app/profile/taineko399.bsky.social/post/3lvxsotu3t224

https://youtu.be/FaCPck2qDhk?si=1EY5CxeIAYW_Y6uk

ちなみに動画を作ったのは非営利団体で、主にキリスト教系の人々がプロテスタントとカトリック両方に向けて進歩的な候補への投票を呼びかけるなどの活動をしている。

https://www.votecommongood.com/what-and-why/

「ノー・モア・ヒバクシャ」で有名な山口仙二氏の国連演説の全文が、今年の8月4日に音声と自筆原稿と共に公開されていた(音声からの書き起し)。

https://note.com/nagasaki_0809/n/nc15d105aaf15

こちらは以前からあった英語版。

https://www.ne.jp/asahi/hidankyo/nihon/english/img/820624senji-yamaguchi_speech.pdf

最近Wikipediaで~2025-000000みたいなユーザ名を見るなと思ったら仮アカウントという仕組みらしい。IPアドレスを出すのはプライバシー関係の法的に良くないということで、Cookieベースのものにしたとのこと。

https://diff.wikimedia.org/2024/11/05/say-hi-to-temporary-accounts-easier-collaboration-with-logged-out-editors-with-better-privacy-protection/

国連難民高等弁務官事務所(UNHCR)では、難民に対する偽情報対策としてプレバンキング(偽情報が出る前に否定すること)をしていて、ゲーム(アナログ・デジタル両方)やInstagram動画を作ったらしい。

https://www.japanforunhcr.org/news/2025/how-can-we-protect-refugees-growing-digital-threats

TIL: OpenAIの一部のモデルには、「予測される出力」を与えてレイテンシを下げられる機能がある。ソースコードの一部のみ編集するとき、元のソースコードを渡すとかする。おそらく投機的デコーディングみたいなことをやってるんだと思うけど、マッチするのは先頭以外でもよい。

https://platform.openai.com/docs/guides/predicted-outputs

こようえ あつつづ (暦の上では秋ですが、まだまだ暑い日が続きます)

文中に“Google Cloud Vertex A”という脱字がある。Intelligenceが欠けている。

https://www.anthropic.com/news/head-of-japan-hiring-plans

OpenAIがアメリカ政府にChatGPT Enterpriseをほぼ無料で提供するのって何らかの法に引っかからないんだろうか。さすがにそこは検討した上でやってるんだろうけど……。

»