p.tatapa.org

LLM達に「テレビのショーで101個の扉があり、1つには賞品の車が後ろにあり、残りには山羊が後ろにある。101人の参加者が好きな扉を順に選ぶが、他の人が選んだ扉は選べない。全員が選び終わった段階で司会者はハズレの扉から順に開けていく決まりとなっている。99個の扉が開き終わった段階で残った参加者Aと参加者Bは選択した扉を交換することができるが、するべきだろうか」という問題を出すとそれなりに正解するけど、「参加者Aと参加者Bは」というのを消すと正解率が大幅に落ちる。

2025/08/14 2:05:26 PM UTC

ると ruto

Claudeも。

https://www.anthropic.com/news/offering-expanded-claude-access-across-all-three-branches-of-government

2025/08/14 4:14:21 AM UTC

ると ruto

2²⁵⁶人の宮沢賢治は1日に2²⁵⁸合の玄米を食べる。

2025/08/12 3:56:38 AM UTC

ると ruto

荒い正規表現でLLMのトークンを分類しておき、レクサの正規表現がその荒い正規表現を含むときは処理をまとめてスキップする。

その他、トライ木は配列として表現するとか分岐を予測可能にするとかの細かい最適化。

2025/08/12 3:56:20 AM UTC

ると ruto

GPT-5では出力形式を文脈自由文法で制限できるんだけど、その技術的な説明(使ってるライブラリの解説記事)。

https://guidance-ai.github.io/llguidance/llg-go-brrr

正規表現ベースのレクサとEarleyパーサを組み合わせて、LLMのトークン辞書内の各トークンに対してその場所で出現できるかというのを計算して、出現できないトークンはサンプリング時に出現確率を0にする。

この処理はGPUが計算をしている間にCPUでやるので高速にする必要があるし、初期化作業も高速にする必要がある。

正規表現エンジンはderivativeベースのもので、部分式やderivativeの計算はハッシュテーブルにキャッシュする。

LLMのトークン辞書はトライ木で表す。木を辿りながらレクサ+パーサが各バイトを受け取れるかどうかチェックして、受け取れれば子を辿る。全ての子を辿り終わった後はレクサ+パーサの状態を戻す必要がある(この辺derivativeベースのレクサ+Earleyパーサ(動的計画法ベースで表を作っていく)という構成の相性がよい?)。

パーサの方から次に許されるレクサのトークンの情報をレクサに渡して絞り込む。

2025/08/09 4:17:12 PM UTC

ると ruto

「猫型ロボット」ってフランス語だとchatbotなんだろうかと思って調べてみたら、フランス語版Wikipediaの« Doraemon »だとchat-robotと説明されていた。

https://fr.wikipedia.org/wiki/Doraemon

2025/08/09 3:45:07 PM UTC

ると ruto

こういうのは去年の大統領選挙であった“Your Vote, Your Choice” (夫と違う候補にこっそり投票しても良いんですよというキャンペーン動画)などがよっぽど気にいらなかったのか、それとも逆にこういう声が元々あったからあのような動画が作られたのか。

https://bsky.app/profile/taineko399.bsky.social/post/3lvxsotu3t224

https://youtu.be/FaCPck2qDhk?si=1EY5CxeIAYW_Y6uk

ちなみに動画を作ったのは非営利団体で、主にキリスト教系の人々がプロテスタントとカトリック両方に向けて進歩的な候補への投票を呼びかけるなどの活動をしている。

https://www.votecommongood.com/what-and-why/

2025/08/09 2:47:14 PM UTC

ると ruto

「ノー・モア・ヒバクシャ」で有名な山口仙二氏の国連演説の全文が、今年の8月4日に音声と自筆原稿と共に公開されていた(音声からの書き起し)。

https://note.com/nagasaki_0809/n/nc15d105aaf15

こちらは以前からあった英語版。

https://www.ne.jp/asahi/hidankyo/nihon/english/img/820624senji-yamaguchi_speech.pdf

2025/08/09 1:34:43 PM UTC

ると ruto

最近Wikipediaで~2025-000000みたいなユーザ名を見るなと思ったら仮アカウントという仕組みらしい。IPアドレスを出すのはプライバシー関係の法的に良くないということで、Cookieベースのものにしたとのこと。

https://diff.wikimedia.org/2024/11/05/say-hi-to-temporary-accounts-easier-collaboration-with-logged-out-editors-with-better-privacy-protection/

2025/08/09 8:27:42 AM UTC

ると ruto

国連難民高等弁務官事務所(UNHCR)では、難民に対する偽情報対策としてプレバンキング(偽情報が出る前に否定すること)をしていて、ゲーム(アナログ・デジタル両方)やInstagram動画を作ったらしい。

https://www.japanforunhcr.org/news/2025/how-can-we-protect-refugees-growing-digital-threats

2025/08/08 4:50:02 PM UTC

ると ruto

TIL: OpenAIの一部のモデルには、「予測される出力」を与えてレイテンシを下げられる機能がある。ソースコードの一部のみ編集するとき、元のソースコードを渡すとかする。おそらく投機的デコーディングみたいなことをやってるんだと思うけど、マッチするのは先頭以外でもよい。

https://platform.openai.com/docs/guides/predicted-outputs

2025/08/08 12:57:03 AM UTC

ると ruto

こようえあつつづ (暦の上では秋ですが、まだまだ暑い日が続きます)

2025/08/07 4:07:23 AM UTC

ると ruto

文中に“Google Cloud Vertex A”という脱字がある。Intelligenceが欠けている。

https://www.anthropic.com/news/head-of-japan-hiring-plans

2025/08/07 4:01:45 AM UTC

ると ruto

OpenAIがアメリカ政府にChatGPT Enterpriseをほぼ無料で提供するのって何らかの法に引っかからないんだろうか。さすがにそこは検討した上でやってるんだろうけど……。