Models & Agents Blog

Ep 22 6 min

Naver's Seoul World Model grounds video generation in real Street View geometry from over a million images and generalizes to other cities without fine-tuning.

Read article →

March 27, 2026 Ep 21 5 min

Models & Agents

New arXiv papers expose critical flaws in how we evaluate depression-detection models, LLM pruning, and verbalized confidence.

Read article →

March 23, 2026 Ep 20 6 min

Models & Agents

Fair zero-determinant strategies break in the periodic prisoner's dilemma, unlike the classic repeated version.

Read article →

Ep 19 5 min

TrustFlow introduces topic-aware vector reputation for multi-agent systems, replacing scalar scores with queryable multi-dimensional vectors.

Read article →

Ep 18 5 min

LlamaIndex drops LiteParse, a spatial PDF parser built specifically for agentic RAG workflows.

Read article →

March 17, 2026 Ep 17 5 min

Models & Agents

Picsart launches AI agent marketplace, starting with four agents and adding more weekly for creators.

Read article →

March 15, 2026 Ep 16 3 min

Models & Agents

RL agents scaled to 1,024 layers unlock emergent parkour skills from basic failures.

Read article →

March 14, 2026 Ep 15 4 min

Models & Agents

Google DeepMind's Aletheia agent autonomously advances from IMO math to professional research discoveries.

Read article →

March 13, 2026 Ep 14 5 min

Models & Agents

Perplexity launches "Personal Computer," a $200/month AI agent that automates emails, presentations, and app control 24/7.

Read article →

March 12, 2026 Ep 13 6 min

Models & Agents

Nvidia plans $26B investment in open-weight AI models to counter Chinese dominance and lock in developers.

Read article →

March 11, 2026 Ep 12 5 min

Models & Agents

Google unveils Gemini Embedding 2, a multimodal model embedding text, images, video, audio, and docs for advanced RAG systems.

Read article →

March 10, 2026 Ep 11 5 min

Models & Agents

Meta acquires Moltbook, a Reddit-like platform for AI agents to interact and collaborate.

Read article →

March 09, 2026 Ep 10 5 min

Models & Agents

Claude Opus 4.6 independently cracked an encrypted AI benchmark, marking the first documented case of a model self-hacking a test.

Read article →

March 08, 2026 Ep 9 3 min

Models & Agents

Meta's new research trains multimodal AI on unlabeled video, challenging assumptions about text-heavy scaling.

Read article →

March 07, 2026 Ep 8 5 min

Models & Agents

Anthropic's Claude AI discovered over 100 Firefox vulnerabilities that human testing missed for decades.

Read article →

March 06, 2026 Ep 7 5 min

Models & Agents

Liquid AI launches LFM2-24B-A2B model and LocalCowork app for fully local, privacy-first agent workflows.

Read article →

March 05, 2026 Ep 6 5 min

Models & Agents

YuanLab AI launches Yuan 3.0 Ultra, a 1T-parameter multimodal MoE model cutting parameters by 33% while boosting efficiency 49%.

Read article →

March 02, 2026 Ep 5 6 min

Models & Agents

FireRedTeam releases FireRed-OCR-2B, a 2B-parameter model tackling structural hallucinations in document parsing for tables and LaTeX.

Read article →

March 01, 2026 Ep 4 5 min

Models & Agents

Alibaba open-sources CoPaw, a workstation for scaling multi-channel AI agent workflows.

Read article →

February 28, 2026 Ep 3 6 min

Models & Agents

Perplexity open-sources embedding models that match Google and Alibaba performance at a fraction of the memory cost.

Read article →

February 27, 2026 Ep 2 6 min

Models & Agents

Sakana AI launches Doc-to-LoRA and Text-to-LoRA hypernetworks for zero-shot LLM adaptation to long contexts via natural language.

Read article →

February 26, 2026 Ep 1 5 min

Models & Agents

Anthropic acquires Vercept to enhance Claude's screen reading, while Google launches Nano Banana 2 for faster, cheaper image generation.

Read article →