요즘 AI 논문을 보다 보면 예전처럼 단순히 모델 크기나 벤치마크 점수만 올리는 분위기와는 조금 다르다는 걸 느끼게 됩니다. 이번에 눈에 띈 흐름은 꽤 분명했습니다. 에이전트는 더 자율적으로 움직이려 하고, 학습은 사람 손을 덜 타는 방향으로 가고, 모델 구조는 왜 잘 되는지 안을 뜯어보는 쪽으로 깊어지고 있습니다. 저는 이런 변화가 꽤 반갑게 느껴졌습니다. 이제 AI가 더 똑똑해지는 방법이 무작정 크게 만드는 것만은 아니라는 얘기니까요.

🤖 에이전트는 이제 도구가 아니라 운영 주체가 된다

가장 인상적이었던 건 에이전트 시스템의 방향이었습니다. APM은 기존의 업무 자동화와 다르게, 에이전트가 단순히 정해진 순서를 실행하는 존재가 아니라 상황을 감지하고, 판단하고, 행동하는 주체로 봅니다. 다만 여기서 중요한 건 완전한 자유가 아니라 조직의 목표와 제약 안에서 움직이는 자율성입니다. 이 균형감이 꽤 현실적이었습니다. 실제 서비스나 회사 업무에 AI를 붙여보면, 똑똑한 것보다 먼저 필요한 건 엉뚱한 짓을 하지 않는 능력이기 때문입니다. 관련 내용은 APM 논문에서 볼 수 있습니다.

MetaClaw도 같은 축에 있습니다. 배포된 에이전트가 시간이 지나도 그대로 멈춰 있는 게 아니라, 실패한 대화를 바탕으로 새 스킬을 만들고 한가한 시간에 몰래 정책까지 개선합니다. 서비스 중단 없이 계속 진화하는 구조라는 점이 특히 실전적입니다. 저는 이 지점에서 에이전트 제품의 미래가 보였습니다. 잘 만든 모델보다 계속 배우는 운영 구조가 더 중요해질 수 있겠다는 생각이 들었습니다. 자세한 내용은 MetaClaw에서 확인할 수 있습니다.

🧠 여러 AI를 팀처럼 묶는 시대가 온다

언어 모델 하나로 모든 걸 해결하려는 시도는 점점 한계가 보입니다. 그래서 여러 에이전트를 팀처럼 묶는 접근이 늘고 있는데, 흥미로운 건 이를 분산 시스템 관점으로 설명한 연구였습니다. 각 에이전트는 서로 다른 문맥을 갖고, 메시지로 소통하고, 동시에 일하지만, 실수도 합니다. 정말 분산 시스템과 닮아 있습니다.

이 관점이 좋았던 이유는 멀티 에이전트를 감으로 설계하지 않게 해주기 때문입니다. 몇 명이 적당한지, 중앙집중형이 나은지, 병렬화 이득이 실제로 있는지를 시스템 원리로 따져볼 수 있습니다. AI 에이전트도 결국 소프트웨어 시스템이라는 너무 당연하지만 자주 잊는 사실을 다시 떠올리게 했습니다. 원문은 Language Model Teams에서 볼 수 있습니다.

🔍 인간 라벨 없이도 더 잘 배우는 흐름

데이터 비용을 줄이려는 흐름도 아주 강했습니다. OpenSeeker는 이걸 꽤 통쾌하게 보여줍니다. 적은 양의 고품질 합성 데이터만으로도 강력한 검색 에이전트를 만들 수 있다는 점, 그리고 그 데이터와 모델을 통째로 공개했다는 점이 핵심입니다. 결국 중요한 건 데이터 양보다 질문의 밀도와 추론 경로의 품질일 수 있다는 얘기입니다. 오픈소스 생태계에선 특히 의미가 큽니다. OpenSeeker 논문, GitHub, 모델도 함께 볼 만합니다.

ICRL도 재미있었습니다. 보통 도구 사용 학습은 SFT부터 시작하는데, 이 연구는 아예 그 과정을 덜어내고 강화학습 안에서 예시를 조금씩 줄이며 스스로 도구를 익히게 만듭니다. 개발자로서 이런 접근이 반가운 이유는 명확합니다. 사람 손으로 만든 정답 데이터에 덜 의존할수록 확장성이 좋아지기 때문입니다. 자세한 내용은 ICRL에서 확인할 수 있습니다.

🧪 AI가 좋은 연구 주제를 고를 수도 있을까

이번 주 논문 중 가장 묘하게 오래 남은 건 과학적 안목을 학습하는 연구였습니다. 문제를 잘 푸는 능력과, 무엇이 중요한 문제인지 고르는 능력은 완전히 다릅니다. 이 논문은 후자를 다룹니다. 흥미로운 건 사람 몇 명의 취향 대신, 오랜 시간 축적된 인용 데이터를 공동체의 피드백으로 사용했다는 점입니다.

저는 이 발상이 꽤 설득력 있다고 봤습니다. 좋은 연구 아이디어는 늘 정답이 분명하지 않은데, 그걸 집단적 결과로부터 역으로 배우게 한 셈이니까요. 앞으로 AI가 단순 보조를 넘어 연구 방향성까지 제안하는 데 가까워질 수 있겠다는 생각이 들었습니다. 원문은 AI Can Learn Scientific Taste, 구현은 GitHub에서 볼 수 있습니다.

⚙️ 아키텍처는 더 효율적으로, 내부는 더 투명하게

모델 구조 쪽에서는 Mamba-3가 눈에 띄었습니다. 트랜스포머의 비싼 추론 비용을 넘어서려는 시도인데, 상태 추적과 효율을 함께 챙기려는 접근이 인상적입니다. 긴 문맥과 실사용 비용이 중요해질수록 이런 연구의 체감 가치는 더 커질 겁니다. 자세한 내용은 Mamba-3 논문GitHub에서 확인할 수 있습니다.

반대로 트랜스포머 내부를 해부한 연구도 흥미로웠습니다. massive activations와 attention sinks가 왜 같이 나타나는지, 그게 우연이 아니라 구조적 결과라는 설명은 꽤 시원했습니다. 모델이 왜 이상하게 특정 토큰에 끌리는지 궁금했던 분이라면 한 번 볼 만합니다. 원문은 The Spike, the Sparse and the Sink입니다.

📈 학습률 스케줄도 아직 끝난 문제가 아니다

학습률 스케줄은 너무 익숙해서 이미 답이 나온 분야처럼 보이지만, 실제로는 여전히 탐색할 여지가 많습니다. 이번 연구는 좋은 스케줄의 공통점이 웜업과 감쇠라는 점을 확인하면서도, 흔히 쓰는 방식이 꼭 최선은 아니라고 말합니다. 특히 weight decay 같은 다른 하이퍼파라미터가 스케줄 형태를 크게 바꾼다는 점이 중요했습니다.

저도 실험할 때 코사인 스케줄을 거의 습관처럼 쓰곤 했는데, 이 논문을 보고 나서는 형태 자체를 다시 의심해보게 됐습니다. 익숙한 설정이 최적이라는 보장은 없다는 아주 기본적인 사실을 다시 떠올리게 했습니다. 관련 자료는 논문, 코드에서 볼 수 있습니다.

🌱 시사점

이번 주 AI 논문을 한 문장으로 줄이면 이렇습니다. AI는 더 자율적으로 움직이고, 더 적은 인간 개입으로 배우며, 더 효율적인 구조를 향해 가는 중입니다. 저는 특히 에이전트가 운영 중에도 학습하고, 데이터 병목을 우회하고, 다중 시스템으로 조직되는 흐름이 앞으로 몇 년간 정말 중요해질 거라고 봅니다. 이제 좋은 모델 하나보다, 계속 적응하는 시스템 하나가 더 큰 경쟁력이 될 가능성이 높습니다.

요약하면 이번 흐름의 핵심은 에이전트의 자율성 강화, 인간 라벨 의존도 감소, 모델 구조와 최적화의 근본 개선입니다. APM과 MetaClaw는 살아 있는 에이전트 시스템의 방향을 보여줬고, OpenSeeker와 ICRL은 적은 데이터와 새로운 RL 방식으로 학습 효율을 끌어올렸으며, Mamba-3와 내부 해부 연구, 학습률 스케줄 연구는 성능 뒤에 있는 구조적 이유를 더 정교하게 다듬고 있었습니다.

Leave a comment