https://vitalik.eth.limo/general/2025/02/28/aihumans.html?ref=bankless.ghost.io

AI는 엔진, 인간은 핸들: 민주적 의사결정의 미래

2025년 2월 28일 | 모든 게시물 보기

피드백과 검토에 도움을 준 Devansh Mehta, Davide Crapis, Julian Zawistowski, 그리고 토론에 참여해 준 Tina Zhen, Shaw Walters 등 여러분께 특별히 감사드립니다.

정부, 직장, 또는 블록체인 기반 DAO와 같은 민주적 구조에 대해 사람들이 좋아하는 점을 물어보면, 흔히 같은 주장을 듣게 됩니다: 권력 집중을 피할 수 있고, 시스템 방향을 한 사람이 변덕으로 완전히 바꿀 수 없기 때문에 사용자에게 강력한 보장을 제공하며, 여러 사람의 관점과 지혜를 모아 더 높은 품질의 결정을 내릴 수 있다는 것입니다.

민주적 구조에 대해 사람들이 싫어하는 점을 물어보면, 종종 같은 불만을 제기합니다: 평균적인 유권자는 복잡한 사안을 이해하지 못하고, 각 유권자가 결과에 영향을 미칠 가능성이 적기 때문에 질 높은 생각을 하지 않으며, 낮은 참여율(시스템을 공격하기 쉽게 만듦)이나 사실상의 중앙화(모두가 일부 영향력 있는 사람의 견해를 신뢰하고 복사하는 경향)를 초래한다는 것입니다.

이 글의 목표는 AI를 활용하여 민주적 구조의 장점은 취하고 단점은 피할 수 있는 패러다임을 탐구하는 것입니다. "AI는 엔진, 인간은 핸들"이라는 개념입니다. 인간은 시스템에 소량의 정보만 제공하며, 아마도 몇 백 비트에 불과하지만, 그 모든 비트는 충분히 고려된 매우 고품질의 비트입니다. AI는 이 데이터를 "목적 함수"로 취급하고, 이러한 목표에 최대한 부합하도록 지치지 않고 수많은 결정을 내립니다. 특히, 이 글에서는 흥미로운 질문을 탐구합니다: 단일 AI를 중심에 두지 않고, 모든 AI(또는 인간-AI 하이브리드)가 자유롭게 참여할 수 있는 경쟁적 개방 시장에 의존하여 이를 수행할 수 있을까요?

왜 단일 AI를 책임자로 두지 않는가?

AI 기반 메커니즘에 인간의 선호도를 삽입하는 가장 쉬운 방법은 단일 AI 모델을 만들고 인간이 어떻게든 그 안에 선호도를 주입하는 것입니다. 이를 위한 간단한 방법이 있습니다: 사람들의 지시 목록이 포함된 텍스트 파일을 시스템 프롬프트에 넣으면 됩니다. 그런 다음 다양한 "에이전트 AI 프레임워크" 중 하나를 사용하여 AI에게 인터넷 접근 능력을 제공하고, 조직의 자산과 소셜 미디어 프로필에 대한 열쇠를 넘겨주면 끝입니다.

몇 번의 반복 후에는 많은 사용 사례에 충분히 좋은 결과를 얻을 수 있으며, 가까운 미래에 AI가 그룹이 제공한 지시를 읽고(또는 실시간으로 그룹 채팅을 읽고) 그 결과로 행동을 취하는 구조를 많이 볼 것으로 예상합니다.

이 구조가 이상적이지 않은 경우는 장기적인 기관의 거버넌스 메커니즘으로써입니다. 장기적인 기관이 가져야 할 가치 있는 속성 중 하나는 신뢰할 수 있는 중립성(credible neutrality)입니다. 이 개념을 소개한 글에서, 신뢰할 수 있는 중립성에 가치 있는 네 가지 속성을 나열했습니다:

특정 사람이나 특정 결과를 메커니즘에 직접 작성하지 않기
오픈 소스와 공개적으로 검증 가능한 실행
단순하게 유지하기
너무 자주 변경하지 않기

LLM(또는 AI 에이전트)은 이 중 0/4를 충족합니다. 모델은 필연적으로 학습 과정을 통해 많은 특정 사람들과 결과 선호도가 인코딩되어 있습니다. 때로는 이로 인해 AI가 놀라운 방향으로 선호도를 갖게 됩니다. 예를 들어, 주요 LLM이 미국보다 파키스탄의 생명을 훨씬 더 중요하게 여긴다고 제안하는 최근 연구를 참조하세요(!!). 모델이 오픈 웨이트(open-weights)일 수 있지만, 이는 오픈 소스와는 거리가 멉니다. 우리는 정말로 모델 깊은 곳에 어떤 악마가 숨어 있는지 모릅니다. 이는 단순함과는 정반대입니다: LLM의 콜모고로프 복잡성은 수백억 비트로, 모든 미국 법률(연방 + 주 + 지역)을 합친 것과 비슷합니다. 그리고 AI가 빠르게 진화하고 있기 때문에, 3개월마다 모델을 변경해야 할 것입니다.

이러한 이유로, 많은 사용 사례에 대해 제가 탐구하고자 하는 대안적 접근법은 간단한 메커니즘을 게임의 규칙으로 삼고, AI가 플레이어가 되도록 하는 것입니다. 이는 시장을 효과적으로 만드는 것과 같은 통찰력입니다: 규칙은 비교적 단순한 재산권 시스템이고, 가장자리 사례는 선례를 천천히 축적하고 조정하는 법원 시스템에 의해 결정되며, 모든 지능은 "가장자리에서" 운영되는 기업가들로부터 옵니다.

개별 "게임 플레이어"는 LLM, 서로 상호작용하고 다양한 인터넷 서비스를 호출하는 LLM 스웜, 다양한 AI + 인간 조합 등 다양한 구성이 될 수 있습니다. 메커니즘 설계자로서, 이를 알 필요가 없습니다. 이상적인 목표는 오토마톤처럼 기능하는 메커니즘을 갖는 것입니다 - 메커니즘의 목표가 무엇에 자금을 조달할지 선택하는 것이라면, 비트코인이나 이더리움 블록 보상처럼 느껴져야 합니다.

이 접근 방식의 이점은 다음과 같습니다:

메커니즘에 단일 모델을 고정시키지 않습니다. 대신, 모두 각기 다른 편향을 가진 다양한 참가자와 아키텍처의 개방 시장을 얻게 됩니다. 오픈 모델, 클로즈드 모델, 에이전트 스웜, 인간 + AI 하이브리드, 사이보그, 무한한 원숭이 등 모두 공정한 게임이 됩니다. 메커니즘은 차별하지 않습니다.
메커니즘은 오픈 소스입니다. 플레이어는 그렇지 않지만, 게임은 오픈 소스입니다 - 이것은 이미 상당히 잘 이해되는 패턴입니다(예: 정당과 시장은 모두 이런 방식으로 작동합니다).
메커니즘은 단순하므로, 메커니즘 설계자가 자신의 편향을 설계에 인코딩할 수 있는 경로가 상대적으로 적습니다.
기본 플레이어의 아키텍처가 앞으로 3개월마다 재설계되어야 하더라도, 메커니즘은 변경되지 않습니다.

핸들 메커니즘의 목표는 참가자의 기본 목표를 충실하게 대표하는 것입니다. 소량의 정보만 제공하면 되지만, 그것은 고품질 정보여야 합니다.

이 메커니즘을 답을 도출하는 것과 답을 검증하는 것 사이의 비대칭성을 활용하는 것으로 생각할 수 있습니다. 이는 스도쿠가 풀기는 어렵지만, 해결책이 올바른지 확인하기는 쉬운 것과 유사합니다. (i) "문제 해결사" 역할을 할 플레이어의 개방 시장을 만든 다음, (ii) 제시된 솔루션을 검증하는 훨씬 간단한 작업을 수행하는 인간이 운영하는 메커니즘을 유지합니다.

퓨처키(Futarchy)

퓨처키는 원래 Robin Hanson에 의해 "가치를 투표하고, 신념에 베팅하라"는 개념으로 소개되었습니다. 투표 메커니즘은 목표 세트(측정 가능해야 한다는 단서가 있는 어떤 것이든 가능)를 선택하고, 이를 메트릭 M으로 결합합니다. 결정을 내려야 할 때(단순화를 위해 예/아니오라고 가정), 조건부 시장을 설정합니다: 사람들에게 (i) 예 또는 아니오가 선택될지, (ii) 예가 선택된 경우 M의 값(그렇지 않으면 0), (iii) 아니오가 선택된 경우 M의 값(그렇지 않으면 0)에 베팅하도록 요청합니다. 이 세 가지 변수를 고려하면, 시장이 예 또는 아니오 중 어느 것이 M의 가치에 더 낙관적인지 파악할 수 있습니다.

"회사 주식 가격"(또는 암호화폐의 경우 토큰)은 이해하고 측정하기 쉽기 때문에 가장 일반적으로 인용되는 메트릭이지만, 메커니즘은 월간 활성 사용자, 일부 구성원 그룹의 중앙값 자기 보고 행복도, 분산화의 일부 계량적 측정 등 다양한 종류의 메트릭을 지원할 수 있습니다.

퓨처키는 원래 AI 이전 시대에 발명되었습니다. 그러나 퓨처키는 앞 절에서 설명한 "정교한 문제 해결사, 쉬운 검증자" 패러다임에 매우 자연스럽게 맞아떨어지며, 퓨처키의 트레이더도 AI(또는 인간+AI 조합)가 될 수 있습니다. "문제 해결사"(예측 시장 트레이더)의 역할은 각 제안된 계획이 미래의 메트릭 값에 어떤 영향을 미칠지 결정하는 것입니다. 이것은 어렵습니다. 문제 해결사는 옳으면 돈을 벌고, 틀리면 돈을 잃습니다. 검증자(메트릭에 투표하는 사람들, 메트릭이 "게임화"되거나 구식이 되는 것을 발견하면 메트릭을 조정하는 사람들, 그리고 미래의 어느 시점에 메트릭의 실제 값을 결정하는 사람들)는 단지 "지금 메트릭의 값은 무엇인가?"라는 더 간단한 질문에만 답하면 됩니다.

정제된 인간 판단력

정제된 인간 판단력은 다음과 같이 작동하는 메커니즘의 한 종류입니다. 대답해야 할 매우 많은 수(100만 개 정도)의 질문이 있습니다. 자연스러운 예는 다음과 같습니다:

이 목록에 있는 각 사람이 일부 프로젝트나 작업에 대한 기여에 얼마나 많은 공로를 인정받아야 하는가?
이러한 댓글 중 어떤 것이 소셜 미디어 플랫폼(또는 하위 커뮤니티)의 규칙을 위반하는가?
이러한 이더리움 주소 중 어떤 것이 실제로 고유한 인간을 나타내는가?
이러한 물리적 물체 중 어떤 것이 환경의 미학에 긍정적으로 또는 부정적으로 기여하는가?

이러한 질문에 답할 수 있는 배심원이 있지만, 각 답변에 많은 노력을 들여야 합니다. 배심원에게 전체 목록 중 소수의 질문(예: 총 목록이 100만 개 항목이라면, 배심원은 아마도 100개만 답변 제공)에만 답하도록 요청합니다. 배심원에게 간접적인 질문을 할 수도 있습니다: "앨리스가 총 공로의 몇 퍼센트를 받아야 하는가?"라고 묻는 대신, "앨리스와 밥 중 누가 더 많은 공로를 받아야 하며, 얼마나 더 많이?"라고 물을 수 있습니다. 배심원 메커니즘을 설계할 때, 보조금 위원회, 법원(판결 가치 결정), 평가 등과 같은 실제 세계에서 시간 테스트를 거친 메커니즘을 재사용할 수 있지만, 물론 배심원 참가자들 자신이 답변에 도달하는 데 도움이 되는 새로운 AI 연구 도구를 사용하는 것도 환영합니다.

그런 다음 누구나 전체 질문 집합에 대한 수치적 응답 목록(예: 전체 목록의 각 참가자가 받을 자격이 있는 공로 추정치 제공)을 제출할 수 있게 합니다. 참가자들은 이를 위해 AI를 사용하도록 권장되지만, AI, 인간-AI 하이브리드, 인터넷 검색 접근과 자율적으로 다른 인간이나 AI 작업자를 고용할 수 있는 능력을 가진 AI, 사이버네틱적으로 향상된 원숭이 등 모든 기술을 사용할 수 있습니다.

전체 목록 제공자와 배심원이 모두 답변을 제출하면, 전체 목록은 배심원 답변과 대조하여 확인되고, 배심원 답변과 가장 일치하는 전체 목록의 조합이 최종 답변으로 채택됩니다.

정제된 인간 판단력 메커니즘은 퓨처키와 다르지만 몇 가지 중요한 유사점이 있습니다:

퓨처키에서 "문제 해결사"는 예측을 하고, 그들의 예측이 확인되는(문제 해결사에게 보상하거나 벌칙을 주기 위한) "진실 데이터"는 배심원이 운영하는 메트릭 값을 출력하는 오라클입니다.
정제된 인간 판단력에서 "문제 해결사"는 매우 많은 양의 질문에 대한 답변을 제공하고, 그들의 예측이 확인되는 "진실 데이터"는 배심원이 제공하는 그 질문들의 작은 하위 집합에 대한 고품질 답변입니다.

공로 할당을 위한 정제된 인간 판단력의 장난감 예제, 여기에서 Python 코드를 참조하세요. 스크립트는 여러분이 배심원이 되도록 요청하고, 코드에 사전 포함된 일부 AI 생성(및 인간 생성) 전체 목록을 포함합니다. 메커니즘은 배심원 답변과 가장 잘 맞는 전체 목록의 선형 조합을 식별합니다. 이 경우, 승리 조합은 0.199 * Claude의 답변 + 0.801 * Deepseek의 답변입니다. 이 조합은 어떤 단일 모델보다 배심원 답변과 더 잘 일치합니다. 이 계수는 제출자에게 주어지는 보상이 될 것입니다.

이 "사우론 물리치기" 예제에서 "인간을 핸들로 사용하는" 측면은 두 곳에 반영됩니다. 첫째, 각 개별 질문에 대해 고품질 인간 판단력이 적용되지만, 이것은 여전히 배심원을 성과 평가의 "기술관료적" 평가자로 활용하는 것입니다. 둘째, "사우론 물리치기"가 올바른 목표인지(예를 들어, 그와 동맹을 맺거나, 평화를 위한 양보로 어떤 중요한 강 동쪽의 모든 영토를 제공하는 것과 대비하여) 결정하는 암시적 투표 메커니즘이 있습니다. 배심원 업무가 더 직접적으로 가치 지향적인 다른, 정제된 인간 판단력 사용 사례가 있습니다. 예를 들어, 배심원의 임무가 무작위로 선택된 포럼 게시물을 커뮤니티 규칙을 따르는지 여부에 따라 라벨링하는 탈중앙화된 소셜 미디어 플랫폼(또는 하위 커뮤니티)을 상상해 보세요.

정제된 인간 판단력 패러다임 내에는 몇 가지 열린 변수가 있습니다:

어떻게 샘플링을 수행하나요? 전체 목록 제출자의 역할은 많은 양의 답변을 제공하는 것이고, 배심원의 역할은 고품질 답변을 제공하는 것입니다. 모델이 배심원 답변과 일치하는 능력이 일반적인 성능을 최대한 나타내도록 배심원을 선택하고, 배심원에게 질문을 선택해야 합니다. 고려 사항에는 다음이 포함됩니다:
- 전문성 대 편향 트레이드오프: 숙련된 배심원은 일반적으로 자신의 전문 분야에 특화되어 있으므로, 그들이 평가할 내용을 선택하게 함으로써 더 높은 품질의 입력을 얻을 수 있습니다. 그러나 너무 많은 선택은 편향(배심원이 자신과 연결된 사람들의 콘텐츠를 선호)이나 샘플링 약점(일부 콘텐츠가 체계적으로 평가되지 않음)으로 이어질 수 있습니다.
- 반-굿하팅(Anti-Goodharting): AI 메커니즘을 "게임화"하려는 콘텐츠가 있을 것입니다. 예를 들어, 인상적으로 보이지만 쓸모없는 코드를 대량 생성하는 기여자들이 있습니다. 이는 배심원이 이를 감지할 수 있지만, 정적 AI 모델은 열심히 노력하지 않는 한 감지하지 못한다는 것을 의미합니다. 이러한 행동을 포착하는 한 가지 가능한 방법은 개인이 그러한 시도를 표시할 수 있는 도전 메커니즘을 추가하여, 배심원이 그것을 판단하도록 보장하는 것입니다(따라서 AI 개발자들이 올바르게 포착하도록 동기를 부여합니다). 표시자는 배심원이 동의하면 보상을 받거나 배심원이 동의하지 않으면 패널티를 지불합니다.
어떤 점수 함수를 사용하나요? 현재 딥 펀딩 파일럿에서 사용되는 한 가지 아이디어는 배심원에게 "A와 B 중 누가 더 많은 공로를 받아야 하며, 얼마나 더 많이?"라고 묻는 것입니다. 점수 함수는 score(x) = sum((log(x[B]) - log(x[A]) - log(juror_ratio)) ** 2 for (A, B, juror_ratio) in jury_answers)입니다. 즉, 각 배심원 답변에 대해, 전체 목록의 비율이 배심원이 제공한 비율과 얼마나 멀리 떨어져 있는지 묻고, 그 거리의 제곱에 비례하는 패널티를 추가합니다(로그 공간에서). 이는 점수 함수의 풍부한 설계 공간이 있음을 보여주기 위한 것이며, 점수 함수의 선택은 배심원에게 어떤 질문을 하는지의 선택과 연결되어 있습니다.
전체 목록 제출자에게 어떻게 보상하나요? 이상적으로는, 메커니즘의 독점을 피하기 위해 여러 참가자에게 종종 0이 아닌 보상을 주고 싶지만, 또한 행위자가 동일한(또는 약간 수정된) 답변 세트를 여러 번 제출함으로써 보상을 증가시킬 수 없다는 속성을 만족시키고 싶습니다. 한 가지 유망한 접근 방식은 배심원 답변과 가장 잘 맞는 전체 목록의 선형 조합(계수는 음수가 아니고 합이 1)을 직접 계산하고, 그 동일한 계수를 사용하여 보상을 나누는 것입니다. 다른 접근 방식도 있을 수 있습니다.

일반적으로, 목표는 효과적이고 편향을 최소화하며 시간의 테스트를 견뎌온 것으로 알려진 인간 판단 메커니즘(예: 법원 시스템의 대립 구조가 정보는 많지만 편향된 분쟁 당사자들과 정보는 적지만 아마도 편향되지 않은 판사를 포함하는 방식)을 취하고, 이러한 메커니즘의 합리적으로 높은 충실도와 매우 낮은 비용 예측자로 AI의 개방 시장을 사용하는 것입니다(이것은 LLM의 "증류"가 작동하는 방식과 유사합니다).

딥 펀딩

딥 펀딩은 "X에 대한 공로의 몇 퍼센트가 Y에 속하는가?"를 나타내는 그래프의 가장자리 가중치를 채우는 문제에 정제된 인간 판단력을 적용한 것입니다.

예를 들어 직접 보여주는 것이 가장 쉽습니다:

이더리움의 이념적 기원을 보여주는 두 단계 딥 펀딩 예시, 여기에서 Python 코드를 참조하세요.

여기서 목표는 이더리움으로 이어진 철학적 기여에 대한 공로를 분배하는 것입니다. 예를 살펴보겠습니다:

여기에 표시된 시뮬레이션된 딥 펀딩 라운드는 사이퍼펑크 운동에 20.5%, 테크노-진보주의에 9.2%의 공로를 할당했습니다.
각 노드 내에서, 질문은 다음과 같습니다: 얼마나 독창적인 기여인가(자체적으로 공로를 받아야 함), 그리고 얼마나 다른 상위 영향력의 재조합인가? 사이퍼펑크 운동의 경우, 40%는 새로운 것이고 60%는 의존성입니다.
그런 다음 이러한 노드들의 상위 영향력을 살펴볼 수 있습니다: 자유지상주의 최소국가주의와 무정부주의는 사이퍼펑크 운동의 공로 중 17.3%를 차지하지만 스위스 직접 민주주의는 5%만 차지합니다.
그러나 자유지상주의 최소국가주의와 무정부주의는 또한 비트코인의 통화 철학에 영감을 주었으므로, 이더리움의 철학에 영향을 미친 두 가지 경로가 있습니다.
이더리움에 대한 자유지상주의 최소국가주의와 무정부주의의 총 기여 몫을 계산하려면, 각 경로를 따라 가장자리를 곱하고 경로를 더하면 됩니다: 0.205 * 0.6 * 0.173 + 0.195 * 0.648 * 0.201 ~= 0.0466. 따라서 이더리움에 동기를 부여한 철학에 기여한 모든 사람에게 보상하기 위해 $100를 기부해야 한다면, 이 시뮬레이션된 딥 펀딩 라운드에 따라 자유지상주의 최소국가주의자와 무정부주의자는 $4.66를 받게 됩니다.

이 접근 방식은 작업이 이전 작업을 기반으로 구축되고 그 구조가 매우 명확한 도메인에서 작동하도록 설계되었습니다. 학계(인용 그래프 생각)와 오픈 소스 소프트웨어(라이브러리 의존성 및 포킹 생각)는 두 가지 자연스러운 예입니다.

잘 작동하는 딥 펀딩 시스템의 목표는 글로벌 그래프를 만들고 유지하는 것입니다. 여기서 특정 프로젝트를 지원하는 데 관심이 있는 자금 제공자는 해당 노드를 나타내는 주소로 자금을 보낼 수 있고, 자금은 그래프의 가장자리에 있는 가중치에 따라 자동으로 의존성(그리고 재귀적으로 그들의 의존성 등)으로 전파됩니다.

내장된 딥 펀딩 가젯을 사용하여 토큰을 발행하는 탈중앙화된 프로토콜을 상상해 볼 수 있습니다: 프로토콜 내 탈중앙화 거버넌스가 배심원을 선택하고, 배심원은 딥 펀딩 메커니즘을 운영하며, 프로토콜은 자동으로 토큰을 발행하고 자체에 해당하는 노드에 예치합니다. 이렇게 함으로써, 프로토콜은 비트코인이나 이더리움 블록 보상이 한 가지 특정 유형의 기여자(채굴자)에게 보상한 것을 연상시키는 프로그래밍 방식으로 모든 직접 및 간접 기여자에게 보상합니다. 가장자리의 가중치에 영향을 줌으로써, 배심원은 어떤 유형의 기여를 가치 있게 여기는지 지속적으로 정의할 수 있는 방법을 가집니다. 이 메커니즘은 채굴, 판매 또는 일회성 에어드롭에 대한 탈중앙화되고 장기적으로 지속 가능한 대안으로 기능할 수 있습니다.

프라이버시 추가하기

종종, 위 예제와 같은 질문에 대한 좋은 판단을 내리려면 비공개 정보에 접근해야 합니다: 조직의 내부 채팅 로그, 커뮤니티 구성원이 기밀로 제출한 정보 등. "단일 AI 사용"의 한 가지 이점, 특히 소규모 맥락에서는 모든 사람에게 공개하는 것보다 하나의 AI에게 정보 접근 권한을 주는 것이 훨씬 더 수용 가능하다는 것입니다.

이러한 맥락에서 정제된 인간 판단력이나 딥 펀딩이 작동하도록 하기 위해, 우리는 AI에게 비공개 정보에 안전하게 접근할 수 있도록 암호화 기술을 사용해볼 수 있습니다. 아이디어는 다중 당사자 계산(MPC), 완전 동형 암호화(FHE), 신뢰할 수 있는 실행 환경(TEE) 또는 유사한 메커니즘을 사용하여 비공개 정보를 사용할 수 있게 만들지만, 출력이 메커니즘에 직접 투입되는 "전체 목록 제출"인 메커니즘에만 가능하게 하는 것입니다.

이렇게 하면, 메커니즘 세트를 단지 AI 모델(인간이나 AI + 인간 조합과 대조적으로, 인간은 데이터를 볼 수 없기 때문에)로 제한해야 하며, 특히 일부 특정 기판(예: MPC, FHE, 신뢰할 수 있는 하드웨어)에서 실행되는 모델로 제한해야 합니다. 주요 연구 방향은 이러한 근접 실용적 버전을 찾아 충분히 효율적이고 의미 있게 만드는 것입니다.

엔진 + 핸들 설계의 이점

이와 같은 설계는 많은 유망한 이점을 가지고 있습니다. 가장 중요한 것은 인간 유권자가 방향을 설정하는 데 통제권을 가지고 있지만, 지나치게 많은 결정을 내려야 하는 부담을 지지 않는 DAO를 구축할 수 있다는 것입니다. 각 사람이 N개의 결정을 내릴 필요가 없지만, 단일 결정(위임이 일반적으로 작동하는 방식)을 내리는 것보다 더 많은 권한을 가지며, 직접 표현하기 어려운 풍부한 선호도를 이끌어내는 데 더 능숙한 방식으로 행복한 중간 지점을 찾습니다.

또한, 이와 같은 메커니즘은 인센티브 평활화 속성을 가진 것으로 보입니다. 여기서 "인센티브 평활화"란 두 가지 요소의 조합을 말합니다:

확산: 투표 메커니즘이 취하는 어떤 단일 행동도 어떤 단일 행위자의 이익에 지나치게 큰 영향을 미치지 않습니다.
혼란: 투표 결정과 그것이 행위자의 이익에 어떻게 영향을 미치는지 사이의 연결은 더 복잡하고 계산하기 어렵습니다.

여기서 혼란과 확산이라는 용어는 암호학에서 가져온 것으로, 이는 암호와 해시 함수를 안전하게 만드는 핵심 속성입니다.

오늘날 실제 세계에서 인센티브 평활화의 좋은 예는 법치입니다: 정부의 최상위 수준은 "앨리스의 회사에 $2억을 주고", "밥의 회사에 $1억의 벌금을 부과한다" 등의 형태로 정기적으로 행동을 취하지 않고, 대신 별도의 행위자 계층에 의해 해석되는 대규모 행위자 집합에 균등하게 적용되도록 의도된 규칙을 통과시킵니다. 이것이 작동할 때, 이점은 뇌물 수수 및 다른 형태의 부패 이점을 크게 줄인다는 것입니다. 그리고 이것이 위반될 때(실제로는 종종 그렇습니다), 그러한 문제는 빠르게 크게 증폭됩니다.

AI는 분명히 미래의 매우 큰 부분이 될 것이며, 이는 필연적으로 거버넌스의 미래의 큰 부분이 될 것입니다. 그러나 거버넌스에 AI를 관여시키면 명백한 위험이 있습니다: AI는 편향이 있고, 학습 과정 중에 의도적으로 손상될 수 있으며, AI 기술은 너무 빠르게 진화하고 있어 "AI를 책임자로 두는 것"은 현실적으로 "AI를 업그레이드하는 책임자를 책임자로 두는 것"을 의미할 수 있습니다. 정제된 인간 판단력은 인간이 운영하는 민주주의를 통제하면서 개방적이고 자유시장적인 방식으로 AI의 힘을 활용할 수 있는 대안적 경로를 제공합니다.

오늘 이러한 메커니즘을 더 깊이 탐구하고 참여하는 데 관심이 있는 분들은 https://cryptopond.xyz/modelfactory/detail/2564617에서 현재 활성화된 딥 펀딩 라운드를 확인해 보시기를 적극 권장합니다.

AI는 엔진, 인간은 핸들: 민주적 의사결정의 미래

2025년 2월 28일 | 모든 게시물 보기

피드백과 검토에 도움을 준 Devansh Mehta, Davide Crapis, Julian Zawistowski, 그리고 토론에 참여해 준 Tina Zhen, Shaw Walters 등 여러분께 특별히 감사드립니다.

왜 단일 AI를 책임자로 두지 않는가?

특정 사람이나 특정 결과를 메커니즘에 직접 작성하지 않기
오픈 소스와 공개적으로 검증 가능한 실행
단순하게 유지하기
너무 자주 변경하지 않기

이 접근 방식의 이점은 다음과 같습니다:

메커니즘에 단일 모델을 고정시키지 않습니다. 대신, 모두 각기 다른 편향을 가진 다양한 참가자와 아키텍처의 개방 시장을 얻게 됩니다. 오픈 모델, 클로즈드 모델, 에이전트 스웜, 인간 + AI 하이브리드, 사이보그, 무한한 원숭이 등 모두 공정한 게임이 됩니다. 메커니즘은 차별하지 않습니다.
메커니즘은 오픈 소스입니다. 플레이어는 그렇지 않지만, 게임은 오픈 소스입니다 - 이것은 이미 상당히 잘 이해되는 패턴입니다(예: 정당과 시장은 모두 이런 방식으로 작동합니다).
메커니즘은 단순하므로, 메커니즘 설계자가 자신의 편향을 설계에 인코딩할 수 있는 경로가 상대적으로 적습니다.
기본 플레이어의 아키텍처가 앞으로 3개월마다 재설계되어야 하더라도, 메커니즘은 변경되지 않습니다.

핸들 메커니즘의 목표는 참가자의 기본 목표를 충실하게 대표하는 것입니다. 소량의 정보만 제공하면 되지만, 그것은 고품질 정보여야 합니다.

퓨처키(Futarchy)

정제된 인간 판단력

이 목록에 있는 각 사람이 일부 프로젝트나 작업에 대한 기여에 얼마나 많은 공로를 인정받아야 하는가?
이러한 댓글 중 어떤 것이 소셜 미디어 플랫폼(또는 하위 커뮤니티)의 규칙을 위반하는가?
이러한 이더리움 주소 중 어떤 것이 실제로 고유한 인간을 나타내는가?
이러한 물리적 물체 중 어떤 것이 환경의 미학에 긍정적으로 또는 부정적으로 기여하는가?

정제된 인간 판단력 메커니즘은 퓨처키와 다르지만 몇 가지 중요한 유사점이 있습니다:

퓨처키에서 "문제 해결사"는 예측을 하고, 그들의 예측이 확인되는(문제 해결사에게 보상하거나 벌칙을 주기 위한) "진실 데이터"는 배심원이 운영하는 메트릭 값을 출력하는 오라클입니다.
정제된 인간 판단력에서 "문제 해결사"는 매우 많은 양의 질문에 대한 답변을 제공하고, 그들의 예측이 확인되는 "진실 데이터"는 배심원이 제공하는 그 질문들의 작은 하위 집합에 대한 고품질 답변입니다.

정제된 인간 판단력 패러다임 내에는 몇 가지 열린 변수가 있습니다:

어떻게 샘플링을 수행하나요? 전체 목록 제출자의 역할은 많은 양의 답변을 제공하는 것이고, 배심원의 역할은 고품질 답변을 제공하는 것입니다. 모델이 배심원 답변과 일치하는 능력이 일반적인 성능을 최대한 나타내도록 배심원을 선택하고, 배심원에게 질문을 선택해야 합니다. 고려 사항에는 다음이 포함됩니다:
- 전문성 대 편향 트레이드오프: 숙련된 배심원은 일반적으로 자신의 전문 분야에 특화되어 있으므로, 그들이 평가할 내용을 선택하게 함으로써 더 높은 품질의 입력을 얻을 수 있습니다. 그러나 너무 많은 선택은 편향(배심원이 자신과 연결된 사람들의 콘텐츠를 선호)이나 샘플링 약점(일부 콘텐츠가 체계적으로 평가되지 않음)으로 이어질 수 있습니다.
- 반-굿하팅(Anti-Goodharting): AI 메커니즘을 "게임화"하려는 콘텐츠가 있을 것입니다. 예를 들어, 인상적으로 보이지만 쓸모없는 코드를 대량 생성하는 기여자들이 있습니다. 이는 배심원이 이를 감지할 수 있지만, 정적 AI 모델은 열심히 노력하지 않는 한 감지하지 못한다는 것을 의미합니다. 이러한 행동을 포착하는 한 가지 가능한 방법은 개인이 그러한 시도를 표시할 수 있는 도전 메커니즘을 추가하여, 배심원이 그것을 판단하도록 보장하는 것입니다(따라서 AI 개발자들이 올바르게 포착하도록 동기를 부여합니다). 표시자는 배심원이 동의하면 보상을 받거나 배심원이 동의하지 않으면 패널티를 지불합니다.
어떤 점수 함수를 사용하나요? 현재 딥 펀딩 파일럿에서 사용되는 한 가지 아이디어는 배심원에게 "A와 B 중 누가 더 많은 공로를 받아야 하며, 얼마나 더 많이?"라고 묻는 것입니다. 점수 함수는 score(x) = sum((log(x[B]) - log(x[A]) - log(juror_ratio)) ** 2 for (A, B, juror_ratio) in jury_answers)입니다. 즉, 각 배심원 답변에 대해, 전체 목록의 비율이 배심원이 제공한 비율과 얼마나 멀리 떨어져 있는지 묻고, 그 거리의 제곱에 비례하는 패널티를 추가합니다(로그 공간에서). 이는 점수 함수의 풍부한 설계 공간이 있음을 보여주기 위한 것이며, 점수 함수의 선택은 배심원에게 어떤 질문을 하는지의 선택과 연결되어 있습니다.
전체 목록 제출자에게 어떻게 보상하나요? 이상적으로는, 메커니즘의 독점을 피하기 위해 여러 참가자에게 종종 0이 아닌 보상을 주고 싶지만, 또한 행위자가 동일한(또는 약간 수정된) 답변 세트를 여러 번 제출함으로써 보상을 증가시킬 수 없다는 속성을 만족시키고 싶습니다. 한 가지 유망한 접근 방식은 배심원 답변과 가장 잘 맞는 전체 목록의 선형 조합(계수는 음수가 아니고 합이 1)을 직접 계산하고, 그 동일한 계수를 사용하여 보상을 나누는 것입니다. 다른 접근 방식도 있을 수 있습니다.

딥 펀딩

예를 들어 직접 보여주는 것이 가장 쉽습니다:

이더리움의 이념적 기원을 보여주는 두 단계 딥 펀딩 예시, 여기에서 Python 코드를 참조하세요.

여기서 목표는 이더리움으로 이어진 철학적 기여에 대한 공로를 분배하는 것입니다. 예를 살펴보겠습니다:

여기에 표시된 시뮬레이션된 딥 펀딩 라운드는 사이퍼펑크 운동에 20.5%, 테크노-진보주의에 9.2%의 공로를 할당했습니다.
각 노드 내에서, 질문은 다음과 같습니다: 얼마나 독창적인 기여인가(자체적으로 공로를 받아야 함), 그리고 얼마나 다른 상위 영향력의 재조합인가? 사이퍼펑크 운동의 경우, 40%는 새로운 것이고 60%는 의존성입니다.
그런 다음 이러한 노드들의 상위 영향력을 살펴볼 수 있습니다: 자유지상주의 최소국가주의와 무정부주의는 사이퍼펑크 운동의 공로 중 17.3%를 차지하지만 스위스 직접 민주주의는 5%만 차지합니다.
그러나 자유지상주의 최소국가주의와 무정부주의는 또한 비트코인의 통화 철학에 영감을 주었으므로, 이더리움의 철학에 영향을 미친 두 가지 경로가 있습니다.
이더리움에 대한 자유지상주의 최소국가주의와 무정부주의의 총 기여 몫을 계산하려면, 각 경로를 따라 가장자리를 곱하고 경로를 더하면 됩니다: 0.205 * 0.6 * 0.173 + 0.195 * 0.648 * 0.201 ~= 0.0466. 따라서 이더리움에 동기를 부여한 철학에 기여한 모든 사람에게 보상하기 위해 $100를 기부해야 한다면, 이 시뮬레이션된 딥 펀딩 라운드에 따라 자유지상주의 최소국가주의자와 무정부주의자는 $4.66를 받게 됩니다.

프라이버시 추가하기

엔진 + 핸들 설계의 이점

또한, 이와 같은 메커니즘은 인센티브 평활화 속성을 가진 것으로 보입니다. 여기서 "인센티브 평활화"란 두 가지 요소의 조합을 말합니다:

확산: 투표 메커니즘이 취하는 어떤 단일 행동도 어떤 단일 행위자의 이익에 지나치게 큰 영향을 미치지 않습니다.
혼란: 투표 결정과 그것이 행위자의 이익에 어떻게 영향을 미치는지 사이의 연결은 더 복잡하고 계산하기 어렵습니다.

여기서 혼란과 확산이라는 용어는 암호학에서 가져온 것으로, 이는 암호와 해시 함수를 안전하게 만드는 핵심 속성입니다.

저작자표시 (새창열림)

MSK Inc.

AI는 엔진, 인간은 핸들: 민주적 의사결정의 미래 - 비탈릭 부테린

AI는 엔진, 인간은 핸들: 민주적 의사결정의 미래

목차

왜 단일 AI를 책임자로 두지 않는가?

퓨처키(Futarchy)

정제된 인간 판단력

딥 펀딩

프라이버시 추가하기

엔진 + 핸들 설계의 이점

AI는 엔진, 인간은 핸들: 민주적 의사결정의 미래

목차

왜 단일 AI를 책임자로 두지 않는가?

퓨처키(Futarchy)

정제된 인간 판단력

딥 펀딩

프라이버시 추가하기

엔진 + 핸들 설계의 이점

티스토리툴바