KG생성 새방향 (시퀀스, 유효성, 잠재변수)

지식그래프 생성은 “트리플 하나 맞히기”보다 훨씬 어렵습니다. 이 논문은 KG를 (head, relation, tail) 트리플의 시퀀스로 선형화해 오토리그레시브로 p(G)를 직접 학습하는 ARK, 그리고 잠재변수 z로 조건부 완성을 지원하는 SAIL을 제안합니다. 높은 semantic validity가 매력적이지만, 사실성·일반화·후처리 기여를 분리해 읽는 시각도 함께 필요합니다.

시퀀스로 KG를 만든다는 발상의 장점과 함정

이 논문의 핵심 메시지는 사용자가 정리한 대로 “KG 생성은 joint distribution 문제”라는 태도를 끝까지 밀고 간다는 점입니다. 논문은 링크 예측이 트리플을 독립적으로 점수화하기 때문에 타입 일관성, 시간 제약, 관계 패턴 같은 제약을 “그래프 전체 차원에서” 보장하기 어렵다고 전제합니다. 그래서 목표를 pθ(G)로 명시하고, 그래프를 [BOS, h1, r1, t1, …, EOS] 형태의 시퀀스로 바꿔 AR 모델로 토큰을 하나씩 생성합니다. 이는 “그래프 생성이 되려면 결국 전체 구조의 상호의존성을 모델이 받아먹어야 한다”는 주장을 깔끔하게 구현한 선택입니다.

특히 실용적으로 좋은 디테일은 “순서 민감도”를 정면으로 다뤘다는 점입니다. 그래프는 본질적으로 순서가 없는데, 시퀀스로 만들면 모델이 위치 편향을 학습할 위험이 생깁니다. 이를 줄이기 위해 학습 시 트리플 순서를 랜덤화하고, 평가는 트리플 집합 기준으로 순서와 무관하게 validity를 확인한다고 밝힙니다. “시퀀스화로 생길 수 있는 인공적 규칙”을 최소화하려는 기본기가 보입니다.

다만 사용자의 비판 포인트 중 (3) “선형화+후처리”는 실제로 이 논문의 해석을 바꿀 수 있는 지점입니다. 논문은 생성된 시퀀스를 (h,r,t) 단위로 파싱할 때, 마지막이 어긋나 불완전 트리플이 생기면 discard한다고 설명합니다. 이는 실무적으로는 합리적이지만, 평가 관점에서는 두 층의 성질이 섞일 수 있습니다. 첫째, 모델이 정말로 “구조 경계(트리플 정렬)”를 학습했는지입니다. 둘째, 경계를 못 맞춘 오류가 후처리로 지워지며 validity가 인위적으로 좋아지는지입니다.
이 문제를 “논문이 틀렸다”로 읽을 필요는 없습니다. 오히려 생성 시스템을 만드는 관점에서는 자연스러운 엔지니어링입니다. 다만 연구 주장(“모델이 제약을 학습했다”)을 더 강하게 만들려면, 후처리 전/후의 (i) 불완전 트리플 비율, (ii) discard로 인해 제거된 토큰 분포, (iii) discard가 validity를 얼마나 올렸는지의 분리 리포트가 있으면 훨씬 투명해집니다. 사용자가 제안한 “triple separator 같은 구조 토큰” 도입 실험도 이 질문을 정면으로 답할 수 있는 방법입니다.

여기서 근거-반론-재반박 구조로 정리하면 다음과 같습니다.

근거: 시퀀스 모델은 토큰 조건부 확률로 그래프 전체 의존성을 흡수할 수 있습니다.

반론: 그래프의 순서 없음과 경계 문제 때문에, 시퀀스화 자체가 편향과 후처리 의존을 만들 수 있습니다.

재반박: 논문은 트리플 랜덤화로 순서 편향을 줄였고, BOS/EOS로 종료 조건을 학습하게 했습니다.

보완 제안: 후처리 효과를 분리 측정하고, 경계 학습을 강화하는 구조 토큰/손실 설계를 넣으면 “진짜 생성 모델” 주장에 더 힘이 실립니다.

유효성은 높지만, ‘사실성’과 ‘일반화’는 별개입니다

이 논문이 강하게 보여주는 것은 semantic validity의 극단적 개선입니다. IntelliGraphs 벤치마크에서 ARK와 SAIL은 syn-paths, syn-tipr, syn-types 같은 합성 데이터뿐 아니라 wd-movies, wd-articles 같은 Wikidata 기반 데이터에서도 매우 높은 %Valid를 보고합니다. 반면 KGE 기반(TransE/DistMult/ComplEx) 베이스라인은 76–100%가 empty graph로 무너지고 validity가 1% 미만 수준으로 떨어진다고 제시합니다. “독립 스코어링으로는 생성이 안 된다”는 논지를 실험으로 설득한 셈입니다.

논문 Table 1을 보면, 예를 들어 wd-movies에서 ARK는 99.24% valid, 98.19 bits/graph로 압축도 우수하고, wd-articles에서도 ARK는 97.24% valid를 유지합니다. syn-types에서는 ARK가 89.22% valid로 다른 합성셋보다 낮지만, 여전히 “제약을 데이터에서 학습한다”는 주장을 뒷받침하는 수치입니다.
이 지점이 중요한 이유는 “제약을 규칙으로 주지 않았다”는 논문의 주장과 직결되기 때문입니다. 타입 일관성, 시간적 제약 같은 규칙이 명시적으로 hard constraint로 들어간 것이 아니라, 데이터 분포를 학습하며 암묵적으로 맞춘 결과라는 점을 내세웁니다.

하지만 사용자의 비판처럼, 여기서부터는 ‘지표가 말하지 않는 것’을 분리해 읽어야 합니다.

첫째, semantic validity와 사실성(truth)·그럴듯함(plausibility)은 다른 문제입니다. 논문도 “모델은 규칙을 학습할 뿐 진실을 검증하지 않는다”고 인정하고, 유효하지만 사실과 다를 수 있는 트리플이 나올 수 있음을 밝힙니다. 이는 특히 QA나 지식 완성 같은 응용에서 치명적일 수 있습니다. 예컨대 wd-movies에서 “유효한 장르-배우-감독 조합”이라도 실제 세계의 사실과 다를 수 있습니다. 논문 Figure 4.1의 latent interpolation 설명에서도 “중간점은 유효하지만 덜 현실적인 조합이 나올 수 있다”는 뉘앙스를 분명히 적습니다.
따라서 응용 관점에서의 결론은 “validity가 높으니 끝”이 아니라, “validity는 최소 안전장치일 뿐, 사실성 검증 레이어가 추가돼야 한다”입니다. 예를 들어 외부 근거(문서/출처)와의 정합성 점검, 혹은 다운스트림 QA 정확도 같은 연결 실험이 필요합니다.

둘째, novelty 정의의 한계입니다. 논문은 novelty를 “샘플 그래프가 training/validation에 존재하지 않으면 novel”로 측정합니다. 이 기준은 ‘완전 복제’는 막지만, 사용자가 지적했듯 부분구조를 거의 그대로 재조합한 ‘준-암기’는 충분히 걸러내지 못합니다. 특히 KG는 엔티티 빈도 편향이 강하고, motif 재조합만으로도 겉보기 novelty가 쉽게 올라갈 수 있습니다. 그래서 “진짜 일반화”를 주장하려면, motif 중복률, n-gram(연속 트리플/토큰) 중복, 엔티티/관계 마진 분포의 유지 같은 더 강한 분석이 필요합니다.

아래 표는 논문이 주로 사용하는 지표와, 사용자의 비평을 반영해 보완하면 좋은 분석 축을 함께 정리한 것입니다.

논문 지표	해석상의 맹점	보완 제안
%Valid	사실성/그럴듯함 보장 아님	외부 검증 또는 다운스트림 성능 연결
%Novel	부분 패턴 재조합 암기 가능	motif/토큰 n-gram 중복률, 분포 비교
Compression	후처리/순서 랜덤화 영향 분리 어려움	후처리 전/후, 경계 오류율 별도 리포트

결국 이 논문의 “유효성 성과”는 매우 인상적이지만, 그것을 “진실한 지식 생성”으로 오해하지 않도록 해석의 안전장치를 달아야 합니다. 사용자의 한줄평처럼, 사실성/그럴듯함/일반화 강도/후처리 기여를 분리하면 연구의 의미가 더 단단해집니다.

잠재변수로 ‘컨트롤’이 생기지만, 인코더와 폐세계는 남는 숙제입니다

SAIL은 ARK에 잠재변수 z를 넣어 “무조건 생성”뿐 아니라 “부분 그래프 조건부 완성”을 지원한다고 설명합니다. VAE(정확히는 β-VAE) 형태로 ELBO를 최적화하며, z를 샘플링해 디코더가 전체 시퀀스를 조건부로 생성합니다. 디코더는 z를 초기 hidden state에 주입하고, 더 나아가 모든 시점에 z를 broadcast해 토큰 예측마다 전역 구조 신호가 유지되게 설계합니다. 이 설계는 “그럴듯한 전역 일관성을 유지한 채 조절 가능한 생성”이라는 VAE의 장점을 KG로 옮긴 선택입니다. 논문은 t-SNE 시각화에서 장르별 클러스터가 형성되고, latent interpolation에서 중간점도 유효한 그래프가 나오며 점진적 전이가 관측된다고 보고합니다.

다만 사용자가 가장 날카롭게 짚은 부분이 여기입니다. SAIL 인코더가 MLP + mean pooling이라는 점입니다. 논문은 각 트리플을 [Ee[h]; Er[r]; Ee[t]]로 임베딩한 후 시퀀스 평균을 내 그래프 벡터를 만들고, 그 위에 MLP로 µ와 log σ²를 예측합니다. 게다가 “GRU 인코더가 더 안 좋았다”는 관찰도 적어두며, 그 이유는 future work로 남깁니다.
이 선택은 장점과 위험이 같이 있습니다. 장점은 간단하고 빠르며 permutation-invariant에 가깝다는 점입니다. 평균 풀링은 트리플 순서와 무관한 요약이므로, 오히려 “그래프는 순서가 없다”는 성질과 맞아떨어질 수 있습니다. 반면 위험은 구조 정보 손실입니다. 평균은 어떤 트리플들이 ‘함께’ 등장했는지의 결합 구조, 즉 상호의존성의 형태를 강하게 지울 수 있습니다. 그럼에도 디코더가 AR로 강하게 구조를 만들기 때문에, 인코더가 약해도 학습이 돌아갔을 가능성이 있습니다. 이 경우 “잠재공간이 정말 구조를 담아서 컨트롤이 되는가”와 “디코더가 대부분을 해결해서 z는 장식이 되는가(posterior collapse)”를 더 엄밀히 분리할 필요가 있습니다.

또 하나의 큰 제한은 논문이 스스로 명시한 “고정 vocabulary(폐세계)”와 “서브그래프 범위(3–212 트리플)”입니다. 훈련 시점에 엔티티/관계 vocab이 고정되어 있고, 새로운 엔티티가 계속 유입되는 오픈월드 상황은 다루지 못한다고 제한을 분명히 씁니다. 이는 연구 초점이 “서브그래프 생성”인 이상 정직한 선택이지만, 응용 확장을 말할 때는 전제가 빠지면 오해가 생깁니다. 현실 KG는 OOV가 필연이고, 전역 일관성(다른 서브그래프들과의 충돌 없음) 문제가 훨씬 큽니다.

그래서 이 논문을 “지금 당장 쓸 수 있는 형태”로 강하게 만들 보완 실험은 사용자 제안과 정확히 맞물립니다.

인코더 대체: permutation-invariant encoder(DeepSets/SetTransformer)나 경량 GNN을 넣었을 때, conditional completion 성능과 latent space 품질이 얼마나 달라지는지 비교하면 “잠재변수의 실효성”이 단단해집니다.

후처리 영향 분리: incomplete triple discard 전/후의 %Valid, %Empty, 토큰 오류율을 함께 보여주면 “우리가 학습한 것”과 “우리가 치운 것”이 분리됩니다.

일반화 강도 측정: novelty를 set-level 비교에서 motif/부분구조 중복 분석으로 확장하면, “암기 배제” 주장에 현실적인 방어막이 생깁니다.

오픈월드 근사: OOV 엔티티를 텍스트 임베딩으로 합성하는 최소 실험이라도 있으면, 폐세계 한계를 ‘완화 가능한 제약’으로 바꿀 수 있습니다.

독자가 실제로 적용할 수 있는 실천 체크리스트도 정리해볼 수 있습니다.

validity를 “최종 품질”이 아니라 “최소 안전 조건”으로 두고, 사실성 검증(근거/출처/규칙 엔진/검색)을 별도로 붙이는 것이 안전합니다.

novelty는 단일 수치로 믿지 말고, 부분구조 중복률과 엔티티 빈도 편향까지 같이 봐야 합니다.

후처리는 반드시 계측 대상입니다. discard가 많아질수록 “모델이 만든 그래프”가 아니라 “모델이 만든 것에서 살아남은 그래프”가 됩니다.

z를 쓰는 모델은 posterior collapse 진단(KL, 샘플 다양성, 조건부 완성에서의 민감도)을 항상 같이 봐야 합니다.

요약하면, ARK/SAIL은 “KG를 진짜 생성 모델로 다루는 방법”을 간결하게 제시했고, IntelliGraphs에서 매우 높은 유효성을 달성했습니다. 다만 이 유효성 성과를 ‘진실한 지식’으로 확장하려면, 사실성/그럴듯함/일반화 강도/후처리 기여/인코더 설계/오픈월드 전제를 더 분리해 보여주는 것이 다음 단계입니다.

이 논문은 KG를 트리플 시퀀스로 선형화해 AR로 p(G)를 직접 학습(ARK)하고, VAE 형태의 잠재변수로 조건부 완성을 가능케(SAIL) 하며 높은 semantic validity를 달성했습니다. 다만 validity가 사실성·일반화를 보장하지 않고, novelty 정의가 약하며, 후처리 discard와 인코더 설계·폐세계 가정이 결과 해석에 영향을 줄 수 있어, 분리 실험과 확장 분석이 더해지면 주장 자체가 훨씬 단단해질 것입니다.

자주 묻는 질문 (FAQ)

Q. %Valid가 99%면 “사실인 지식”을 생성한다고 봐도 되나요? A. 아닙니다. 논문에서의 semantic validity는 타입/시간/관계 패턴 같은 제약 만족을 의미하며, 사실성(truth) 검증을 포함하지 않는다고 명시합니다. 따라서 응용에서는 외부 근거 기반 검증이나 다운스트림 QA 성능 연결이 추가로 필요합니다.

Q. %Novel이 높으면 암기가 없다고 결론 내릴 수 있나요?
A. 논문 novelty는 “훈련/검증에 같은 그래프가 있느냐” 기준이라 완전 복제는 막지만, 부분구조 재조합 형태의 준-암기를 충분히 배제하지는 못합니다. motif/부분패턴 중복률 같은 보완 지표가 함께 있으면 더 안전합니다.

Q. SAIL의 잠재변수 z는 실제로 무엇을 컨트롤하나요?
A. 논문은 z를 통해 무조건 생성뿐 아니라 부분 그래프 조건부 완성, 잠재공간 보간과 같은 컨트롤을 지원한다고 설명하고, 장르 클러스터링과 보간 예시를 제시합니다. 다만 인코더가 mean pooling 기반 MLP라 구조 정보를 얼마나 담는지 논쟁 여지가 있어, permutation-invariant 인코더 비교나 posterior collapse 진단이 추가되면 더 명확해집니다.

[출처]: https://arxiv.org/html/2602.06707v1

테크 마스터