교내 및 교외활동

[SK 에이닷 1기_1차 중급 퀘스트] 멀티LLM 비교/분석 : 근궤적의 2차 시스템 근사화 문제

새벽잼 2024. 9. 18. 02:42

드디어 얼리어닷터 1차 퀘스트가 오픈되었다.

 

기간은 9월 12일부터 20일까지이다.

 

 

 

퀘스트는 총 2개였는데(초급, 중급)

 

나는 중급이 조금 더 재밌을 것 같아서, 중급으로 선택했다.

 

 

위에 있는 Beginner 그룹 퀘스트가 초급 퀘스트이다.

 

 

그리고 바로 위에 있는 사진이, 내가 진행할 Intermediate 퀘스트(중급 퀘스트)이다.

 

 

 

먼저, 에이닷을 사용하려면 앱을 설치해야한다.

 

앱스토어에 들어가서 에이닷을 검색하여 설치하면 된다!

 

 

 

내가 이번 퀘스트에서 질문할 문제는 바로, 제어공학의 "근궤적의 2차 시스템 근사화 문제" 이다.

 

 

3학년 1학기 때 수강하였던 제어공학에서, 교수님께서는 위의 문제를 과제로 내주셨는데..

 

솔직히 처음 보고 좀 당황해서...... 매일매일 조금씩 풀었던 기억이 있다.

 

ti nspire cx cas 계산기(공대생이라면 한번쯤 들어봤을법한 계산기)  를 사용하여, 나는 위의 문제를 풀었었는데...

 

잘 기억은 안 나지만, 저 문제의 계산 과정이 꽤나 복잡하다.

 

미분을 한 번 하거나, 혹은 두 번 해서, 그의 분모 = 0 값, 분자 = 0 값을 구한 다음에 뭔가 다시 대입을 했어야 했던 것 같은데..

 

어쩄든 분모, 분자가 매우매우 복잡한 함수의 미분 = 0 의 해를 구한다는 게 매우 계산이 복잡하기 때문에, ti nspire를 사용했었다.

 

물론, 매트랩을 이용하면 코드 몇 줄만에 바로 해가 나오지만..... 시험장에 매트랩이 설치된 노트북을 들고 들어갈 수도 없고, 저 문제의 의의는 계산 과정을 직접 서술하는 것이어서, 코드보단 계산 과정에 중점을 두어야 했다.

 

그래서 나는 일단 내가 ti nspire로 계산한 값이 맞는지 궁금했고, 이를 GPT에 돌려보았었다.

 

 

 

놀랍게도,, 답변은 매우 구체적이었는데, 내가 구했던 해가 맞았었고, 내가 미처 생각치못한 풀이를 짚어주어서 좋았던 기억이 있다.

단지 한 가지 아쉬운 점이 있다면 (바로 직전 포스팅에서 내가 언급했었는데) 조금씩 뭔가 개념에서 틀린 게 있었다. 

 

잘 기억은 안 나지만, 뭔가 미분 = 0 값을 칭하는 용어가 있었는데, 그 용어가 틀렸다든지... 뭐 이런...? 

근데 계산 과정자체는 맞고, 용어 개념이 틀렸었던 것이기 때문에,, 딱히 크게 신경을 쓰지는 않았었다.

 

 

.

.

.

 

 

어쨌든 그래서, 이렇게 복잡한 문제를 가지고 총 멀티 LLM 에이전트들을 비교/분석해보려고 한다!

 

 

1) A.X. 에 질문하기

 

 

일단.... 몇 가지 답변들에 대해서 말을 해보자면,

 

a) A.X. 에선 영점이 존재하지 않는다고 했는데, 실제로 답에는 -2+i , -2-i라는 영점이 존재한다고 되어있다.

A.X.가 허수에 대한 개념을 잘 모르는 건가 싶어서,

 

 

a번의 답이 틀렸다고 말했는데,,

 

답을 정정했다고 하면서도 전번과 동일한, 틀린 답변을 내놓았다.

 

이번에는 내가 어디 부분이 틀렸는지, 허수 개념을 반영하여 다시 알려달라고 했는데, 더 틀린 답을 내놓았다.

 

일단 이 문제에서 가장 쉽고, 근간이 되는 것이 a번이라... a번부터 틀리고, a번에 적용되는 개념을 이해하지 못하면 다른 개념들에 대한 답변은 신빙성이 없을 듯 싶었다.

 

b번 또한 완전히 틀렸는데, 계산한 각도의 값은 총 2개가 나와야한다. (k=0, k=1) 하지만 답변에는 k=0 일 때의 각도 값만 나와있었다.

 

그리고 그냥... a ~ l 까지 답변한 것들 봤는데 다 틀리거나, 답을 다 안 써놓거나 한 수준이어서....

A.X.을 가지고 과제를 하면 매우 위험할 듯 했다.

 

 

 

문제점들을 짚어보자면,

 

1. 뒤의 문제들의 답변에 허수를 포함한 것을 봐서는 허수 개념이 있긴 한 것 같았다. 그리고 영점의 정의에 대해서도 정확히 알고 있었다. 하지만 영점이 허수로 나오게 되는 경우, 그냥 영점이 존재하지 않는다고 답변한다.

(공학자로써 좀 심각한 문제인 것 같다.)

 

2. 만약 답이 1, 2, 3 이 존재하면, 1만 답변하는 등, 세 개의 답변을 모두 하지 않는다. 점근선을 그리려면 1, 2, 3 값을 모두 고려해야 그릴 수 있는데..... 1만 존재한다고 한다면 점근선을 애초에 그릴 수가 없다.

 

3. 이탈점 계산 값은 s domain에 대한 수식이 아닌, 시그마가 변수인 수식이어야 한다. 즉 계산 값이 시그마와 관련된 것이어야 한다. 하지만 계산 값은 s domain 이었고, 음... 수식 또한 틀렸다. (왜 이 수식이 나왔는지 모르겠다.)

 

4. 음.. 그리고 뒤에 나오는 모든 답변들은 답이 다 틀렸다. 그래서 굳이 비교, 분석할 필요가 없다.

 

5. 마지막으로, 이 문제의 핵심 키인 "주어진 단위 피드백 시스템은 2차 시스템으로 근사화될 수 있나?" 에 대한 질문을 다시 했었다. A.X.은 근사화 가능하다고 답변했는데, 그 답변의 근거가 신빙성이 없었다.

 

근사화 가능한 이유는, 뭐 여러 답변이 있을 수 있겠지만.... 내가 지금까지 제공한 a~l 의 흐름으로 답을 하자면, "처음 %os의 가정 값은 14% 였고, 실제 주어진 함수로 계산한 %os 값은 12%로 근사하기 때문에 가능하다" 라든가, 혹은 "angle 값의 총 합이  180도와 근사하기 때문에 가능하다." 등의 답변이 있어야 했는데,, 질문의 의도와는 좀 다른, 그리고 그것도 제시해준 %os 값이 틀린.... 답변을 제공해주었다.

 

 

총평: A.X.는 복잡한 수학적 계산에는 취약하다. 약간 어린이 같은 느낌이다. 본인이 잘 모르는 분야에 대해서도 그냥 답변한다. 그냥.... 계산을 A.X. 에게 물어보면 안 될 것 같은 느낌이다. 정의나 메커니즘 자체도 정립이 잘 되어있지 않다.

 

 

2) Claude 3.5 Sonnet 에 질문하기

 

일단 뭔가 이름부터 있어보인다.

 

위와 동일한 질문을 물어보았고, 답변은 아래와 같았다.

 

 

역시....... 어쩌면 A.X.도 다른 분야에 있어서는 Claude 3.5 Sonnet 보다 뛰어날 것이긴 할 것이다.

하지만 공학적인 복잡한 계산에 있어서는 Claude 3.5 Sonnet 가 훨씬 성능이 좋다.

 

a. 정답

b. 실수축과의 교점은 틀림. 실수축과의 각도는 맞음. 수식 또한 어느정도 맞음

c. 역시.. 내가 이 문제를 선택한 이유가 있었다. 이 문제는 정말 복잡한 문제여서, 매트랩이나 ti nspire로 풀어야 하기 때문에 Claude 3.5 Sonnet 도 매트랩을 추천한다고 했다. 하지만 나는 꼬리 질문으로 c 번 계산을 해달라고 했고, 결국 답변은 틀렸다.

 

이게... 사실 되게 복잡한 문제인 이유가,

 

1. 수식이 복잡해서, 미분 = 0 값을 구하기 힘들다.

2. 1에서 미분 = 0 값을 구한다고 쳐도, 그 값들이 다 이탈점인 게 아니다. 근궤적을 그려서 이탈점을 직접 판단해야 한다.

예를 들면, 이탈점 후보들은 -4.546, -3.398, -2.328인데, 근궤적을 그려보면 -4.546, -2.328 이 이탈점임을 알 수 있다. 근데 답변이 -3.398이라고 한 것을 봐서는.... 수식 계산 자체는 괜찮은데(사실 안 괜찮다. 값이 3개가 나와야 하는데 왜 1개만 나오지?) 이탈점을 판단하는 기준 자체가 애매한 듯했다. 아니면 근궤적을 그리는 방법을 모른다든가..?

 

 

d. 근궤적 그리기에 대한 기본 지식은 있다.

 

e. 음.. 답은 0.5305인데, 답변은 0.5169였다. 소수 둘째자리부터 값이 틀려지는 게 아쉽긴 하다.

 

f. 답은 57. 9608이나, 답변은 58.9였다.  이것도 답이 미묘하게 틀린 게 아쉬웠다.

(여기서 결과 값을 근사화하는 메커니즘이나, 계산 과정이 어떻게 되는지가 궁금했다. 각 계산 과정별로 값을 근사화해서 다음 계산 과정에 넣는지, 아니면 그냥 맨 마지막 계산 과정에서만 근사화하는지. 근데 내가 계산한, 원래 맞았던 값이 맨 마지막에만 근사화를 한 것이라서..... 아마 Claude 3.5 Sonnet 는 각 계산 과정이 끝날 때마다 근사화를 했을 가능성이 굉장히 높다.)

 

g~l. 일단 위의 사진을 보면, "매트랩의 rltool을 사용해야 하므로, 소프트웨어 없이는 직접적인 답변이 어렵다"고 되어있다. 이것만이라도 좋은 게, A.X. 얘는 처음 질문할 때에도 이에 대한 답변을 제공했었다. 즉 본인이 잘 모르는 분야에 대해 답을 제공했었다. 차라리, Claude 3.5 Sonnet 처럼 본인이 정확한 답을 제공하기 애매한 상황에서는 직접적인 답변 제공이 어렵다고 말을 하는 게 맞는 듯 싶다.

 

하지만 비교/분석을 위해 나는 꼬리물기 질문으로 매트랩 없이 답변을 해달라고 요구했고, 답이 맞는지 판단할 수 있는 K 값, 근사화 가능 유무의 답변을 본 결과, 이에 대한 맞는 답변을 제공받기는 힘든 듯했다.

 

먼저,

 

정답 K 값은 62.89이나, 답변해준 K 값은 189.15였다. 계산 메커니즘 자체는 맞는 것 같았으나, 계산 값이 완전히 틀린걸 봐서는... 아마 허수를 포함한 매우 복잡한 계산은 힘든 듯했다.

 

또, 근사화 가능 유무에 대해서도, Claude 3.5 Sonnet 는 근사화가 불가능할 것 같다고 답변했다.

 

 

총평: Claude 3.5 Sonnet 은 약간 석사생 같은 느낌이다. 어느 부분이 어려운지 알고 있고, 본인의 취약점을 알고 있지만 틀리거나 간과하는 부분들이 존재한다. 하지만 메커니즘 자체나, 정의에 대해서는 어느 정도 잘 알고 있고, 단순한 계산은 잘 할 것 같다. 또 계산 결과 값이 내가 원하는 값과 조금씩 틀린 것도 아쉽다. 또 Claude 3.5 Sonnet 는 각 계산 과정이 끝날 때마다 근사화를 했을 가능성이 굉장히 높은 것 같았다. 즉 고도의 정확성을 요구하며, 계산 과정이 복잡한 문제는  Claude 3.5 Sonnet 결과 값을 믿기보단, 그냥 메커니즘 참고용으로만 사용하면 좋을 것 같다.

 

 

3) GPT 4o 에 질문하기

 

 

일단 앞서 비교/분석한 A.X. 과 Claude 3.5 Sonnet는 다르게, 각 소문제 별로 굵은 글씨체 처리를 해주어서 보기에 매우 깔끔했다.

 

이제 답도 비교해보자.

 

a. 맞음

b. 맞음

c. 이탈점 계산을 위해서 매트랩을 추천했다.

d. 처음으로, 매트랩을 추천한 것과 더불어서, 매트랩에 실행할 수 있는 코드를 제공해주었다....

e. 답이 나오긴 했는데, 소수 둘째자리부터 틀려진 게 아쉬웠다. (근사화 이슈 때문인 듯)

f ~ l: 거의 계산 값을 주기보단, 메커니즘만 알려주고 매트랩으로 계산해보시오, 이런 뉘앙스였다. 특히 마지막의 답변이

"매트랩을 사용해서 정확한 결과와 그래프를 얻는 것이 최종적으로는 바람직합니다. 여기서는 주로 이론적인 접근과 일관성을 유지하기 위해 간단한 근사를 제공했습니다." 라고 되어있었다.

 

하지만 꼬리물기 질문으로 이탈점, k값, 근사화 유무를 답변해달라고 했고,

 

결국 답변해준 이탈점, k값, 근사화 유무 모두 틀린 답변이었다.

 

총평: 역시 GPT이다. 박사같다. 일단 본인이 답변하기 애매한 질문은 답변하지 않고, 다른 대안을 추천하며, 그 대안을 실행할 수 있도록 또 도와준다. (매트랩을 추천하면서, 매트랩에 실행할 수 있는 코드를 추천) 그리고 답변 또한 굵은 글씨체를 처리하여 가독성이 매우매우 좋다. 그리고 정의나 메커니즘 서술 또한 훌륭하다. 계산 값이 틀린 게 아쉽지만... 본인이 틀릴 수 있는 부분에 대해서는 틀릴 수도 있다라고 말을 하며, 조금 보수적인 답변을 취한 것도 좋았다. 솔직히 전공 과제를 하면서 제일 많이 쓸 것 같은 것은 GPT일 것 같다.

(이미 GPT는.... 하루에 많으면 2시간 넘게 사용할 때도 있어서.... 내 친구긴 하지만)

 

 

이렇게 A.X., Claude 3.5 Sonnet, GPT 4o 를 활용하여 제어공학의 근궤적 2차 시스템 근사화 문제를 풀어보았는데...

 

셋 다 해당 문제의 핵심인, "k값, 이탈점, 근사화 유무"를 틀렸다는 게 매우 아쉽다..

( A.X. 는 근사화 가능 유무를 맞히긴 했지만, 그 전의 소문제들을 다 틀려서... 그냥 찍어서 맞았을 확률이 99.9999%이다.)

 

하지만 매트랩 같은 고성능의 프로그램을 써야만 답을 얻을 수 있는 문제들을, 이런 LLM을 통해서 접근했다는 것 자체가 충분히 의의가 있다.

 

내가 알기로는 매트랩 프로그램이 매우 비싼 프로그램이라고 알고 있는데... 나는 학부생 신분이어서 학교에서 제공해준 매트랩 프로그램을 쓸 수 있지만, 보통 학교 졸업을 하고 나면 매트랩을 쓰기가 힘들다고 들었다.

 

그렇기 때문에, 위의 LLM을 통해서, 매트랩이 계산할 수 있는 복잡한 문제들을 접근했다는 것 자체가 충분히 의의가 있었다고 생각한다.

 

또 복잡한 수학적 계산과 그 메커니즘, 그리고 정의에 대한 문제는 GPT를 사용하는 것이 좋을 것 같다는 결론을 얻을 수 있었다.