쳇봇 인공지능 작가

생성형 AI 를 당황시킬만한 문제 출제

coding art 2024. 10. 17. 15:45
728x90

 

 

 

 

2024년 10월 2일 Scale Lab 에서 온 이메일의 타이틀이다. stumping AI 란 즉 생성형 AI 가 답변을 하지 못할 정도로 당황시키고 놀래킬 수 는 놀라운 질문을 제출해 보라는 것이다. 

$500K in prizes for stumping AI — submit your questions!

이미 프리랜서 한국어 작가를 경험해 보신 분들은 훈련 기간 중에는 시간당 9.5달러, 훈련이 끝난 후 실무 기간에 시간당 31달러를 받을 수 있다는 점을 알수 있을 것이다. 말은 시급 31달러이지만 배정해 주는 물량이 거의 없기때문에 프리랜서인 나로서는 욕 나오는 광고성 멘트로 보인다.
하지만 예전에 스탠포드대학에서 진행했던 Q&A 인공지능에 관심을 가졌었기 때문에 호기심 삼아서 항공기 공학 분야에서 몇 개의 5지 선다 문제를 제시해 보았다.
첫번째 문제는 항공기 날개에 무기나 연료탱크를 메다는 부위의 명칭에 관한 질문이었다.

Question

The following figure is a side view showing how to attach a turbofan engine of a DC-10 civilian jet aircraft from McDonnell Douglas, now Boeing, to the wing. The structure must be strong enough to withstand a fairly heavy engine load on the wing structure at two points, forward and rearward, to be connected to the engine housing. What is the name of the part that can suspend and support this engine structure and be connected to the wing? In the case of fighters, fuel tanks to increase the range or weapons are sometimes attached instead of engines, and these are also called hard points.

① pylon  ② fastener    ③ fuselage     ④ nacelle  ⑤ flap

 

answer pylon

이 질문에 대한 3종류 AI 놈들이 제시한 정답은 다음과 같다. 그다지 어려운 문제가 아니므로 AI 3놈들이 비교적 쉽게 문제의 정답을 맞췄다.

OpenAI(GPT-4o)
Answer: A. pylon
Reasoning: The diagram details the attachment of a turbofan engine to the wing of a DC-10 aircraft. The structure responsible for supporting the engine and connecting it to the wing is typically referred to as the "pylon." In aircraft, pylons serve as the attachment points for engines, and in military aircraft, they also support fuel tanks or weapons. The other options do not fit this function: a fastener is a general term for a device that holds two parts together, a flap is part of the wing used to increase lift during takeoff and landing, the fuselage is the aircraft's main body, and a nacelle is the housing for the engine.

 

Anthropic(Sonnet-3.5)
Answer: A
Reasoning: The question is asking about the structural component that connects the engine to the wing of the aircraft. In aircraft engineering, this component is specifically designed to support the weight of the engine and transfer its loads to the wing structure. The image shows a schematic of how the engine is attached to the wing, with front and rear attachment points.

The term "pylon" in aviation refers to the structural member that connects an engine or other external store to the wing or fuselage of an aircraft. It's designed to be strong enough to support the weight and forces of the engine while also being aerodynamically shaped to minimize drag. The description in the question that mentions this structure can also be used for attaching fuel tanks or weapons on fighter aircraft (referred to as "hard points") further confirms that we're dealing with a pylon.

The other options don't fit this description:
- A fastener is a much smaller component used to join parts together, not a major structural element.
- A flap is a movable surface on the wing used for lift and drag control.
- The fuselage is the main body of the aircraft.
- A nacelle is the housing around the engine, not the structure that attaches it to the wing.

 

Google(gemini-1.5-Pro-002)
Answer: A
Reasoning: The diagram shows the engine attached to the wing via a structure labeled as "front engine mount" and "rear engine mount". This structure, which supports the engine and connects it to the wing, is called a pylon. Fasteners are the individual bolts or rivets used in the attachment, flaps are control surfaces on the wing, the fuselage is the main body of the aircraft, and the nacelle is the housing around the engine itself.

 

그 결과 3놈들이 다 맞췄으므로 좀 더 어려운 문제로 도전해 보라는 다음과 같은 메세지를 주었다.

Results
3 out of 3 models answered correctly. You can try again with a harder question!

 

시급도 전혀 못받는 문제에 도전하기 위해 많은 시간을 낭비한 후 다시 두번째 문제를 제시하기로 하였다. 이 번 문제는 

항공기 날개의 leading edge 파손에 관한 문제였다.

Question

The leading edge of an aircraft wing is a part that is highly likely to be damaged by collisions with birds during takeoff, landing, or flight, and is therefore a part that requires high mechanical strength as well as high toughness properties to minimize crack generation and growth that may occur due to impact.

 

다음과 같이 5개의 보기를 제시하였다.

 

글쎄, 문제 내용은 첫번째와 거의 대동소이한 수준인데 3놈 다 정답을 알아내지 못했고, 그래서 다음과 같이 출제한 문제의 저자로서 정보를 제출하였다. 어쨋든 심사 대상 문제로 등록은 된 것 같다.

 

그 후로도 10개 이상의 비슷한 수준의 문제를 주어보았더니 OpenAi 놈이 가장 잘 맞추었다. 한번은 3놈 다 답을 맞추지 못했는데, 제출하지 않고 5분 정도 기다렸더니 OpenAI 놈만 다시 답을 맞췄다고 신고를 하는 경우도 2회 있었다.

Anthopo 와 Gemini 는 Q&A 인공지능 개발에 그다지 투자를 하지 않는 것 같았다.

결과론적인 결론인데 OpenAI 는 한번 틀린 경우에도 다시 해답을 찾기위해 잔머리를 쓰는 방식이 아마도 생성형 AI 알고리듬이 아닌 IBM 의 엑스퍼트 방식 알고리듬을 사용하지 않나하는 생각이 들었다.

 

결론적으로 어차피 여기 문제 제출헤서 당첨될 가능성은 거의 없다고 본다. 용돈 벌이해야 할 바쁜 프리랜서 입장에서 이러한 시도는 시간 낭비가 심하기때문에 거의 무용하다고 본다. 필자가 우연히 한 문제 성공했던 것은 제시된 그림의 복잡성이 사람은 쉽게 이해하는데 AI 는 전혀 이해하지 못했던 탓으로 판단된다.

 

수능문제나 자격증 취득 또는 채용시험 문제에서의 5지 선다형 문제는 AI 를 이기기 힘들다는 것이 결론이다.