ਨਵੀਂ ਦਿੱਲੀ, 12 ਅਕਤੂਬਰ
ਐਪਲ ਖੋਜਕਰਤਾਵਾਂ ਦੀ ਇੱਕ ਟੀਮ ਨੇ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs), ਖਾਸ ਕਰਕੇ ਗਣਿਤ ਵਿੱਚ ਰਸਮੀ ਤਰਕ ਸਮਰੱਥਾਵਾਂ 'ਤੇ ਸਵਾਲ ਉਠਾਏ ਹਨ।
ਉਹਨਾਂ ਨੇ ਪਾਇਆ ਕਿ LLMs ਇੱਕੋ ਸਵਾਲ ਦੀਆਂ ਵੱਖੋ-ਵੱਖਰੀਆਂ ਸਥਿਤੀਆਂ ਦਾ ਜਵਾਬ ਦਿੰਦੇ ਸਮੇਂ ਧਿਆਨ ਦੇਣ ਯੋਗ ਅੰਤਰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੇ ਹਨ।
ਸਾਹਿਤ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ LLM ਵਿੱਚ ਤਰਕ ਦੀ ਪ੍ਰਕਿਰਿਆ ਰਸਮੀ ਤਰਕ ਦੀ ਬਜਾਏ ਸੰਭਾਵੀ ਪੈਟਰਨ-ਮੈਚਿੰਗ ਹੈ।
ਹਾਲਾਂਕਿ LLM ਹੋਰ ਅਮੂਰਤ ਤਰਕ ਦੇ ਪੈਟਰਨਾਂ ਨਾਲ ਮੇਲ ਕਰ ਸਕਦੇ ਹਨ, ਪਰ ਉਹ ਸਹੀ ਤਰਕਸ਼ੀਲ ਤਰਕ ਤੋਂ ਘੱਟ ਹਨ। ਇਨਪੁਟ ਟੋਕਨਾਂ ਵਿੱਚ ਛੋਟੀਆਂ ਤਬਦੀਲੀਆਂ ਮਾਡਲ ਆਉਟਪੁੱਟ ਨੂੰ ਬਹੁਤ ਜ਼ਿਆਦਾ ਬਦਲ ਸਕਦੀਆਂ ਹਨ, ਇੱਕ ਮਜ਼ਬੂਤ ਟੋਕਨ ਪੱਖਪਾਤ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ ਅਤੇ ਇਹ ਸੁਝਾਅ ਦਿੰਦੀਆਂ ਹਨ ਕਿ ਇਹ ਮਾਡਲ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸੰਵੇਦਨਸ਼ੀਲ ਅਤੇ ਨਾਜ਼ੁਕ ਹਨ।
"ਇਸ ਤੋਂ ਇਲਾਵਾ, ਕਈ ਟੋਕਨਾਂ ਦੀ ਸਹੀ ਚੋਣ ਦੀ ਲੋੜ ਵਾਲੇ ਕੰਮਾਂ ਵਿੱਚ, ਇੱਕ ਸਹੀ ਜਵਾਬ 'ਤੇ ਪਹੁੰਚਣ ਦੀ ਸੰਭਾਵਨਾ ਟੋਕਨਾਂ ਦੀ ਸੰਖਿਆ ਜਾਂ ਸ਼ਾਮਲ ਕਦਮਾਂ ਦੇ ਨਾਲ ਤੇਜ਼ੀ ਨਾਲ ਘਟਦੀ ਹੈ, ਜੋ ਕਿ ਗੁੰਝਲਦਾਰ ਤਰਕ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਅੰਦਰੂਨੀ ਅਵਿਸ਼ਵਾਸਤਾ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ," ਐਪਲ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਆਪਣੇ ਸਿਰਲੇਖ ਦੇ ਪੇਪਰ ਵਿੱਚ ਕਿਹਾ। GSM-ਸਿੰਬੋਲਿਕ: ਵੱਡੀ ਭਾਸ਼ਾ ਦੇ ਮਾਡਲਾਂ ਵਿੱਚ ਗਣਿਤਿਕ ਤਰਕ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਸਮਝਣਾ।
'GSM8K' ਬੈਂਚਮਾਰਕ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਗ੍ਰੇਡ-ਸਕੂਲ ਪੱਧਰ ਦੇ ਸਵਾਲਾਂ 'ਤੇ ਮਾਡਲਾਂ ਦੇ ਗਣਿਤਿਕ ਤਰਕ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ।
ਹਾਲਾਂਕਿ GSM8K 'ਤੇ LLMs ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਹਾਲ ਹੀ ਦੇ ਸਾਲਾਂ ਵਿੱਚ ਕਾਫ਼ੀ ਸੁਧਾਰ ਹੋਇਆ ਹੈ, ਇਹ ਅਸਪਸ਼ਟ ਹੈ ਕਿ ਕੀ ਉਹਨਾਂ ਦੀਆਂ ਗਣਿਤਿਕ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਅਸਲ ਵਿੱਚ ਉੱਨਤ ਹੋਈਆਂ ਹਨ, ਰਿਪੋਰਟ ਕੀਤੇ ਮੈਟ੍ਰਿਕਸ ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਬਾਰੇ ਸਵਾਲ ਉਠਾਉਂਦੇ ਹਨ।