தமிழ் மொழியில் அல்லல்படும் ChatGPT

தமிழ் மொழியில் அல்லல்படும் ChatGPT

ChatGPT புதியதொரு AI (Artificial Intelligence) தொழில்நுட்பம். இது ஆங்கிலம் போன்ற பிரதான மொழிகளில் ஓரளவு தரமான ஆக்கங்களை உருவாக்கினாலும், தமிழ் போன்ற சில மொழிகளில் அல்லல்படுகிறது.

தமிழ் மொழியில் உள்ள சிக்கலான அங்கங்களும் நிலைமையை மேலும் குழப்பியடிக்கின்றன.

பெயர் சொற்களில் உள்ள பால் அடையாளம் (வந்தான், வந்தாள், வந்தது), ஒருமை, பன்மை (வந்தார்கள், வந்தன) மட்டுமன்றி ஆல், ஆன், ஒடு, ஓடு ஆகிய உருபுகளும்  கூடவே ChatGPT யை குழப்புகின்றன. அவரால், அவரோடு ஆகிய பாதங்களை ChatGPT இலகுவில் அறிய முடியாது உள்ளது.

இப்படி பல தமிழ் மொழி அங்கங்கள் ChtaGPT யால் இலகுவில் புரிய முடியாது உள்ளது. அதனால் ChatGPT தரும் ஆக்கங்கள் புரிய முடியாதனவாகவும், அர்த்தம் எதுவும் அற்றதாகவும் உள்ளன. 

Tigrinya, Bengali, Kurdish மொழிகளிலும் ChatGPT அர்த்தமற்ற ஆக்கங்களை உருவாக்குகின்றது.

ஆங்கிலத்தில் இளநீர் தொடர்பாக ஒரு வெண்பா இயற்றுமாறு கேட்டபோது தரமான வெண்பா ஒன்றை ChatGPT இயற்றி உள்ளது (Please write a venpa about coconut water). அந்த வெண்பா பின்வருமாறு:

ஆனால் இளநீர் தொடர்பாக தமிழில் வெண்பா ஒன்றை இயற்ற கேட்டபோது ChatGPT பின்வரும் வெண்பாவை ஆக்கியுள்ளது:

மனிதாராலேயே கற்க கடினமான மொழியை AI இலகுவில் கற்க முடியாது. தமிழில் அவசியம் அற்ற அங்கங்கள் (frills) உள்ளமையும் கற்பதை கடினம் ஆக்குகிறது. 

உதாரணமாக “அவன் வந்தான்” என்ற கூற்றில் வந்தது ஒரு ஆண் என்பது அவனிலும் உள்ளது அத்துடன் வந்தானிலும் உள்ளது. ஆங்கிலத்தில் “He came” என்று கூறுவதால் he யில் மட்டும் பால் கூறப்படுகிறது.

Facebook போன்ற தளங்களிலும் இவ்வகை அர்த்தமற்ற மொழிபெயர்ப்புகளை காணலாம்.

“he has a role to play in secret places” என்பதை ஒருவர் “அந்தரங்க இடங்களில் உருட்டி விளையாட அவரிடம் ஒரு உருளை உள்ளது” என்று மொழிபெயர்த்தாராம். தற்போது ChatGPTயும் அவ்வாறே.