भारत अब सिर्फ AI का इस्तेमाल करने वाला देश नहीं रहा, बल्कि AI बनाने और उसे बेहतर करने की रेस में भी तेज़ी से आगे बढ़ रहा है। इसी कड़ी में बेंगलुरु की स्टार्टअप कंपनी Sarvam AI ने ऐसा दावा किया है, जिसने पूरी ग्लोबल AI कम्युनिटी का ध्यान खींच लिया है। कंपनी का कहना है कि उसके नए AI मॉडल्स भारतीय भाषाओं से जुड़े कई अहम कामों में ChatGPT और Google Gemini जैसे बड़े नामों से बेहतर साबित हुए हैं। यह खबर खास इसलिए भी है क्योंकि अब तक इस तरह के एडवांस AI टूल्स पर विदेशी कंपनियों का दबदबा रहा है।
Sarvam AI की पहचान
Sarvam AI एक बेंगलुरु बेस्ड AI स्टार्टअप है, जिसका मकसद भारत के लिए खास AI टेक्नोलॉजी तैयार करना है। कंपनी मानती है कि भारत की भाषाएं, डॉक्यूमेंट्स और जरूरतें बाकी देशों से काफी अलग हैं, इसलिए यहां के लिए अलग तरह के AI मॉडल्स की जरूरत है। इसी सोच के साथ Sarvam AI ने अपने दो नए मॉडल पेश किए हैं – Sarvam Vision और Bulbul V3।
Sarvam Vision की ताकत
Sarvam Vision को एक विजन लैंग्वेज मॉडल के रूप में तैयार किया गया है, जिसमें 3 बिलियन पैरामीटर हैं। यह मॉडल खास तौर पर OCR यानी ऑप्टिकल कैरेक्टर रिकग्निशन जैसे कामों के लिए बनाया गया है। आसान शब्दों में कहें तो यह मॉडल तस्वीरों, स्कैन किए गए डॉक्यूमेंट्स और इमेज से टेक्स्ट को समझने और पढ़ने में माहिर है। कंपनी के को-फाउंडर Pratyush Kumar के मुताबिक Sarvam Vision ने olmOCR Bench पर 84.3 फीसदी एक्युरेसी हासिल की है। यह स्कोर Google Gemini और DeepSeek OCR v2 जैसे जाने-माने मॉडल्स से बेहतर बताया जा रहा है। इसके अलावा OmniDocBench v1.5 पर इस मॉडल ने 93.28 फीसदी की एक्युरेसी दर्ज की है, जो अपने आप में बड़ी उपलब्धि मानी जा रही है।
भारतीय डॉक्यूमेंट पर फोकस
भारत में डॉक्यूमेंट्स की क्वालिटी हर जगह एक जैसी नहीं होती। कहीं पुराने स्कैन हैं, कहीं फोटो कॉपी, तो कहीं मोबाइल से खींची गई धुंधली तस्वीरें। Sarvam Vision को इसी चुनौती को ध्यान में रखकर ट्रेन किया गया है। यह मॉडल इमेज कैप्शनिंग, सीन टेक्स्ट रिकग्निशन, चार्ट समझने और जटिल टेबल को पढ़ने जैसे काम आसानी से कर सकता है। यही वजह है कि भारतीय भाषाओं और डॉक्यूमेंट्स के मामले में इसे फिलहाल सबसे आगे बताया जा रहा है।
Bulbul V3 की खासियत
Sarvam AI का दूसरा बड़ा मॉडल Bulbul V3 है, जो टेक्स्ट टू स्पीच सेगमेंट में पेश किया गया है। यानी यह मॉडल लिखे हुए टेक्स्ट को आवाज़ में बदल सकता है। कंपनी के मुताबिक Bulbul V3 कुल 35 अलग-अलग वॉयस को सपोर्ट करता है, जो भारत की 22 आधिकारिक भाषाओं में फैली हुई हैं। खास बात यह है कि इन भाषाओं में 1800 के दौर से लेकर आज तक की भाषा शैली को शामिल किया गया है। इसका मतलब यह है कि यह मॉडल सिर्फ मॉडर्न हिंदी या तमिल ही नहीं, बल्कि पुराने भाषा रूपों को भी समझने और बोलने में सक्षम है। Pratyush Kumar का कहना है कि भारतीय भाषाओं के लिए Bulbul V3 अब तक के सबसे मजबूत टेक्स्ट टू स्पीच मॉडल्स में से एक है।
ग्लोबल लेवल पर तारीफ
Sarvam AI का काम सिर्फ भारत में ही नहीं, बल्कि ग्लोबल लेवल पर भी चर्चा में है। जाने-माने टेक कमेंटेटर Deedy Das ने सोशल मीडिया प्लेटफॉर्म X पर पोस्ट करते हुए कहा कि वह पहले Sarvam AI को लेकर गलत सोच रहे थे। उन्होंने माना कि एक साल पहले उन्हें इंडिक भाषाओं पर छोटे मॉडल ट्रेन करने का आइडिया सही नहीं लगता था, लेकिन अब Sarvam AI ने टेक्नोलॉजी के स्तर पर जबरदस्त टर्नअराउंड दिखाया है।
आगे क्या मायने
Sarvam AI का कहना है कि उसका लक्ष्य भारत में AI को ज्यादा सुलभ बनाना है, ताकि सरकार, स्टार्टअप्स और आम लोग भी इसका फायदा उठा सकें। कंपनी ऐसे फाउंडेशनल AI टूल्स बनाना चाहती है, जो भारत की जरूरतों के हिसाब से हों और जिन पर देश का भरोसा और कंट्रोल बना रहे। अगर Sarvam AI अपने दावों पर खरा उतरता है, तो यह भारत के AI भविष्य के लिए एक बड़ा मोड़ साबित हो सकता है।
Sarvam AI मॉडल्स की जानकारी
| फीचर | Sarvam Vision | Bulbul V3 |
|---|---|---|
| मॉडल टाइप | Vision Language Model | Text to Speech Model |
| पैरामीटर | 3 बिलियन | जानकारी नहीं |
| मुख्य काम | OCR, इमेज कैप्शनिंग, चार्ट और टेबल समझना | टेक्स्ट को आवाज़ में बदलना |
| बेंचमार्क स्कोर | olmOCR Bench: 84.3% | लागू नहीं |
| अन्य स्कोर | OmniDocBench v1.5: 93.28% | लागू नहीं |
| भाषाओं का सपोर्ट | भारतीय भाषाएं | 22 भारतीय भाषाएं |
| खासियत | खराब स्कैन और जटिल डॉक्यूमेंट हैंडल करना | 35 अलग-अलग वॉयस सपोर्ट |



