Tri nové viacjazyčné moduly USE sa blížia k TensorFlow

Tech / Tri nové viacjazyčné moduly USE sa blížia k TensorFlow 2 minúty prečítané

Google Voice Search



Google je jedným z priekopníkov výskumu AI a množstvo ich projektov sa obrátilo na obrátky. AlphaZero od spoločnosti Google DeepMind tím bol prielomom vo výskume AI kvôli schopnosti programu naučiť sa komplikované hry sám od seba (Bez ľudského tréningu a zásahov). Google tiež odviedol vynikajúcu prácu v Programy na spracovanie prirodzeného jazyka (NLP), čo je jeden z dôvodov efektívnosti Google Assistant pri porozumení a spracovaní ľudskej reči.

Google nedávno oznámil vydanie troch nových POUŽÍVAJTE viacjazyčné moduly a poskytnúť viacjazyčné modely na načítanie sémanticky podobného textu.



Prvé dva moduly poskytujú viacjazyčné modely na načítanie sémanticky podobného textu, jeden optimalizovaný pre výkon načítania a druhý pre rýchlosť a menšie využitie pamäte. Tretí model je špecializovaný na vyhľadávanie otázok a odpovedí v šestnástich jazykoch (USE-QA) a predstavuje úplne novú aplikáciu USE. Všetky tri viacjazyčné moduly sú trénované pomocou a rámec viacúčelového duálneho kódovača , podobný pôvodnému modelu USE pre angličtinu, pri použití techník, ktoré sme vyvinuli na vylepšenie duálny kódovač s prístupom softmax s aditívnou rezervou . Sú určené nielen na udržanie dobrého prenosového výučbového výkonu, ale na dobré vykonávanie sémantických úloh pri načítaní.



Spracovanie jazyka v systémoch prešlo dlhou cestou, od základnej syntaktickej syntaktickej analýzy stromu až po veľké vektorové asociačné modely. Pochopenie kontextu v texte je jedným z najväčších problémov v oblasti NLP a program Universal Sentence Encoder to rieši konverziou textu vo vysokodimenzionálnych vektoroch, čo uľahčuje hodnotenie a denotáciu textu.



Zdroj štruktúry označenia UTE - blog Google

Podľa spoločnosti Google „ Všetky tri nové moduly sú postavené na architektúre sémantického vyhľadávania, ktorá zvyčajne rozdeľuje kódovanie otázok a odpovedí na samostatné neurónové siete, čo umožňuje hľadať medzi miliardami potenciálnych odpovedí v priebehu milisekúnd. „Inými slovami, to pomáha pri lepšej indexácii údajov.

Všetky tri viacjazyčné moduly sú trénované pomocou a rámec viacúčelového duálneho kódovača , podobný pôvodnému modelu USE pre angličtinu, pri použití techník, ktoré sme vyvinuli na vylepšenie duálny kódovač s prístupom softmax s aditívnou rezervou . Sú určené nielen na udržanie dobrého prenosového výučbového výkonu, ale na dobré vykonávanie sémantických úloh pri načítaní . “ Funkcia Softmax sa často používa na šetrenie výpočtovej sily umocnením vektorov a následným vydelením každého prvku súčtom exponenciálu.



Architektúra sémantického vyhľadávania

„Všetky tri nové moduly sú postavené na architektúrach sémantického vyhľadávania, ktoré zvyčajne rozdeľujú kódovanie otázok a odpovedí na samostatné neurónové siete, čo umožňuje hľadať medzi miliardami potenciálnych odpovedí v priebehu milisekúnd. Kľúčom k použitiu duálnych kódovačov na efektívne sémantické vyhľadávanie je predkódovanie všetkých odpovedí kandidátov na očakávané vstupné dotazy a ich uloženie do vektorovej databázy, ktorá je optimalizovaná na riešenie problém najbližšieho suseda , ktorý umožňuje rýchle a rýchle vyhľadanie veľkého počtu kandidátov presnosť a stiahnutie z obehu . “

Tieto moduly si môžete stiahnuť z TensorFlow Hub. Ďalšie informácie nájdete v plnom znení na GoogleAI príspevok v blogu .

Značky google