Ses Tanıma'yı Anlamak

Sorunları Ortadan Kaldırmak Için Enstrümanımızı Deneyin





Kanepede rahat bir şekilde oturduğunuzu ve sadece bir mektup yazmak veya birkaç komut yerine getirmek gibi basit görevleri yerine getirmek için bilgisayarınızı, dizüstü bilgisayarınızı veya cep telefonunuzu sipariş ettiğinizi hayal edin. Bu mümkün mü?

Tabii ki, Ses tanıma burada devreye giriyor.




Tanım gereği, insan konuşmasını tanıma sürecidir ve onu metin formuna dönüştürür.

Prensip

Temel ilkesi ses tanıma Herhangi bir insan tarafından konuşulan konuşmanın veya sözlerin havada ses dalgaları olarak bilinen titreşimlere neden olması gerçeğini içerir. Bu sürekli veya analog dalgalar sayısallaştırılır ve işlenir ve ardından uygun kelimelere ve ardından uygun cümlelere dönüştürülür.



ses tanıma

Konuşma Tanıma Sisteminin Bileşenleri

Peki, temel Konuşma Tanıma Sistemi nelerden oluşur?

Konuşma Tanıma Sisteminin Bileşenleri

  • Bir konuşma yakalama Cihazı : Ses dalgası sinyallerini elektrik sinyallerine dönüştüren bir mikrofon ve bilgisayarın anlayabileceği ayrık verileri elde etmek için analog sinyalleri örnekleyen ve sayısallaştıran bir Analogdan Dijitale Dönüştürücüden oluşur.
  • Dijital Sinyal Modülü veya İşlemci : Ham konuşma sinyali üzerinde frekans alanı dönüşümü gibi işlemleri gerçekleştirir, sadece gerekli bilgileri geri yükler.
  • Ön işlenmiş sinyal depolama : Önceden işlenmiş konuşma, konuşma tanımanın diğer görevlerini gerçekleştirmek için bellekte depolanır.
  • Referans Konuşma kalıpları : Bilgisayar veya sistem, eşleştirme için referans olarak kullanılmak üzere önceden tanımlanmış konuşma kalıplarından veya bellekte depolanmış şablonlardan oluşur.
  • Desen eşleştirme algoritması : Bilinmeyen konuşma sinyali, gerçek kelimeleri veya kelimelerin modelini belirlemek için referans konuşma modeli ile karşılaştırılır.
Sistemin Çalışması

Şimdi tüm sistemin gerçekte nasıl çalıştığını görelim.


Sistemin Çalışması

  • Bir konuşma, akustik bir dalga formu, yani mesaj taşıyan sinyal bilgisi olarak görülebilir. Artikülatörlerinin (konuşma organlarının) sınırlı hareket hızına sahip normal bir insan, saniyede ortalama 10 ses hızında konuşma üretebilir. Ortalama bilgi hızı yaklaşık 50-60 bit / saniyedir. Bu aslında konuşma sinyalinde sadece 50 bit / saniye bilgi gerektiği anlamına gelir. Bu akustik dalga formu, mikrofon tarafından analog elektrik sinyallerine dönüştürülür. Analogdan Dijitale dönüştürücü, farklı aralıklarla dalganın hassas ölçümlerini alarak bu analog sinyali dijital örneklere dönüştürür.
  • Sayısallaştırılmış sinyal, saniyede 16000 kez örneklenen bir periyodik sinyal akışından oluşur ve gerçek sinyalleri gerçekleştirmek için uygun değildir. Konuşma tanıma desen kolayca bulunamadığından işlem. Gerçek bilgiyi çıkarmak için, zaman alanındaki sinyal, frekans alanında sinyale dönüştürülür. Bu, Dijital Sinyal İşlemcisi tarafından FFT tekniği kullanılarak yapılır. Dijital sinyalde, bileşen her 1 / 100'de birincisaniyede bir analiz edilir ve bu tür her bileşen için frekans spektrumu hesaplanır. Diğer bir deyişle, sayısallaştırılmış sinyal, frekans genliklerinin küçük kısımlarına bölünmüştür.
  • Her bölüm veya frekans grafiği, insanlar tarafından yapılan farklı sesleri temsil eder. Bilgisayar, bilinmeyen bölümlerin belirli bir dilin kayıtlı fonetiği ile eşleştirmesini gerçekleştirir. Bu desen eşleştirmesi 3 şekilde yapılır:

Akustik fonetik bir yaklaşım kullanma : Akustik fonetik yaklaşımda genellikle Gizli Markov Modeli kullanılmaktadır. Bu model, konuşma tanıma için deterministik olmayan bir olasılık modeli geliştirir. Bu model iki değişkenden oluşur - bilgisayar belleğinde saklanan fonemlerin gizli durumları ve dijital sinyalin görünür frekans bölümü. Her sesbirim kendi olasılığına sahiptir ve parça olasılığa göre ses birimi ile eşleştirilir ve eşleşen ses birimleri daha sonra dilin depolanan gramer kurallarına göre doğru sözcükleri oluşturmak için bir araya toplanır.

Bir örüntü tanıma yaklaşımı kullanma : Örüntü tanıma yaklaşımında, sistem herhangi bir dil için belirli bir konuşma örüntüsü ile eğitilir ve bilinmeyen konuşma örüntüsü, zaman atlama tekniği kullanılarak sinyaller arasındaki mesafe belirlenerek referans konuşma örüntüsü ile karşılaştırılır.

Yapay zekayı kullanma : Yapay Zeka yaklaşımı, spektral ölçümler temelinde konuşulan seslerin bilgisi, uygun anlamlı ve sözdizimsel kelimelerin bilgisi gibi temel bilgi kaynaklarının kullanımına dayanmaktadır.

Konuşma Tanıma Sisteminin bağlı olduğu faktörler

Konuşma tanıma sistemi aşağıdaki faktörlere bağlıdır:

  • İzole Kelimeler : Konuşulan ardışık sözcükler arasında bir duraklama olması gerekir çünkü sürekli sözcükler üst üste gelebilir ve bu da sistemin bir sözcüğün ne zaman başladığını veya bittiğini anlamasını zorlaştırır. Bu nedenle ardışık sözcükler arasında bir sessizlik olması gerekir.
  • Tek Hoparlör : Aynı anda konuşma girişi vermeye çalışan birçok konuşmacı, sinyallerin üst üste binmesine ve kesintilere neden olabilir. Kullanılan konuşma tanıma sistemlerinin çoğu konuşmacıya bağlı sistemlerdir.
  • Kelime boyutu : Büyük kelime dağarcığına sahip dillerin, küçük kelime dağarcığına sahip olanlara göre kalıp eşleştirme için düşünülmesi zordur, çünkü ikincisinde belirsiz kelimelere sahip olma şansı daha düşüktür.
Windows 7'de Konuşma Tanıma Sistemi

Konuşma tanıma sistemi için Windows 7 kullanan herhangi bir kişi için aşağıdaki adımları tavsiye etmek isterim

  • Başlat menüsünden veya simgeye tıklayarak Denetim Masası'nı açın.
  • Erişim Kolaylığı'nı seçin ve ardından Konuşma Tanıma'yı tıklayın.
  • Ardından, mikrofon kur'a tıklayın ve mevcut seçeneklerden masaüstü mikrofonunu seçin.
  • Sonra konuşma eğitimini alın ve verilen talimatları izleyin.
  • Bundan sonra, bilgisayarınızı daha iyi seçenekler için eğitin, böylece bilgisayar konuşma sinyalinizin belirli bir modelini saklasın. Bu, 'bilgisayarınızı sizi daha iyi anlayacak şekilde eğitin' seçeneğini tıklayarak ve ardından talimatları izleyerek yapılır.
  • Şimdi konuşma tanıma simgesini başlatın ve konuşmanızı bilgisayara dikte etmeye başlayın. Bilgisayar sözlüğüne kendi kelimelerinizi de ekleyebilirsiniz.
Pratik Konuşma Tanıma Sistemleri: HM2007 Kullanımı

Konuşma Tanıma IC kullanılarak pratik bir konuşma tanıma sistemi kurulabilir HM2007 . HM2007, konuşma tanıma işlevi sağlayan 48 pinli bir IC'dir. İki modda çalışır: Manuel mod veya CPU modu. Her iki modda da IC, önce tuşa basılan karşılık gelen numara için her kelimeyi söyleyen kullanıcı tarafından kelimeleri tanımak üzere eğitilir. IC, her kelime sinyalini kelimeye karşılık gelen hafıza konumuna kaydeder. IC'den veri çıkışı, LCD'de görüntülendiği yerden Mikroişlemciye arayüzlenir.

Pratik Konuşma Tanıma Sistemleri

Normalde HM2007 işlemi için manuel modu kullanırız.

  • HM2007, IC'nin eğitim amaçlı hazır olduğunu gösteren aktif bir düşük pin olan RDY pininden oluşur.
  • Ses girişi, IC'nin MICIN pinine bağlı bir mikrofon aracılığıyla verilecektir.
  • IC, her kelimeye karşılık gelen sayı girişi sağlamak için kullanılan bir tuş takımı ile arayüzlenir. IC iki işlevde çalışır - Net ve Eğit. Klavyede Tren tuşuna basıldığında, IC eğitim sürecine başlar.
  • Kullanıcı, 'Eğit' fonksiyon tuşuna basmadan önce bir sayı tuşuna basar ve gerekli kelimeyi mikrofona söyler.
  • IC, SRAM'ın karşılık gelen ME pinine bağlı olan ME (Hafıza Etkinleştirme) pinine yüksek bir sinyal gönderir. Basılan numaraya karşılık gelen 8 bitlik veri sinyali, harici veri yolu aracılığıyla SRAM'de (harici RAM) saklanır.
  • Ses girişi algılandıktan sonra, RDY pini mantıksal olarak yüksektir ve IC, tanıma sürecini başlattığı tanıma durumuna gelir.
  • İşlemin sonucu, DEN (Data Enable) pini yüksek olan veri yolu üzerinden verilir.
  • 8 bitlik veriler daha sonra Mikroişlemciye bir seri Arabirim işlemcisi aracılığıyla verilebilir veya ilk olarak IC 74HC573 mandalı kullanılarak kilitlenebilir.
  • Mikrodenetleyici bir LCD ile arayüzlenir ve karşılık gelen kelime ekranda görüntülenecek şekilde programlanır.

Alınması gereken tek önlem, homonim (benzer sese sahip kelimeler) kullanmamak ve ayrıca sesteki uyarılmaya dikkat etmektir.

Yani, hepsi bu nasıl temel konuşma tanıma sistemi İşler. Daha fazla giriş eklenebilir.

Görüntü Kredisi

  • Konuşma Tanıma Sistemi Gstatik
  • Konuşma Dalga Biçimi Manipülasyonu Dadisp

Konuşmaya Giriş ve Konuşmacı Tanıma ile Konuşma Tanıma Sisteminin Bileşenleri - Richard D.Peacocke ve Daryl H. Graf