Page Header

โครงข่ายประสาทเทียมสำหรับการจำลองผลตอบสนองอิมพัลส์ของตู้ลำโพงกีตาร์แบบเวลาจริง
Artificial Neural Networks for Real-Time Digital Emulation of Guitar Speaker Cabinet Impulse Response

Tantep Sinjanakhom, Sorawat Chivapreecha

Abstract


งานวิจัยนี้นำเทคโนโลยีการประมวลผลสัญญาณดิจิทัลแบบเวลาจริง และโครงข่ายประสาทเทียมมาพัฒนาระบบที่สร้างผลตอบสนองอิมพัสส์ของลำโพงตู้กีตาร์ MarshalL 1960A ตามลักษณะการติดตั้งไมโครโฟนตามที่ผู้ใช้กำหนด โดยโมเดลจะรับค่าเป็นประเภทไมโครโฟน ตำแหน่งของลำโพงที่ติดตั้งไมโครโฟน ระยะห่างระหว่างไมโครโฟนกับตู้ และมุมเอียง โมเดลโครงข่ายประสาทเทียมที่ผ่านการฝึกสอนสามารถสร้างผลตอยสนองอิมพัสส์สำหรับตู้ลำพงได้ทั้งเสียงที่มีอยู่ในชุดข้อมูล และเสียงของการตั้งค่าที่ไม่มีอยู่ในชุดข้อมูลซึ่งเกิดจากการเรียนรู้ความสัมพันธ์ของข้อมูล เกณฑ์ที่ใช้ประเมินผลลัพธ์ที่ได้จากโมเดล คือ Cross-correlation, Error-to-signal Ratio, Power Spectral Density Error และ Magnitude-squared Coherence นอกจากนี้ มีการทดสอบการฟังคะแนนความคิดเห็นเฉลี่ยเพื่อพิจารณาความคล้ายคลึงของสัญญาณกีตาร์ที่ผ่านการจำลองเสียงลำโพง ผลการทดสอบชี้ว่าเสียงที่ผ่านการจำลองด้วยเอาต์พุตของโครงข่ายประสาทเทียมนั้นมีความใกล้เคียงกับเสียงที่จำลองด้วย IR จริงอย่างมาก เมื่อนำโมเดลนี้ไปสร้างเป็นดิจิทัลปลั๊กอินแล้วพบว่า มีประสิทธิภาพในการคำนวณที่รวดเร็วพอกับการทำงานแบบเวลาจริง การนำโมเดลนี้มาใช้งานนั้นไม่จำเป็นที่จะต้องเก็บข้อมูล IRไว้ในคอมพิวเตอร์โดยตรงเหมือนกับการทำงานรูปแบบเดิม โมเดลนี้สามารถสร้าง I ขึ้นมาทุกครั้งที่ผู้ใช้กำหนดค่พารามิเตอร์ต่าง ๆ และการใช้ระบบดังกล่าวในงานผลิตเพลงจะทำให้ผู้ใช้สามารถปรับแต่งเสียงได้สะดวกเพราะจะได้ฟังเสียงความแตกต่างของการตั้งค่าต่าง ๆ ทันที โดยไม่ต้องโหลดไฟล์ R ของการตั้งค่าแต่ละแบบไปมาเหมือนการทำงานแบบเดิม

This research employs real- time digital signal processing technologies and a neural network to create a system capable of generating the impulse response (IR) of a Marshall 1960A guitar cabinet speaker depending on a user-specified microphone setup. The microphone type, location of the speaker on which the microphone is placed, the distance between the microphone and the cabinet, and off-axis angle are all used as inputs by the model. Since the network can learn the correlations between the microphone position inputs and the related IR outputs, the trained neural network model can create IR for the speaker cabinet for both sounds that exist in the dataset and sounds that do not exist in the dataset. Cross-correlation, error-to-signal ratio, power spectral density error, and magnitude- squared coherence were used to evaluate the output of the model. Mean Opinion Score (MOS) listening tests were performed to determine the similarity of the emulated guitar signals. According to the results, the emulated cabinet sounds were perceived to be nearly identical to the original sounds. The performance of the implemented real-time audio plugin is proved to be computationally efficient. Since raw IR data for each microphone setup does not need to be explicitly stored in the PC's memory, using it in music production work allows the user to change the settings while hearing the differences without having to redo the IR file loading procedure.


Keywords



[1] A. Ratnarajah, Z. Tang, and D. Manocha, “IRGAN: Room impulse response generator for far-field speech recognition,” in Interspeech 2021, 2021.

[2] N. J. Bryan, “Impulse response data augmentation and deep neural networks for blind room acoustic parameter estimation,” in ICASSP 2020–2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020.

[3] C. Steinmetz. (2021, October). NeuralRever berator [Online]. Available: https://www. christiansteinmetz.com/projects-blog/neural reverberator

[4] A. Wright, E.-P. Damskägg, L. Juvela, and V. Välimäki, “Real-time guitar amplifier emulation with deep learning,” Applied Sciences (Basel), vol. 10, no. 3, pp. 766, 2020.

[5] M. A. Martinez Ramirez and J. D. Reiss, “Modeling nonlinear audio effects with endto- end deep neural networks,” in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019.

[6] M. A. Martínez Ramírez, E. Benetos, and J. D. Reiss, “Deep learning for black-box modeling of audio effects,” Applied Sciences (Basel), vol. 10, no. 2, pp. 638, 2020.

[7] G. Stan, J. Embrechts, and D. Archambeau, “Comparison of different impulse response measurement techniques,” Journal of the Audio Engineering Society, vol. 50, no. 4, pp. 249–262, 2002.

[8] S. W. Smith, The scientist and engineer’s guide to digital signal processing. California Technical Pub, 1997.

[9] A. Ratnarajah, S.-X. Zhang, M. Yu, Z. Tang, D. Manocha, and D. Yu, “FAST-RIR: Fast neural diffuse room impulse response generator,” arXiv [cs.SD], 2021.

[10] A. Wright and V. Valimaki, “Perceptual loss function for neural modeling of audio systems,” in ICASSP 2020–2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020.

[11] Redwirez (2021, October). FREE Marshall 1960 IRs [Online]. Available: https://redwirez.com/ pages/the-marshall-1960a-ir-pack.

[12] Suhr.com. (2021, October). PT 15 IR User Guide [Online]. Available: https://www.suhr.com/ wp-content/uploads/2020/10/PT-15-IR-User- Guide-100120.pdf.

[13] D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” arXiv [cs.LG], 2014.

[14] C. J. Steinmetz and J. D. Reiss, “Efficient neural networks for real-time analog audio effect modeling,” arXiv [eess.AS], 2021.

Full Text: PDF

DOI: 10.14416/j.kmutnb.2024.03.016

ISSN: 2985-2145