AI Signals — Viikonloppulukemisto: Mitä viisi tekoälymallia opettivat meille osakkeiden arvonmäärityksestä
- Alkudata 460 arvostuksesta 4 päivän ajalta: kaikki viisi LLM:ää kallistuvat varovaiseen suuntaan, poikkeama -2,8 %:sta -13,8 %:iin konsensukseen nähden
- GPT tuottaa jokaiselle yhtiölle täsmälleen 2,0 % terminaalikasvun (σ=0,00) — promptin varaoletus omaksuttu lopullisena vastauksena, ei järjestelmän raja
- Viisi keskitason tekoälymallia rinnakkain 45 $/kk — rajoitettu pelkkään tekstipäättelyyn ilman työkaluja tai selailua
- Suomalaiset osakkeet näyttävät hyvin kalibroituilta (-3,3 %), USA:n suuryhtiöillä -12,7 % ero — hypoteeseja seurattavaksi datan kertyessä
Kokeilu
Mitä tapahtuu, kun viisi kilpailevaa tekoälymallia saa samat talousluvut samasta yhtiöstä ja niiltä kysytään osakkeen arvoa? Rakensimme järjestelmän selvittääksemme — ja varhaiset tulokset, vaikka alustaviakin, herättävät jo kiinnostavia kysymyksiä siitä, miten tekoäly päättelee taloudellisesta arvosta.
AI Investor Barometer ajaa päivittäisen putken, jossa GPT, Claude, Gemini, DeepSeek ja Grok saavat kukin identtiset yhtiöperustiedot — liikevaihtohistoria, marginaalit, analyytikkokonsensus, sektorikonteksti — ja tuottavat neljä arvostusoletusta: liikevaihdon kasvu, tavoitemarginaali, pääoman kustannus ja terminaalikasvu. Deterministinen arvostusmoottori muuntaa oletukset malliestimaateiksi käyttäen joko DCF-mallia operatiivisille yhtiöille tai ylituottomallia rahoitussektorille.
Yksikään malli ei näe toisen mallin tulosta. Yksikään malli ei laske tavoitehintaa suoraan. Tekoälyn tehtävä on arviointi — matematiikka on kiinteä.
Huomio otoskoosta: tämän artikkelin havainnot perustuvat neljän tuotantopäivän dataan — 460 mallituotokseen 23 yhtiöstä. Tämä riittää kuvioiden tunnistamiseen ja hypoteesien muodostamiseen, mutta on aivan liian vähän tilastollisesti vahvoihin johtopäätöksiin. Esitämme datan varhaisina signaaleina, emme vakiintuneina löydöksinä. Monet näistä kuvioista saattavat muuttua, kääntyä tai kadota viikkojen ja kuukausien datan kertyessä.
Mallit: keskitaso tarkoituksella
Luonnollinen kysymys: miksi ei käytetä jokaisen toimittajan tehokkaimpia malleja? Kokoonpano — GPT-4.1, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok-2 ja DeepSeek-chat — on heterogeeninen yhdistelmä. Nämä eivät ole keskenään vastaavia tuotteita: kukin toimittaja rakentaa API-tarjontansa eri tavoin, ja mallit vaihtelevat arkkitehtuuriltaan, kyvykkyystasoltaan ja hinnoittelultaan. Osa on selvästi keskitasoa toimittajansa valikoimassa, osa lähempänä lippulaivaa. Toimittajien välistä omenat-omenoihin-vertailua ei ole.
Valinta on myös käytännöllinen. Vaiheessa, jossa koko kehikkoa — prompteja, validointiputkea, arvostusmoottoria, datavirtoja — rakennetaan, testataan ja iteroidaan, ei ole järkeenkäypää polttaa kalleimpia malleja. Infrastruktuurin on todistettava toimivuutensa ennen kuin premium-laskenta on perusteltua. Keskitason mallit sopivat tähän hyvin: riittävän kyvykkäitä tuottamaan strukturoitua taloudellista päättelyä, riittävän edullisia ajettavaksi viiden mallin rinnakkaisajona 23 yhtiölle joka päivä järjestelmän kypsyessä.
Mallit ovat myös tarkoituksellisesti rajoitettuja. Niille ei anneta työkaluja, web-selailua eikä function calling -ominaisuuksia. Kukin malli saa staattisen tilannekuvan esihaetuista taloustiedoista — liikevaihtohistoria, marginaalit, analyytikkokonsensus, tuoreimmat IR-uutisotsikot — ja sen on pääteltävä puhtaasti tekstin perusteella. Ei reaaliaikaisia hakuja, ei lisäkysymyksiä, ei mahdollisuutta hakea lisädataa.
Tämä on tietoinen valinta: ennen kuin tekoälymalleille annetaan enemmän vapautta, on ymmärrettävä, miten ne käyttäytyvät tiukassa ohjauksessa. Rajoitus paljastaa kunkin mallin perusajattelutyylin — miten se tulkitsee samoja lukuja, painottaa epävarmuutta ja päätyy johtopäätöksiin, kun se voi ainoastaan ajatella, ei toimia.
Varhaisia havaintoja: varovainen vinouma
Neljän ensimmäisen päivän aikana kaikki viisi mallia kallistuvat varovaiseen suuntaan — jokaisen mallin keskimääräinen estimaatti jää alle analyytikkokonsensuksen. Ero vaihtelee Clauden maltillisesta -2,8 %:sta GPT:n -13,8 %:iin.
Onko tämä pysyvä kuvio vai alkuotoksen artefakti, jää nähtäväksi. Suunnan johdonmukaisuus kaikkien viiden mallin yli on kuitenkin huomionarvoista pienessäkin aineistossa. Yksi uskottava selitys: kielimallit kallistuvat konservatiivisuuteen epävarmuuden edessä. Ne ankkuroituvat voimakkaasti historialliseen dataan ja saattavat aliarvottaa tulevaisuuteen katsovia narratiiveja. Siinä missä ihmisanalyytikko saattaisi hinnoitella tuotelanseerauksen tai strategisen käänteen, tekoäly suojautuu.
| Malli | Keskim. poikkeama | Validiteetti | Nopeus | Hinta/1K | Cap-osuus |
|---|---|---|---|---|---|
| Claude | -2,8 % | 90,2 % | 26,5 s | 36,36 $ | 27,2 % |
| Gemini | -5,7 % | 98,9 % | 18,0 s | 10,26 $ | 33,7 % |
| Grok | -8,2 % | 98,9 % | 7,7 s | 14,63 $ | 42,4 % |
| DeepSeek | -10,6 % | 100 % | 25,2 s | 2,07 $ | 34,8 % |
| GPT | -13,8 % | 92,4 % | 10,5 s | 15,61 $ | 36,4 % |
Validiteetti-sarake ansaitsee selityksen. Jokainen mallin tuotos kulkee monivaiheisen validointiputken läpi: ensin JSON-rakenteen on vastattava tiukkaa skeemaa, jossa kaikki vaaditut kentät ja arvoalueet on määritelty. Sitten jokainen viitattu lähde-URL tarkistetaan sallittujen domainien listaa vasten — analyytikkoraportit ja kolmannen osapuolen kommentaarit estetään. Lopuksi oletusten on tuotettava mielekäs arvostus moottorissa ilman virheitä. Validiteetti on prosenttiosuus tuotoksista, jotka selviävät kaikista kolmesta vaiheesta. DeepSeekin 100 % tarkoittaa, että jokainen sen tuottama tuotos tällä jaksolla läpäisi kaikki tarkistukset. Clauden 90,2 % tarkoittaa, että noin joka kymmenes tuotos sisälsi rakenteellisen ongelman, joka esti kelvollisen arvostuksen. Pysyvätkö nämä validiteettiprosentit otoksen kasvaessa, on avoin kysymys.
Kiinnostava kuvio: GPT ja terminaalikasvu
Ehkä silmiinpistävin havainto tähän mennessä liittyy GPT:n terminaalikasvuoletukseen — ikuiseen kasvuprosenttiin, jota sovelletaan eksplisiittisen ennustejakson jälkeen. DCF-mallissa pienetkin muutokset tässä kertautuvat dramaattisesti.
Neljän ensimmäisen päivän aikana GPT on tuottanut täsmälleen 2,00 % jokaiselle yhtiölle. Keskihajonta: 0,00.
Nokia ja NVIDIA saavat saman terminaalikasvun. Elisa ja Tesla. UPM ja Amazon. GPT ei erottele — ainakaan toistaiseksi.
Selvitimme todennäköisen syyn: arvostuspromptissa annetaan kaikille malleille varaoletus 2,0 % terminaalikasvulle, jos dataa ei ole riittävästi. Neljä viidestä mallista näyttää käsittelevän tätä lähtökohtana ja säätävän yhtiökohtaisesti. GPT näyttää käsittelevän sitä lopullisena vastauksena — omaksuen varaoletuksen jokaiselle yhtiölle riippumatta sektorista tai kasvuprofiilista. Arvostusmoottori sallisi jopa 2,5 % tai enemmän teknologia- ja kasvusektoreille, joten kyse ei ole järjestelmän rajasta. Erottelisiko GPT eri tavalla rakenteellisesti erilaisella promptilla tai laajemmalla kontekstilla, on asia jota aiomme tutkia.
Claude sen sijaan osoittaa alkudatassa terminaalikasvun vaihtelua σ=0,39 — karkeasti 1,5 %:sta kypsille yhtiöille 3,0 %:iin kasvuteknologialle. Tämä viittaa yhtiökohtaisempaan analyysiin, mutta kuvion vahvistaminen vaatii lisää dataa.
| Malli | Keskim. terminaalikasvu | Keskihajonta | Keskim. WACC | Keskim. CAGR |
|---|---|---|---|---|
| Claude | 2,41 % | 0,39 | 9,13 % | 8,0 % |
| Grok | 2,21 % | 0,25 | 9,49 % | 8,0 % |
| DeepSeek | 2,19 % | 0,28 | 9,37 % | 6,0 % |
| Gemini | 2,02 % | 0,12 | 9,45 % | 8,0 % |
| GPT | 2,00 % | 0,00 | 9,68 % | 5,0 % |
Kaksi markkinaa, erilaiset signaalit
Markkinoiden välille piirtyy kiinnostava jako, joskin pieni otoskoko vaatii varovaisuutta.
Suomalaisilla osakkeilla keskimääräinen poikkeama on -3,3 % — suhteellisen lähellä analyytikkokonsensusta. Tämä voi viitata siihen, että mallit käsittelevät pohjoismaisia vakaita kasvuyhtiöitä kuten Elisaa, Sampoa ja Nordeaa kohtuullisen hyvin, tai se voi yksinkertaisesti heijastaa sitä, että analyytikkokonsensus näille yhtiöille on itsessään konservatiivinen.
Yhdysvaltojen suuryhtiöillä ero on suurempi: -12,7 % keskimääräinen poikkeama. Mallit näyttävät aliarvottavan systemaattisesti Applen, Microsoftin, NVIDIAn ja muut. Yksi hypoteesi: tämä heijastaa DCF-arvostuksen rakenteellista rajoitetta yhtiöille, joiden markkinapreemio heijastaa optionaalisuutta, ekosysteemilukkoa ja narratiivia, jota konservatiivinen kassavirtamallinnus ei pysty vangitsemaan. Mutta neljän päivän data ei riitä erottamaan rakenteellista vinoumaa kohinasta, ja tämä jako voi kaventua tai leventyä datan kertyessä.
Kustannukset
Viiden kilpailevan tekoälyanalyytikon pyörittäminen 23 yhtiölle maksaa noin 45 dollaria kuukaudessa. Kustannuserot toimittajien välillä ovat huomattavia — eivätkä alkudatan perusteella näytä korreloivan tuotoksen laadun kanssa.
DeepSeek käsittelee 1 000 arvostusta hintaan 2,07 $ — seitsemäntoista kertaa halvemmalla kuin Claude 36,36 dollarilla. Alkujaksolla DeepSeek saavutti 100 % validiteetin, kun Claude jäi 90,2 %:iin. Grok suorittaa arvostukset 7,7 sekunnissa — 3,4 kertaa nopeammin kuin Clauden 26,5 sekuntia. Hinnoittelu heijastaa toimittajien erilaisia API-strategioita: toiset veloittavat preemiota brändistään, toiset kilpailevat aggressiivisesti kustannuksilla.
Viikoittainen AI Signals -raportti, jonka Claude Sonnet generoi automaattisesti, maksaa 0,034 $ per numero.
Vertailun vuoksi: yhden nuoremman osakeanalyytikon kuukausipalkalla rahoittaisi tätä järjestelmää vuosikymmeniä. Kysymys ei ole siitä, voiko tekoäly korvata analyytikon — vaan siitä, mitä tapahtuu, kun ajat useita tekoälynäkökulmia rinnakkain ja annat niiden olla eri mieltä.
Varhaisia johtopäätöksiä
Neljä päivää ei riitä johtopäätöksiin — mutta riittää muotoilemaan kysymyksiä, joita kannattaa seurata.
Onko LLM:illä systemaattinen konservatiivinen vinouma arvonmäärityksessä? Kaikki viisi mallia kallistuvat varovaiseen suuntaan alkudatassa. Jos tämä jatkuu viikkojen ja kuukausien yli, se viittaisi rakenteelliseen ominaisuuteen siinä, miten kielimallit päättelevät taloudellisesta epävarmuudesta. Jos se kääntyy, alkuperäinen kuvio oli kohinaa.
Luoko mallien monimuotoisuus hyödyllistä signaalia? Mallien väliset erimielisyydet — Clauden suhteellinen optimismi, GPT:n mekaaninen konservatiivisuus, DeepSeekin halpa luotettavuus — ovat kiinnostavia juuri siksi, että ne ovat johdonmukaisia yhtiöiden yli. Ennustaako mallien hajonta mitään, jää nähtäväksi.
Ennustaako hinta laatua? DeepSeekin vahva alkusuoriutuminen alhaisimmalla kustannuksella haastaa oletuksen, että kalliit mallit tuottavat parempaa strukturoitua tulosta. Mutta neljä päivää on liian ohut yleistettäväksi — validiteetti- ja vinoumakuviot voivat lähestyä toisiaan tai erkaantua lisädatan myötä.
Mitkä ovat pelkän tekstipäättelyn rajat? Ilman selailua tai työkaluja mallit voivat käsitellä vain sen, mitä niille annetaan. Ne eivät voi vahvistaa huhua, tarkistaa päivän raaka-ainehintoja tai lukea tuoretta tulosjulkistusta. Tämä rajoitus on toistaiseksi tarkoituksellinen — se eristää puhtaan päättelykyvyn — mutta tulevat iteraatiot tutkivat, mitä tapahtuu kun mallit voivat aktiivisesti etsiä tietoa.
Kuinka paljon kehys rajoittaa mallia? Kovat rajat — analyytikkokonsensus ±40 %, P/E-kertoimet, terminaaliarvon osuusrajat — ylikirjoittavat tekoälyn raakaa estimaattia 27–42 % arvostuksista alkudatassa. Mallit saattavat olla vähemmän vapaita kuin miltä näyttää, ja kehys itsessään muokkaa tulosta merkittävästi.
Tämä on aivan jatkuvan kokeilun alkuvaihe. Palaamme näihin havaintoihin aineiston kasvaessa, ja odotamme osan niistä pitävän paikkansa ja osan vaativan uudelleenarviointia. Rehellinen vastaus useimpiin kysymyksiin tällä hetkellä on: emme vielä tiedä — mutta rakennamme infrastruktuuria sen selvittämiseksi.